metodologÍa para el desarrollo de modelos de …

101
METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE SEGMENTACIÓN Y SU APLICACIÓN AL MERCADEO GUSTAVO ADOLFO PÁEZ ESPITIA Tesis de Grado Director José Abásolo Doctor de Tercer Ciclo UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE SISTEMAS BOGOTÁ 2004

Upload: others

Post on 05-Jul-2022

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE SEGMENTACIÓN Y SU APLICACIÓN AL MERCADEO

GUSTAVO ADOLFO PÁEZ ESPITIA

Tesis de Grado

Director José Abásolo

Doctor de Tercer Ciclo

UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA

DEPARTAMENTO DE SISTEMAS BOGOTÁ

2004

Page 2: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

2

A mis padres, Por su sacrificio y esfuerzo

A mis hermanos

Por su compañía

A mis amigos, Por su apoyo en los momentos difíciles

Y por no dejarme desfallecer

A mi novia, Porque sin ella no lo hubiera logrado…

Gracias a todos aquellos que,

De una u otra forma, Me ayudaron a alcanzar esta meta.

Gus.

Page 3: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

3

AGRADECIMIENTOS

El autor del presente documento quiere agradecer a: José Abásolo, Profesor Titular de la úniversidad de los Andes por la orientación brindada para el desarrollo de este proyecto y por su confianza en mí trabajo. La empresa farmacéutica que suministró la información suficiente para realizar la prueba piloto de aplicación de la metodología.

Page 4: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

4

CONTENIDO

pág.

MARCO CONCEPTUAL ....................................................................................... 12

1. ¿QUE ES EL MERCADEO? ...................................................................... 12

1.1. NUEVOS RETOS A TENER EN CUENTA ................................................ 16

2. LA SEGMENTACIÓN ................................................................................ 18

2.1.1. RFM Recency, Frequency, Monetary.......................................................... 19

2.1.2. Análisis Cross-Tab...................................................................................... 24

2.1.3. Árboles de Decisión .................................................................................... 27

2.1.4. Análisis Clusters.......................................................................................... 32

2.1.5. Redes Neuronales ...................................................................................... 34

3. SAMPLING Y OVERSAMPLING ............................................................... 47

4. METODOLOGÍA PARA EL DESARROLLO DE SEGMENTACIÓN EN

MERCADEO ......................................................................................................... 49

4.1. IDENTIFICACIÓN DE LOS OBJETIVOS DEL NEGOCIO ......................... 50

4.1.1. Conformación del Staff de Trabajo ............................................................ 51

4.1.2. Planteamiento, Delimitación y Definición de los Objetivos......................... 54

4.1.3. ¿Realmente es necesaria la Segmentación? ............................................ 55

4.1.4. Cómo se va a desarrollar el proyecto ........................................................ 57

4.1.5. Caso de Estudio – Definición del Problema............................................... 58

Page 5: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

5

4.2. TRANSFORMAR LOS DATOS EN INFORMACIÓN ACCIONABLE

(DESARROLLO DEL MODELO DE SEGMENTACIÓN)....................................... 71

4.2.1. Identificar y Obtener los Datos:.................................................................. 72

4.2.2. Validar, explorar y limpiar los datos ........................................................... 73

4.2.3. Llevar los datos a la granularidad correcta ................................................ 73

4.2.4. Agregar variables Derivadas...................................................................... 73

4.2.5. Preparar el Model Set ................................................................................ 74

4.2.6. Escoger la herramienta para el desarrollo del modelo............................... 74

4.2.7. Pruebas, Evaluación y Verificación del Modelo ......................................... 77

4.3. ACTUAR SOBRE LA INFORMACIÓN....................................................... 81

4.4. MEDIR LOS RESULTADOS OBTENIDOS................................................ 83

5. CASO DE ESTUDIO, APLICACIÓN DE LA METODOLOGÍA ................... 83

6. CONCLUSIONES ...................................................................................... 96

REFERENCIAS .................................................................................................... 98

ANEXO 1 ............................................................................................................ 100

Page 6: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

6

LISTA DE TABLAS

pág.

Tabla 1. Clientes y Valores RFM………………………………………………………20

Tabla 2. Importancia y pesos por variable……………………………………………20

Tabla 3. Reglas de normalización para el método de codificación fuerte………...21

Tabla 4. Segmentación mediante el método de codificación fuerte…………….....21

Tabla 5. Segmentos Codificación Fuerte……………………………………………..22

Tabla 6. Segmentación mediante el método RFM por Ordenamiento…………….22

Tabla 7. Segmentos RFM por Ordenamiento………………………………………...23

Tabla 8. Datos del análisis en cruz de las variables de Reticencia y Frecuencia...25

Tabla 9. Proceso de entrenamiento para redes de Kohonen……………………….43

Tabla 10. Usuarios afiliados y no afiliados con su tasa de deserción……………..64

Tabla 11. Matriz de confusión 1………………………………………………………78

Tabla 12. Matriz de confusión 2………………………………………………………..79

.

Page 7: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

7

LISTA DE FIGURAS

pág.

Figura 1: Planeación del proceso de mercadeo……………………………………...13

Figura 2. Aumento en la tasa de error a medida que la profundidad del árbol

aumenta o se prueba un nuevo set de datos…………………………………………28

Figura 3. Distribución Chi Cuadrado…………………………………………………..29

Figura 4. Clusters de Población………………………………………………………..32

Figura 5. Ejemplo de una red neuronal simple con una capa oculta………………34

Figura 6. Componentes básicos de una red neuronal, con sumatoria ponderada

estándar como regla de propagación………………………………………………….35

Figura 7. Tipos comunes de funciones de activación………………………………..37

Figura 8. Modelo propuesto para el desarrollo de la segmentación……………….49

Figura 9. Proceso de transformación de datos en resultados……………………....72

Figura 10. Análisis DOFA prueba piloto - proyecto de segmentación……………86

Figura 11: Objetivo del piloto – proyecto segmentación……………………………87

Figura 12. Árbol de decisión, con colores basados en todos los cuadrantes…….93

Figura 13. Árbol de decisión, con colores basados en el cuadrante 4…………….93

Figura 13. Clustering ……………………………………………………………………93

.

Page 8: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

8

RESUMEN

La segmentación es una de las técnicas básicas en minería de datos y un procedimiento que apoya efectivamente los procesos de mercadeo. El conocer qué es la segmentación, los algoritmos que se pueden aplicar como lo son las redes neuronales, arboles de decisión o clusters entre otros y la forma en que cada uno de estos manipula los datos para encontrar los segmentos óptimos, fundamentan y brindan más y mejores herramientas a los análistas para poder obtener el máximo provecho de los datos. El plateamiento de una metodología de segmentación, guía el proceso de desarrollo adecuado de modelos para obtener así resultados confiables y precisos. La aplicación de esta metodología al mercadeo, le da un sentido al procedimiento, al mismo tiempo que muestra como las nuevas tecnologias se incorporan profundamente en los procesos organizacionales y les permiten amplíar sus horizontes viendo “más alla de lo evidente.” Por último, la aplicación de la metodología a un caso práctico de la vida real, revela su eficacia y pone sobre la mesa el análisis profundo de sus resultados.

Page 9: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

9

INTRODUCCIÓN En el mundo actual, las organizaciones se han visto obligadas a redefinir la forma de llegar a los consumidores utilizando diferentes herramientas y estrategias de mercadeo. Empresas como la cadena multinacional de ropa Levi’s (www.levis.com) evidencian claramente estos cambios, permitiendo desde su sitio web diseñar ropa a la medida y según el estilo de cada persona. Los portafolios en los bancos planeados según el tipo de cliente, campañas publicitarias de empresas que utilizan famosas estrellas de música y televisión según el país donde promocionan, planes de viajero frecuente en las agencias de viaje y listas de correo que agrupan a las personas de acuerdo con sus intereses e información demográfica, son solamente algunas de las muchas caras que ha adquirido esta nueva forma de interacción entre consumidores y marcas. Entre las posibles causas para el surgimiento de esta oleada de técnicas de mercadeo se encuentran las siguientes:

Primero. La globalización y su consecuente disponibilidad y proliferación de información sobre cualquier tema, a la cual tiene acceso un gran número de personas por medio del uso de herramientas como el Internet.

Esta nueva situación del entorno pone en conocimiento de los clientes información acerca de productos competidores a nivel nacional e internacional, forzando a las empresas a generar nuevas formas de atraer y retener a los clientes creando diferencias que les proporcionen ventajas competitivas sobre sus adversarios.

Segundo. El creciente número de consumidores informados, conscientes de sus características particulares y quienes no se encuentran dispuestos a permitir que estas características continúen siendo ignoradas, esperan y buscan productos y/o servicios que suplan esas diferencias, siendo deber de las compañías poner en conocimiento publico la forma en que sus productos se adecuan a dichas necesidades.

Por último y probablemente la principal causa, se encuentra en la necesidad de las compañías de aprovechar sus recursos eficientemente, llegar al cliente final de una manera más efectiva y económicamente rentable, así como el evitar el

Page 10: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

10

riesgo financiero que representan ciertos clientes para las compañías, dieron un nuevo aspecto a evaluar en la búsqueda de consumidores para sus productos y en las campañas de mercadeo dirigidas a estos.

Una de las estrategias más significativas entre estas nuevas tendencias es la Segmentación. Ésta tiene como fin el llegar de una manera más efectiva al consumidor final identificando las diferencias que posee y permitiendo de este modo adecuar productos, ofertas y campañas de mercadeo a grupos específicos de clientes delineados por características similares. Una aclaración que se debe hacer es el hecho de que la segmentación no es una nueva estrategia en cuanto a su invención, pero es hasta ahora que empieza a ser ampliamente utilizada por múltiples compañías, en diferentes mercados a lo largo del mundo, debido en gran medida a la proliferación de herramientas que facilitan su desarrollo a precios relativamente razonables y evitando incurrir en los costos de contratar estadísticos o matemáticos que se encarguen del análisis de los datos históricos de la empresa. La segmentación le da a las compañías una herramienta para superar algunos de los problemas planteados anteriormente, creando mercados objetivo altamente detallados, con una excelente perspectiva de rentabilidad. Brinda además un instrumento efectivo para identificar clientes potencialmente peligrosos en términos financieros. Este documento presenta una metodología para realizar procesos de segmentación que permitan nutrir las decisiones de mercadeo y publicidad que deben tomar las organizaciones contemporáneas para solidificar su relación con el consumidor final. A través del documento se exploran los beneficios que trae el uso de herramientas de segmentación dentro de la temática del mercadeo, como también se describen algunos modelos, técnicas y pasos para llevar a cabo un proceso de segmentación. Finalmente, se desarrolla y analiza un caso a través del cual se refleja la aplicación de la metodología, las posibilidades y beneficios que trae la segmentación en una empresa del sector farmacéutico en el contexto colombiano.

Page 11: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

11

OBJETIVO GENERAL Con este proyecto se pretendió generar una metodología detallada para el desarrollo de modelos de segmentación aplicados al mercadeo, a partir de una metodología general de minería de datos.

OBJETIVOS ESPECÍFICOS

1. Adaptar una metodología general de minería de datos con el fin de generar un

nuevo modelo aplicable al campo específico de la segmentación. 2. Mostrar la aplicabilidad de los modelos de segmentación a los procesos de

mercadeo dentro del campo empresarial. 3. Desarrollar un caso real en el que se aplique la metodología propuesta como

una prueba piloto.

JUSTIFICACIONES Este documento busca definir una metodología para el desarrollo de una técnica de minería de datos llamada segmentación. De esta forma, se pretenden complementar las metodologías existentes para el desarrollo de procesos de minería de datos en general. La aplicación de esta metodología al mercadeo, pretende llevar a la práctica la teoría planteada para su verificación Esta investigación servirá de guía a estudiantes y profesionales que deseen en sus proyectos aplicar modelos de segmentación, ya que ofrece una orientación clara sobre los pasos que se deben seguir, la técnica que se debe aplicar según el problema y las formas de evaluar el modelo obtenido. La segmentación aplicada a procesos de mercado es una de las actividades básicas y de mayor potencial en la minería de datos. La línea de investigación en Ingeniería de Información del departamento de Ingeniería de Sistemas y Computación de la Universidad de los Andes, viene trabajando para desarrollar una experticia en aplicaciones de minería. El presente proyecto se enmarca bajo esta línea de investigación y se enfoca concretamente en el tema de la segmentación y en su utilización para apoyar procesos de mercadeo.

Page 12: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

12

MARCO CONCEPTUAL Este documento presenta una metodología para realizar segmentación orientada a procesos de mercadeo, y su organización es la siguiente: En el capitulo 1 se aborda el tema del mercadeo y se dan las razones por las cuales se hace necesaria la segmentación. El capitulo 2 explica que es la segmentación y analiza algunas de las técnicas existentes para la aplicación de modelos de segmentación. El capitulo 3 da un vistazo al muestreo (Sampling) aplicado específicamente a la segmentación. En el capitulo 4 se detalla la metodología propuesta para la aplicación y el desarrollo de modelos de segmentación en mercadeo y por último, el capitulo 5 contiene el desarrollo y análisis de un caso especifico de aplicación de la metodología de segmentación de mercados planteada en este documento. Finalmente, se presentan algunas conclusiones y referencias bibliográficas.

1. ¿QUE ES EL MERCADEO? A lo largo del tiempo y cada vez con mayor insistencia, las organizaciones se han interesado en desarrollar estrategias efectivas que les permita ser rentables y competitivas en el mercado. Pero ¿hacia dónde se deben orientar dichas estrategias? ¿qué elementos determinan que una organización está siendo exitosa? La principal respuesta se encuentra en los clientes. Esta afirmación ha sido reconocida tanto por los teóricos de la administración como por los gerentes que se encuentran al frente de las organizaciones actuales y ha permitido plantear nuevos interrogantes acerca de las implicaciones que tiene dicho reconocimiento para el mundo empresarial. Entre los aspectos de mayor relevancia en torno a este tema se encuentra la necesidad de hablar de los clientes en plural y no del cliente en singular. Esta distinción permite pensar en la diversidad de características, preferencias y motivaciones que poseen las personas que acceden a un mismo producto o servicio. En este sentido es importante tener claro que cada organización debe desarrollar directrices que se ajusten al estilo de los clientes con los que cuenta. En el momento en el que la organización conozca y aprenda a distinguir entre las costumbres, tendencias, características, motivos y preferencias de sus clientes, podrá desarrollar estrategias que satisfagan las necesidades de los mismos.

Page 13: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

13

Una de las consecuencias de afirmar que la satisfacción de los clientes es uno de los focos más representativos dentro de las organizaciones, se refiere a la necesidad de desarrollar procesos encaminados a generar, mantener y fortalecer el vínculo existente entre empresa y consumidores. De esta manera, el mercadeo surge como la alternativa precisa para lograr este cometido. Como toda respuesta ésta también acarrea nuevos interrogantes ¿qué significa mercadeo? Si todos los procesos de la organización se encuentran orientados a satisfacer las necesidades de los clientes ¿en qué se diferencia este proceso de los demás? Generalmente, las personas tienden a reducir el significado del mercadeo a la capacidad de ofrecer y vender un producto o servicio. Sin embargo, esta postura se encuentra focalizada en la oferta, descuidando el factor principal al cual se ha hecho alusión en este apartado: el cliente y el vínculo que establece con la organización. De acuerdo con Kotler, Armstrong, Saunders y Wong1, el mercadeo puede comprenderse como "un proceso central y directivo por el cual los individuos y grupos obtienen lo que necesitan y quieren a través de la creación e intercambio de productos y valor con otros". Esta definición refleja la relación existente entre las organizaciones y sus clientes, en donde las primeras encaminan sus esfuerzos hacia la generación de valor por medio de factores como calidad, precio y servicio, entre otros, con el fin de generar un lazo que mantenga el vínculo con los consumidores por medio de su satisfacción, lo cual redunda en el incremento de las ventas y por ende en el crecimiento empresarial. En esta misma línea, La Asociación Americana de Mercadeo2 desarrolló una definición que permite profundizar en las implicaciones que tiene el mercadeo en el vínculo clientes - empresa: "Mercadeo es el proceso de planear y ejecutar la concepción, precio, promoción y distribución de ideas, productos y servicios, con el fin de crear intercambios que satisfagan los propósitos de los individuos y de las organizaciones". Es decir que si las organizaciones quieren ser rentables y competitivas deben desarrollar una orientación al mercado, de tal forma que logren cumplir con sus propósitos de satisfacer a la población objetivo y mantengan una relación duradera con sus clientes. De acuerdo con Kotler y Wrenn3 una

1 KOTLER, Philip, ARMSTRONG, Gary, SAUNDERS, John y WONG, Veronica. Principles of Marketing: Second European Edition. New Jersey: Prentice Hall Inc, 1999. 2 Sociedad Americana de Mercadro. ¿What is the marketing?, citado por, Harvard Business School Publishing Corporation. Marketing Essentials, 2003. 3 Harvard Business School Publishing Corporation. Marketing Essentials, 2003.

Page 14: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

14

organización logra desarrollar una orientación al mercadeo si se hace estas cuatro preguntas: a) Quiénes son los clientes de la empresa. b) Qué quieren o necesitan los clientes de la empresa. c) De qué forma la empresa puede satisfacer de mejor forma que la competencia

las necesidades de sus clientes. d) De qué forma la empresa logra satisfacer las necesidades de sus clientes de

tal forma que logre obtener las utilidades que se ha propuesto. Cuando la organización logra comprometerse con estas preguntas encuentra el verdadero sentido del mercadeo como parte de su razón de ser y de su estrategia. Así mismo, la compañía encuentra en este proceso diferentes funciones que le serán de utilidad para responder a los anteriores cuestionamientos. De acuerdo con Fleisman4 el mercadeo cuenta con nueve funciones básicas: el análisis de cliente, la compra de insumos, la venta de productos y/o servicios, la planeación de nuevos productos y servicios, la fijación de precios, la distribución, la investigación de mercados, el análisis de oportunidad y la responsabilidad social. Estas funciones permiten plantear estrategias que se encuentren orientadas a satisfacer las necesidades de los clientes y hacen parte del plan de mercadeo que puede desarrollar una organización con el propósito de mantenerse y ser exitosa en su campo. La consolidación de estas funciones y la creación de un plan de mercadeo permiten que el intercambio que realiza la empresa con el cliente sea exitoso. Pero ¿en qué consiste un plan de mercadeo? Kotler y Wrenn5 plantean el siguiente modelo como el plan del proceso de mercadeo dentro de una compañía:

4 FLEISMAN, D. Modelos De Las Estrategias De Marketing: Para Las Micros, Pequeñas, Medianas Y Grandes Empresas. En: Gestión en el Tercer Milenio. Año 5 . Nº 9. Octubre 2002 5 Harvard Business School Publishing Corporation, Op. cit.

Page 15: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

15

Figura 1: Planeación del proceso de mercadeo Análisis de las oportunidades del mercado

Identificar el nicho de mercado, entender sus necesidades y conocer las características de la competencia.

Desarrollar una estrategia de mercadeo

Lluvia de ideas para generar nuevos productos o servicios. Definir el foco de la competencia y probar las ideas.

Crear un plan de mercadeo

Decidir cuál será la posición, precio, promoción del producto o servicio. Definir los canales de distribución y la fuerza de venta.

Poner la estrategia de mercadeo en acción

Prepararse para sorpresas y desaciertos e incorporar procesos de retroalimentación y control.

Evaluar la efectividad de la estrategia de mercadeo

Hacer ajustes adecuados al proceso.

Marketing Essentials6 Este plan de mercadeo o marketing mix tiene que ser optimizado para ajustarse a los nuevos retos que enfrenta el mercadeo hoy en día De acuerdo con este esquema, el primer aspecto que debe tener en cuenta la organización dentro de un plan del proceso de mercadeo debe ser el análisis y conocimiento de sus clientes. Es a partir del estudio de las características de los clientes que se logra posicionar los productos o servicios ofrecidos en el mercado. En este punto cobra sentido el análisis del comportamiento del consumidor. Existen diferentes razones que llevan a una persona u organización a adquirir un producto o servicio particular. Entre estas razones se encuentran los impulsos culturales, sociales, personales y psicológicos que llevan a determinar las preferencias, tendencias y deseos de los clientes. El estudio del comportamiento del consumidor incluye el qué, cómo, donde, porqué y con que frecuencia se acceden a los productos ofrecidos7. Una de las estrategias que está cobrando vigencia hace referencia a la segmentación de mercados, la cual se entiende como "el proceso que se sigue 6 Ibid. 7 FLEISMAN. Op. Cit.

Page 16: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

16

para dividir el mercado potencial en distintos subconjuntos de consumidores y seleccionar uno o más segmentos como blanco de ataque a ser alcanzado por una mezcla distinta de mercadotecnia"8. A continuación se exploran los nuevos retos a los que se enfrentan las organizaciones que quieren mantener un estrecho vínculo con sus consumidores. Posteriormente, se plantea la segmentación como una herramienta que permite afrontar dichos retos con el fin de fortalecer la relación entre las compañías y sus clientes.

1.1. NUEVOS RETOS A TENER EN CUENTA El mercadeo es un mundo en constante cambio, aunque su definición se mantenga relativamente invariable a través del tiempo. Las necesidades de las empresas, las personas y las variables de su entorno evolucionan y se modifican continuamente, esto hace que el mercadeo sea un mundo cada vez más competitivo, en el cual se deben aprovechar de forma efectiva los recursos limitados que se tienen a disposición. Los ejecutivos de mercadeo no se pueden dar el lujo de invertir su dinero y esfuerzos en campañas enfocadas a personas que no van a responder a su mensaje. Para evitar esto las empresas deben ser conscientes de lo que las personas quieren y así identificar quienes son los mejores receptores para su mensaje. Pero esto no es una tarea fácil. Para lograrlo el mercadeo se debe basar en el servicio y en las relaciones con el consumidor. Un consumidor mucho más informado que en el pasado, que conoce los productos y tiene una actitud critica en cuanto a sus funcionalidades y servicios, así como con respecto a su precio y las empresas que los producen, con información no solamente proveniente de anuncios publicitarios, sino de asociaciones para la protección de los consumidores, Internet, canales y revistas especializadas en los diferentes temas. De este mismo modo, las empresas deben conocer las características y la forma de llegar a sus posibles consumidores tanto con el mensaje publicitario, como con el producto evaluando variables como las que plantea Drozdenko y cols:

Tendencias en estilos de vida y características demográficas: Los datos sobre el estilo de vida, y los datos demográficos del cliente, indican sus gustos y necesidades. Su ocupación, hobbies, edad, composición familiar, procedencia, lugar de residencia, gustos e intereses definen los temas y el tipo de mensajes

8 Ibid.

Page 17: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

17

que estará dispuesto a atender y cuales definitivamente no llamaran su atención.

La información proporcionada por estos datos puede ir más allá e identificar sí una persona prefiere desplazarse hasta una tienda por departamentos o prefiere una opción que consuma menos tiempo y brinde un trato más personalizado, como una compra por catálogo, Internet o T.V. -Mercadeo Directo- así puede dedicar más tiempo a otras actividades de su interés.

Medios para hacer llegar el mensaje al consumidor: La fragmentación de los medios de comunicación, es uno de los nuevos retos que debe afrontar el mercadeo. Anteriormente, la forma de llegar al consumidor era mucho más sencilla, existían pocos canales de televisión, así como pocos medios escritos en los cuales pautar, así que con un anuncio en uno de ellos se aseguraba un gran porcentaje de recepción del mensaje por parte del público objetivo al que iba dirigido, aunque su inconveniente radicaba en que también existía otro gran porcentaje de recepción por parte del público que no respondería al mensaje. Hoy en día la televisión por cable y la gran cantidad de canales, revistas y periódicos especializados en diferentes temas han aumentado la fragmentación, esto ha contribuido a que se reduzca el número de personas de la población no objetivo a las que les llega la oferta, pero así mismo, también se ha reducido ampliamente el número de personas de la población objetivo a quienes efectivamente les llega el mensaje.

Medios como el Internet, el telemercadeo, el correo normal y el e-mail tienen una mayor capacidad de alcanzar la población objetivo en la medida que se desee y con costos variables dependiendo de cada uno. Los ejecutivos de mercadeo de hoy en día deben orientarse en mayor medida al uso de estos medios haciéndoles seguimiento para analizar su efectividad.

Cambios en las estructuras de distribución: Otro nuevo reto que enfrenta el mercadeo de hoy es el cambio en las formas de distribución de cualquier mercancía. Hoy en día, quien concentra el mayor poder de distribución es el retailer (tienda por departamentos, supermercado, etc.), quien es en última instancia que tiene contacto directo con el consumidor y puede analizar de forma más acertada sus hábitos de compra para ofrecer un servicio más completo a sus visitantes. Este poder, también representa una amenaza para los manufactureros, ya que el mayor porcentaje de las ventas se llevan a cabo por medio de este canal de distribución y si por algún motivo uno de estos retailers dejase de ofrecer sus productos, las pérdidas económicas serían muy significativas para la empresa. Esto solo es una muestra de la necesidad de

Page 18: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

18

usar los nuevos canales de distribución que existen y mediante los cuales el manufacturero puede ser directamente el distribuidor de sus productos. El Internet, las ventas por catálogos físicos y vía e-mail, posibilitan a las empresas el tener contacto directo con sus consumidores y así ellas mismas poder analizar las tendencias y características de estos, recogiendo información valiosa sobre sus productos y las necesidades de la población.9

Una herramienta que ha surgido cada vez con mayor fuerza y que permite analizar las tendencias de grupos de personas es la segmentación, la cual permite generar mercados objetivos detallados para cada producto o servicio ofrecido. Kotler y cols. plantean la utilidad de esta herramienta para procesos de mercadeo ya que “a través de la segmentación las compañías logran dividir mercados heterogéneos en pequeños segmentos que pueden ser alcanzados con mayor eficiencia desarrollando productos y servicios que se adecuen a sus necesidades particulares”10.

2. LA SEGMENTACIÓN

"If you are not thinking segments, you are not thinking. To think segments means thinking beyond what is out there to see."

Theodore Levitt in The Marketing Imagination.

Es una tarea de minería de datos, la cual busca dividir una población en segmentos de acuerdo a características que pueden ser definidas según el criterio de quien lleva a cabo el proceso o a los patrones naturales presentes en los datos. Existen dos tipos de segmentación, según la determinación de estas características. Si son proporcionadas por quien esta realizando el proceso –es decir, existe intervención humana- se denomina segmentación dirigida y es usada cuando se conoce qué es exactamente lo que se busca y/o existen reglas del negocio o mercado que definan esas características para la creación de los segmentos. Por otra parte, cuando estas características son generadas por el mismo proceso de segmentación, mediante análisis estadísticos –es decir sin intervención humana, permitiendo que los datos “hablen”- recibe el nombre de segmentación no dirigida o dirigida por los datos. Este tipo de segmentación

9 DROZDENKO, Ronald y DRAKE, Perry. Optimal Database Marketing, Strategy, Development and Data Mining. Thousand Oaks: Sage publications Inc, 2002. 10 KOTLER, ARMSTRONG, SAUNDERS y WONG, Op. cit. p. 379.

Page 19: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

19

se utiliza cuando se cree que pueden existir patrones naturales en los datos, o se desea generar grupos homogéneos para el desarrollo del modelo. 11 Estos dos tipos de segmentación no son mutuamente excluyentes, se pueden utilizar de manera conjunta dependiendo del problema y ambos van a aportar valor al desarrollo del modelo adecuado para logra los objetivos que se propone la compañía. La segmentación dirigida actúa permitiendo que quien esta desarrollando el modelo de segmentación seleccione las características y valores que van a definir los segmentos en que se va a dividir la base de datos, basándose en los factores conocidos que son importantes para alcanzar el objetivo de la compañía. Para esto se debe tener un conocimiento profundo de los datos, así como del ambiente en el que estos se encuentran inmersos. Por otra parte, dentro de la segmentación no dirigida se agrupan técnicas y algoritmos tales como CHAID (Detección automática de interacción Chi Cuadrado), análisis de clusters o análisis de factores y redes neuronales entre otras. Cada una de éstas se analizara en detalle en la sección que trata los algoritmos y técnicas de segmentación dentro de este capitulo. 2.1. TÉCNICAS DE SEGMENTACIÓN

En esta sección se explicará en qué consisten algunas de las técnicas más usadas para la aplicación de la segmentación, como lo son: RFM (Recency, Frequency, Monetary), Análisis Cross-Tab (Tabulación en cruz), Análisis de factores y de clusters, Árboles de Decisión y Redes Neuronales. 2.1.1. RFM Recency, Frequency, Monetary Es uno de los métodos más comunes de segmentación, el cual tuvo su origen en la industria de ventas por catálogo y consiste en segmentar a los consumidores por sus patrones de compra, como los que se exponen a continuación:12

11 DROZDENKO y DRAKE, Op. cit. p. 5. 12 Ibid. p. 145.

Page 20: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

20

• Recency o Reticencia: Es el tiempo transcurrido desde la última compra. Se basa en la idea que si un consumidor compró recientemente, es muy probable que vuelva a comprar. Es la característica más importante de las evaluadas por este método de segmentación.

• Frequency o Frecuencia: Es el número de compras que se realizaron durante

un periodo determinado de tiempo. Al igual que la reticencia, ésta utiliza el comportamiento pasado para predecir el futuro, aunque su poder predictivo es un poco menor.

• Monetary o Valor Monetario: Esta característica evalúa el monto total de

dinero que un consumidor invirtió en órdenes durante un periodo de tiempo determinado. Este comportamiento no brinda tantos datos como los dos anteriores, pero al usarlo de forma conjunta a estos, añade una nueva dimensión a evaluar en el proceso de segmentación.

Una de las principales ventajas de esta metodología se basa en su facilidad de implementación dando una efectividad aceptable. Sin embargo, una de sus limitaciones se refleja en que solamente evalúa los datos monetarios, de frecuencia y reticencia del cliente, lo cual no permite dar una visión completa del cliente que incluya toda la información que la compañía posee sobre éste. Existen dos métodos básicos de hacer segmentación RFM, el primero es el método tradicional, conocido como “hard coding” o codificación fuerte, el cual crea un puntaje ponderado para cada uno de los registros. Este puntaje está basado en cada uno de los valores de frecuencia, reticencia y monetario, y el peso que se le concede a cada uno dentro del análisis. Los registros con un puntaje mayor son los más deseables y aquellos con los puntajes más bajos son los menos deseables. Los segmentos se construyen a partir de la definición de rangos para los puntajes ponderados de los registros. El segundo método conocido como ordenamiento, consiste tal como su nombre lo indica en ordenar los registros con respecto a cada una de las variables RFM, ordenarlos con respecto a la reticencia, de los compradores más recientes a los más antiguos, con respecto a la frecuencia de los compradores más frecuentes a los más infrecuentes y ordenarlos con respecto al valor monetario, desde aquellos con mayor valor a los de menor valor. El orden de las variables varía según la importancia de éstas dentro del análisis. Por último, se divide el total de registros en el número de segmentos deseados, de tal manera que en el primer segmento

Page 21: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

21

se ubiquen aquellos con los valores de reticencia, frecuencia y monetarios más altos y en el último los registros con los valores más bajos. A continuación se presenta un ejemplo, en el cual la información de la tabla 1 se segmenta usando los dos métodos de RFM descritos anteriormente. Tabla 1. Clientes y Valores RFM

Cliente Reticencia (Semanas

desde la última compra)

Frecuencia (Número de compras

en las últimas 10 semanas )

Valor Monetario USD

(Dinero gastado en las últimas 10

semanas) Carlos 3 3 500 Maria 1 6 706 Juan 8 1 50 Tom 4 ½ 7 1.030 Luis ½ 15 927

Javier 4 3 290 José 3 5 700

Raquel 6 1 110 Pedro 1 3 465 Lucía 3 10 1.500

Tabla 2. Importancia y pesos por variable

Importancia (RFM por

ordenamiento)

Variable Peso (Codificación Fuerte)

2 Reticencia 5 1 Frecuencia 12 3 Valor Monetario 2

Page 22: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

22

Tabla 3. Reglas de normalización para el método de codificación fuerte

Variable Reglas de Normalización Reticencia 5 puntos si la compra se realizo hace más de 8 semanas

inclusive 10 puntos si la compra se realizó entre 6 semanas inclusive y 8 semanas 15 puntos si la compra se realizó entre 4 semanas inclusive y 6 semanas 20 puntos si la compra se realizó entre 2 semanas inclusive y 4 semanas 25 puntos si la compra se realizó hace menos de 2 semanas

Frecuencia Número de compras X 2 hasta un máximo de 25 puntos Valor Monetario

Valor de las compras X 0.05 hasta un máximo de 25 puntos

Tabla 4. Segmentación mediante el método de codificación fuerte. Valores normalizados de variables según la Tabla 3.

Cliente Reticencia (Semanas

desde la última compra)

Frecuencia (Número de

compras en las últimas 10 semanas )

Valor Monetario USD

(Dinero gastado en las últimas 10

semanas)

Total Ponderado

Luis 25 25 19 463 Lucía 20 20 25 390 Maria 25 12 14 297 Tom 15 14 21 285 José 20 10 14 248

Pedro 25 6 9 215 Carlos 20 6 10 192 Javier 15 6 6 159 Raquel 10 2 2 78 Juan 5 2 1 51

Se obtienen los puntajes de la Tabla 4 ponderando en cada registro los valores de reticencia frecuencia y valor monetario por los puntajes en la tabla 2 y sumando su resultado. Como el mayor puntaje puede ser

475 = 25*12 (frecuencia) + 25*5 (reticencia) + 25*2 (valor monetario)

Page 23: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

23

y se desean 5 grupos homogéneos, se harán segmentos cada 95 puntos (475/5) para así obtener el siguiente resultado: Tabla 5. Segmentos Codificación Fuerte

Segmento 1 (381- 475)

Segmento 2 (286 – 380)

Segmento 3 (191 – 285)

Segmento 4 (96 – 190)

Segmento 5 (0 - 95)

Luis Maria José Javier Raquel Lucía Tom Pedro Juan

Carlos

Al analizar las desventajas de este método, se encuentra que los pesos asignados a las variables no son obtenidos estadísticamente, sino que son arbitrarios, lo que no asegura la máxima separación de los registros. Tabla 6. Segmentación mediante el método RFM por Ordenamiento. Registros ordenados por Frecuencia, Reticencia y Valor monetario

Cliente Reticencia (Semanas

desde la última compra)

Frecuencia (Número de compras

en las últimas 10 semanas )

Valor Monetario USD

(Dinero gastado en las últimas 10

semanas) Luis ½ 15 927

Lucía 3 10 1.500 Tom 4 ½ 7 1.030 Maria 1 6 706 José 3 5 700

Javier 4 3 290 Carlos 3 3 500 Pedro 1 3 465 Juan 8 1 50

Raquel 6 1 110

La Tabla 6 se obtiene ordenando los registros que se poseen según la importancia establecida en la Tabla 2. Ahora se obtienen los 5 segmentos que se quieren agrupando de a dos registros en orden descendente:

Page 24: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

24

Tabla 7. Segmentos RFM por Ordenamiento

Segmento 1 (381- 475)

Segmento 2 (286 – 380)

Segmento 3 (191 – 285)

Segmento 4 (96 – 190)

Segmento 5 (0 - 95)

Luis Tom José Carlos Juan Lucía Maria Javier Pedro Raquel

Este método al igual que el de codificación fuerte, presenta desventajas debido a que la separación de los segmentos no se realiza estadísticamente, sino por un criterio de tamaño, razón por la cual también es difícil rastrear los motivos por los cuales se presentan los movimientos de registros entre segmentos. 2.1.2. Análisis Cross-Tab Este método consiste en seleccionar las variables que se desean analizar, y con base en ellas, realizar una tabulación en cruz sobre los datos. Comúnmente estas tabulaciones se realizan sobre dos o tres variables, pero se pueden realizar también sobre n variables, caso en el cual no se pueden graficar, resultando ser más difíciles de comprender para el cerebro humano que piensa solamente en tres dimensiones. Actualmente un buen número de herramientas en el mercado pueden realizar análisis de tabulación en cruz. Para entender mejor este método efectuaremos su análisis con un ejemplo, para esto se usará como base el propuesto por Drozdenko y Drake13. En este ejemplo, se desea desarrollar un esquema de clasificación para los clientes de la tienda de videos ACME y así poder determinar métodos de promoción más efectivos para los compradores. ACME cuenta con una base de datos de 4’784.544 compradores de videos. Debido a que, como veíamos en el algoritmo anterior (RFM), la reticencia y la frecuencia son algunos de los predictores mas poderosos del comportamiento futuro de un cliente, en cuanto a hábitos de compra se refiere, el análisis en cruz se realizara sobre las variables de Frecuencia y Reticencia que se poseen de los clientes en la base de datos, utilizando datos de respuesta o no a promociones anteriores. El primero paso consiste en obtener una muestra representativa (véase Capítulo 3) de los clientes en la base de datos. Para esto, se escoge de manera aleatoria una muestra de 250.000 clientes. La tasa de Respuesta a promociones anteriores de este segmento en conjunto es de 5.02%. 13 Ibid. p. 141.

Page 25: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

25

Cómo resultado de la tabulación en cruz utilizando SAS se obtienen los resultados de la Tabla 1. Los cuales muestran para cada celda, la tasa de respuesta, el número de órdenes, la cantidad de registros por celda y un índice total (entre paréntesis). Con base en este último índice se construirán cuatro segmentos de clientes así: Respuesta Excelente: Registros con un índice mayor a 175 Respuesta Buena: Registros con un índice mayor que 100 y menor que 175 Respuesta Promedio: Registros con un índice mayor que 85 y menor que 100 Respuesta baja: Registros con índices menores que 85 Uno de los problemas que presenta la tabulación en cruz es que la división entre segmentos tampoco se realiza estadísticamente, lo cual implica que la separación entre segmentos no va a ser la mayor. En el ejemplo anterior la elección de los índices para separar los segmentos se hizo con base en la experiencia del analista que realizaba la segmentación. Pero no en todos los casos existe experiencia previa y no siempre esta experiencia da los resultados más óptimos.

Page 26: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

26

Tabla 8. Datos del análisis en cruz de las variables de Reticencia y Frecuencia Número de compras realizadas

Hace 0-3 Meses

Hace 3-6 Meses

Hace 6-9 Meses

Hace 9-12 Meses

Hace más de 12 Meses

Total

0-1 Compras TR = 5.34% Ord = 285 Tam = 5.337 (106)

TR = 4.58% Ord = 383 Tam = 8.354 (91)

TR = 3.75% Ord = 428 Tam = 11.420 (75)

TR = 2.98% Ord = 488 Tam = 16.391 (59)

TR = 1.45% Ord = 139 Tam = 9.568 (29)

TR = 3.37% Ord = 1.723 Tam = 51.070 (67)

2-4 Compras TR = 7.54% Ord = 361 Tam = 4.789 (150)

TR = 6.75% Ord = 945 Tam = 14.376 (131)

TR = 4.98% Ord = 1.098 Tam = 22.040 (99)

TR = 4.35% Ord = 1.314 Tam = 30.203 (87)

TR = 2.79% Ord = 721 Tam = 25.838 (56)

TR = 4.56% Ord = 4.439 Tam = 97.246 (91)

5-10 Compras TR = 11.23% Ord = 76 Tam = 677 (224)

TR = 9.44% Ord = 192 Tam = 2.033 (188)

TR = 6.45% Ord = 801 Tam = 12.426 (128)

TR = 5.45% Ord = 1.418 Tam = 26.018 (109)

TR = 4.48% Ord = 809 Tam = 18.051 (89)

TR = 5.57% Ord = 3.296 Tam = 59.205 (111)

11 + Compras TR = 14.71% Ord = 20 Tam = 136 (293)

TR = 11.46% Ord = 77 Tam = 672 (228)

TR = 8.82% Ord = 792 Tam = 8.981 (176)

TR = 7.01% Ord = 1.448 Tam = 20.654 (140)

TR = 6.34% Ord = 763 Tam = 12.036 (126)

TR = 7.30% Ord = 3.100 Tam = 42.479 (145)

Total TR = 6.78% Ord = 742 Tam = 10.939 (135)

TR = 6.28% Ord = 1.597 Tam = 25.435 (125)

TR = 5.68% Ord = 3.119 Tam = 54.867 (113)

TR = 5.01% Ord = 4.668 Tam = 93.266 (100)

TR = 3.71% Ord = 2.432 Tam = 65.493 (74)

TR = 5.02% Ord = 12.558 Tam = 250.000(100)

Tomada de Drozdenko y Drake14

14 Ibid p.141

Page 27: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

27

2.1.3. Árboles de Decisión La idea básica de un árbol de decisión es tomar una tabla y dividirla o descomponerla horizontalmente en más sub-tablas, basado en el valor de un campo seleccionado, formando de este modo las ramas de un árbol. La ventaja de los árboles de decisión sobre los dos algoritmos expuestos anteriormente, radica en que los árboles, permiten identificar estadísticamente las divisiones entre los segmentos de datos, maximizando la separación entre los registros con respecto a la variable que concierna para el modelo. Existen dos tipos básicos de árboles de decisión15: Árboles de clasificación: Marcan los registros y los asignan a la clasificación apropiada, reportando la certeza de que el registro se encuentra correctamente clasificado Árboles de regresión: Estiman el valor que tomará una variable objetivo numérica. La estructura de estos tipos de árboles es similar, se construyen basados en una o varias muestras de datos históricos, dividiendo éstas muestras con base en campos seleccionados por medio diferentes métodos estadísticos y luego a su vez, sub-dividiendo estos nuevos sets de datos resultantes mediante análisis similares al primero, hasta encontrar que ningún campo mas dividiría los datos de manera representativa. Luego, se realiza una poda del árbol para evitar que éste presente overfitting, es decir que el árbol se contamine o memorice la información de las muestras usadas para construirlo. Luego para clasificar nuevos registros, estos fluyen desde la raíz hasta alguna hoja determinada por toda una serie de test que se realizan en los nodos internos del árbol. Existen diferentes tipos de algoritmos específicos que trabajan con árboles de decisión, Algunos de ellos son CART, CHAID, ID3, C4.5/C5.0. A continuación se explicara en general cómo trabajan los árboles de decisión y más adelante se verán algunos de los algoritmos específicos. • Cómo se Construye un Árbol de Decisión: Como ya se había enunciado, los árboles de decisión se construyen mediante un proceso iterativo que consiste en dividir un set de datos por medio de una única variable a la vez, que parte el set 15 PARR, Olivia. The Datamining CookBook. New York: John Wiley & Son, 2001.

Page 28: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

28

de datos en dos o más sub-sets y luego repitiendo este proceso hasta no encontrar más variables que generen divisiones representativas. Este proceso se conoce como Particionamiento Recursivo16. Siempre, los nuevos sets de datos obtenidos son más puros que el original, en cuanto que su diversidad se ha disminuido debido a la partición. El corazón del proceso se encuentra en la regla que determina la primera partición. El proceso de elección de esta partición inicia con la selección de una muestra de datos históricos preclasificados, es decir para los cuales ya se conoce la respuesta -esto para poder comprobar la efectividad del árbol-, luego se escoge aquella variable independiente que realice el mejor trabajo separando los registros en grupos donde predomine una clase, aumentando así la pureza de los sets obtenidos. La medida para evaluar el potencial de una variable es la reducción de diversidad, el cual es el punto esencial de todos los algoritmos de segmentación basados en árboles de decisión. Una vez se continúan realizando las divisiones, estas solamente paran hasta que encuentran un set de datos en el cual todos los valores sean iguales, o en el que existan solamente variables distintas de solo una aparición, escogiendo estos sets como hojas del árbol. Al generar el árbol completo, es común que las variables usadas para ser generar divisiones se conviertan variables con un solo valor más adelante. En algún momento el árbol completo será generado, pero este árbol muy probablemente no sea el más adecuado para la aplicación del modelo, para ello se utilizan técnicas como la poda de árboles o los árboles bonsái. • Poda de Árboles17: Existen dos tipos de poda de árboles, en el primero se utiliza una tasa de error en la clasificación realizada por el árbol, aumentando el error a medida que la complejidad del árbol aumenta, en éste caso una rama solo es conservada si el aumento en el rendimiento es mayor que el aumento en la complejidad. El segundo tipo de poda consiste en escoger una o más muestras preclasificadas de los datos, e insertar sus registros en el árbol obtenido con la primera muestra. Como son datos preclasificados, se conocen sus resultados de antemano, y se puede medir el rendimiento actual del árbol. En este caso, el árbol de poda cuando el rendimiento de éste dentro de un mismo set de datos empieza a disminuir con respecto a las clasificaciones anteriores

16 BERRY, Michael y LINOFF, Gordon. Mastering Data Mining: The Art and Science of Customer Relationship Management. New York: John Wiley & Sons, 1999. 17 Ibid.

Page 29: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

29

Figura 2. Aumento en la tasa de error a medida que la profundidad del árbol aumento o se prueba un nuevo set de datos Tasa de Set de prueba Error Set original

Profundidad del árbol

Tomado de Berry y Linoff18 • Árboles Bonsái: Esta clase de técnica, busca reducir el overfitting, limitando el crecimiento del árbol después de que éste ya lo ha hecho muy profundamente. Consiste en aplicar una serie de test a cada nodo para identificar si la división es significativa, estos test pueden ir de requerir un número mínimo de registros a complejos análisis estadísticos. La desventaja de las técnicas de anti-overfitting de bonsái radica en que como no existen conjuntos de prueba adicionales, esta técnica no asegura definitivamente que no vaya a existir overfitting. Existen diferentes consecuencias por la elección de un árbol de decisión, algunas de ellas se presentan como ventajas otras como desventajas. Entre algunas de las posibles desventajas tenemos que los árboles de decisión no tienen en cuenta todos los posibles patrones presentes en los datos, por lo tanto dependiendo de las divisiones realizadas al comienzo del árbol, van a existir patrones que no se podrán formar por medio de éstas, estos patrones de los datos se perderán en el árbol final. Otra consecuencia radica en que los árboles de decisión nunca descubrirán relaciones entre variables de los datos, esto se debe a que cada división en el árbol corresponde a una sola variable -aquella que en mayor medida disminuya la diversidad-, lo que pone en manos del analista la inclusión de variables que pongan en evidencia esa relación. En cuanto a los valores con los cuales trabajan los árboles de decisión, se debe tener cuidado con la aparición de datos nulos o vacíos en los registros, puesto que cuando el árbol los encuentre no 18 Ibid.

Punto de poda

Page 30: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

30

va a saber catalogarlos y si su cantidad es representativa respecto al conjunto, podría crear una nueva división solamente para datos nulos ignorando patrones más importantes. Con respecto a las variables categóricas, estas causan problemas en algunos algoritmos de árboles, creando una división por cada uno de los posibles valores de la variable categórica. En cuanto a las ventajas, encontramos que los árboles de decisión son simples y fáciles de entender, que requieren menos tiempo de preparación de los datos, puesto que el árbol no es sensible a las diferencias de escala, evitando el tiempo que toma la estandarización de las variables numéricas. Por otra parte, un árbol de decisión puede claramente identificar cual es el mejor o los mejores segmentos en cuanto a la maximización de una variable objetivo se refiere, o identificar el orden de importancia de las variables en una conjunto de datos, puesto que las variables más importantes, siempre van a ser aquellas que se usaron para dividir los datos en la parte superior del árbol19. A continuación analizaremos un un algoritmo específico de árboles de decisión. • Análisis CHAID: Es un algoritmo clasificado como árbol de decisión, su nombre es un acrónimo de Chi-Squared Automated Interaction Detection20. Este algoritmo, viene incluido en la mayoría de programas estadísticos en el mercado y se basa en la función de distribución estadística Chi cuadrado, como su nombre lo indica. Figura 3. Distribución Chi Cuadrado

Donde µ es la media y σ es la desviación estándar de la distribución normal.

CHAID es un método de exploratorio análisis de datos, usado para estudiar relaciones entre una variable dependiente y una serie de posibles variables predictivas que interactúan mutuamente.

19 PARR. Op. Cit. 20 DROZDENKO y DRAKE, Op. cit. p. 148.

Page 31: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

31

Para efectos del análisis CHAID, la variable dependiente, al igual que las variables independientes pueden ser nominales, ordinales o un intervalo. Para las variables cualitativas se conducen una serie de análisis chi-cuadrado entre la variable dependiente y las variables predictivas. Para las variables cuantitativas, se utilizan métodos de análisis de varianza en los intervalos (splits) que fueron determinados óptimos para las variables independientes maximizando así la capacidad de explicar la variable dependiente en términos de componentes de varianza.21 La aplicación de CHAID trae ciertas ventajas sobre otros algoritmos basados en árboles de decisión, entre ellas el hecho que no todas las variables, tiene que ser medidas en el mismo nivel, es decir se pueden hacer combinaciones entre nominales, ordinales e intervalos. Otro beneficio adicional es el hecho de que los valores errarnos o vacíos, son tratados como una categoría intermedia, aprovechándolos en la mayor medida posible dentro del árbol. Por último, el hecho que CHAID utilice una función estadística tan versátil como la distribución Chi cuadrado, asegura, que la selección óptima de las variables por medio de las cuales se realizaran las divisiones en los datos, y en caso de no encontrar ninguna completamente determinante, CHAID identificará claramente las tendencias más marcadas dentro de los datos22. Finalmente y para mostrar ambos lados de la moneda, se examinaran los posibles inconvenientes que pueden sobrevenir al realizar un árbol mediante el uso de CHAID. Como las implicaciones de mezclar datos nominales ordinales y continuos dentro de un mismo análisis, lo que podría hacer perder confiabilidad o no seleccionar los criterios de división óptimos. Igualmente, el uso de datos erróneos o perdidos, también puede interferir en la confiabilidad del modelo. Por otra parte CHAID sufre el problema de fitting con los datos, lo cual hace que el árbol generado quede muy ceñido a los datos con los cuales fue entrenado, limitándolo y causando errores de clasificación cuando se ingresan nuevos datos.23

21 HUBA, Gerorge. CHAID. The Measurement Group, 2003. 22 Ibid. 23 Ibid.

Page 32: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

32

2.1.4. Análisis Clusters El análisis de clusters se utiliza para lleva a cabo procesos de minería de datos y en particular de segmentación. Consiste en agrupar conjuntos de datos basados en la distancia estadística existente entre ellos. Los puntos son los datos de entrada y los ejes sobre los cuales se ubican son las variables que poseen dichos datos. Se puede usar también para reducir un conjunto de datos muy grande, generando subconjuntos con datos relevantes ya depurados, en donde se pueden aplicar otras técnicas de minería. El proceso de clustering se inicia escogiendo el número de clusters o conjuntos de datos objetivo que se desean obtener del modelo. La elección de esta cantidad debe ser hecha por la persona que está desarrollando el proceso de segmentación, puesto que no existe un proceso automático que diga el número óptimo de cluster que se deben obtener para cada conjunto de datos. Para obtener mejores resultados, se recomienda probar el conjunto de datos con diferentes cantidades de clusters objetivo, y escoger entre ellos el que más se ajuste a las necesidades del negocio o el que mejor responda el interrogante que se desea resolver. Existen algunos hints que pueden ser utilizados, pero no aseguran ni especifican la cantidad óptima de clusters24:

El tamaño de la muestra: Puede servir de punto de partida para estimar el número de clusters, con un conjunto de datos de entrada muy pequeño probablemente no se espere obtener una gran cantidad de clusters.

El tamaño de los clusters: Al igual que el anterior, el obtener un cluster muy pequeño o de una sola persona podría indicar que el número elegido fue demasiado grande.

El conocimiento de la pregunta del negocio que se busca solucionar.

Los posibles clusters que se pueden esperar según el conocimiento del negocio.

24 DROZDENKO y DRAKE, Op. cit. p. 158.

Page 33: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

33

Una vez se ha seleccionada la cantidad de clusters objetivo, el algoritmo selecciona aleatoreamente esa misma cantidad de datos entre el conjunto de entrada para ser utilizados como semillas del modelo. A continuación se detallará todo el proceso por medio de un ejemplo con datos ficticios, en el cual se buscan dos cluster objetivo. Se posee una base de datos con 100.000 registros de ciudades con la cantidad de habitantes y el ingreso mensual per capita Cómo se desean dos clusters como objetivo final del proceso, el algoritmo selecciona aleatoreamente dos registros de conjunto de entrada que serán la base para cada uno de los clusters Figura 4. Clusters de Población

El siguiente paso es agregar cada uno de los 100.000 datos a uno de los clusters existentes, según la distancia mínima del registro hacia cualquiera de los 2 clusters, para esto se utiliza la formula euclidiana de distancia, raíz cuadrada de la suma de las diferencias al cuadrado, para ahorrar tiempo de procesamiento se puede obviar la raíz cuadrada y dejar la fórmula como la suma de los cuadrados de las diferencias y escoger la menor de estas cantidades. Ahora se clasificará el registro Bogotá con una población de 6.000 y un ingreso per capita de 100. La fórmula nos da: cluster 1: (-5.300)2 + (-50)2 = 28’092.500 cluster 2: (-3.000)2 + (500)2 = 9’250.000 Según esto, Bogotá ingresará a hacer parte del cluster 2. Una vez se tienen ubicados todos los datos, se obtiene el promedio de cada una de las variables en

Cluster 1

Población 700 Ingreso p/capita $50

Cluster 2

Población 3.000 Ingreso p/capita $600

Page 34: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

34

cada cluster y el proceso se repite nuevamente, ahora utilizando como semillas los valores promedio de cada cluster. Este proceso se repite una y otra vez, hasta que la diferencia entre el nuevo promedio y los valores anteriores es 0 o no es significativa. En el análisis de clusters múltiples aspectos deben ser tenidos en cuenta para obtener resultados representativos, por ejemplo es extremadamente sensitivo a los niveles de medición, a las escalas de datos y a la aproximación algorítmica utilizada25. Existe una variación de este algoritmo llamada drift, en la cual no se espera a que todos los datos estén clasificados antes de calcular el nuevo promedio, sino que este cálculo se lleva a cabo después de cada nuevo registro. Según Drozdenko y Drake26 no existe una diferencia representativa entre un algoritmo y otro y al final se obtienen resultados similares. 2.1.5. Redes Neuronales Son modelos computacionales biológicamente inspirados con propiedades particulares como la capacidad de adaptarse, aprender, generalizar, agrupar u ordenar datos, y cuya operación esta basada en procesamiento paralelo. A continuación se detallará en profundidad el funcionamiento de las redes neuronales tomando como base la explicación de Kröse y Van der Smagt27. Una red neuronal artificial consiste en un conjunto de unidades de procesamiento simples que se comunican entre sí enviando señales por medio cierto número de conexiones con un peso definido. 25 Ibid. 158 26 Ibid. 161 27 KRÖSE, Ben. y VAN DER SMAGT, Patrick. An Introduction to Neural Networks. Amsterdam:The University of Amsterdam, 1996. p. 15

Page 35: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

35

Figura 5. Ejemplo de una red neuronal simple con una capa oculta.

Tomada de Bosque28.

a) Componentes de una red neuronal:

• Conjunto de unidades de procesamiento (“neuronas”, “células”) • Estado de activación Yk para cada unidad: Es equivalente a la salida de esa

unidad.

• Conexiones entre unidades: Generalmente cada conexión es definida por un peso Wjk, el cual determina el efecto que tiene la señal de la unidad j sobre la unidad k

• Regla de propagación: Determina la entrada efectiva Sk de una unidad

proveniente de sus entradas externas

• Función de activación Fk: Determina el nuevo nivel de activación basado en la entrada efectiva Sk(t) y la activación actual Yk(t).

• Entradas externas θk para cada unidad.

• Método para la obtención de información (la regla de aprendizaje)

28 BOSQUE, Marcelo. Conceptos Fundamentales Sobre Las Redes Neuronales Artificiales. Buenos Aires, 1998.

Page 36: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

36

• Un ambiente en el cual el sistema debe operar proveyendo señales de entrada y si es necesario señales de error.

Figura 6. Componentes básicos de una red neuronal, con sumatoria ponderada estándar como regla de propagación

Tomado de Kröse y Van Der Smagt29 b) Procesamiento de Unidades Dentro de una red neuronal existen tres tipos de unidades:

Unidades de entrada: las cuales se identifican mediante un índice i y reciben datos desde fuera de la red neuronal. Unidades de salida: identificadas mediante el índice o, quienes envían datos fuera de la red. Unidades ocultas: son las unidades que reciben y envían datos desde y hacia otras unidades dentro de la red, y se identifican mediante el índice h.

29 KRÖSE. y VAN DER SMAGT. Op. Cit. p. 16

Page 37: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

37

El procesamiento de la red crea un ciclo en el cual cada unidad desempeña un trabajo relativamente simple, recibiendo entradas de unidades cercanas o de fuentes externas, las cuales son usadas para calcular una señal de salida que a su vez es propagada como señal de entrada de otras unidades o como señal de salida de la red. La repetición de este mismo ciclo iniciando con las unidades de entrada, pasando por las unidades ocultas y finalizando con las unidades de salida da el resultado total de la red. Un segundo proceso que se lleva a cabo luego del procesamiento de cada unidad es el ajuste de pesos de cada una de las diferentes salidas, el cual influirá en la entrada y en el cálculo de la función de activación de la siguiente unidad. Durante la operación de la red, las unidades pueden ser actualizadas tanto sincrónica como asincrónicamente, Cuando se utiliza actualización sincrónica, todas las unidades actualizan simultáneamente su función de activación, lo que hace de la red artificial un sistema inherentemente paralelo en el sentido que diferentes unidades pueden llegar a generar sus resultados al mismo tiempo. Con la actualización asincrónica, cada unidad tiene usualmente una probabilidad fija de actualizar su función de activación en determinado tiempo t siendo capaz de hacerlo solamente una unidad a la vez en cada instante de tiempo. c) Conexiones Entre Unidades Tal como se había enunciado en el numeral anterior, los pesos de las conexiones entre unidades, influyen directamente sobre las funciones de activación de las unidades sucesoras, la forma en que normalmente este peso se propaga a través de las unidades que tienen como dato de entrada la salida de otra unidad, es mediante la sumatoria ponderada de las salidas de cada una de las unidades conectadas, más una constante o desfase: Sk(t) = Σ Wjk(t) Yj(t) + θk(t) j

Cuando el valor de Wjk es positivo, esto es considerado una excitación, y cuando este es negativo, una inhibición. Teniendo en cuenta, claro está, que cuando la entrada total Sk(t) utiliza formas más complejas para la combinación de las variables, las definiciones de inhibición y excitación se ven afectadas. Las unidades con la regla de propagación enunciada anteriormente, son llamadas Unidades Sigma.

Page 38: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

38

Existe otra regla de propagación conocida, llamada Regla de Propagación de unidades Sigma Pi. Creada por Feldman and Ballard30 donde la entrada total es la sumatoria de los pesos de las unidades conectadas por la multiplicatoria de las funciones de activación de las mismas, más la constante o desfase θ: Sk(t) = Σ Wjk(t) Π Yjm(t) + θk(t) j m

d) Funciones de activación Para cada unidad, es necesaria una función de activación, que calcule la salida de esa unidad, basándose en la entrada total Sk(t) y la activación actual Yk(t). Yk(t+1) = Fk(Yk(t), + Sk(t)) Comúnmente estas reglas de activación son funciones no decrecientes, como funciones escalonadas crecientes (sgn), lineales, semi-lineales o con forma de S. En algunos casos, estas reglas son no determinísticas, como funciones estocásticas, las cuales dan como resultado la probabilidad de que una unidad o neurona, tenga un alto valor de activación. Figura 7. Tipos comunes de funciones de activación

30 FELDMAN, Jerome y BALLARD, Dana. Connectionist models and their properties. En: Cognitive Science. Vol. 6; 205-254, 1982

Page 39: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

39

Tomado de Kröse y Van Der Smagt31 e) Topologías de Red Existen dos distinciones principales entre los patrones de conexiones de las unidades y la forma de propagación de los datos: Redes de flujo hacia adelante (Feed Forward), donde los datos fluyen desde la entrada hacia la salida, estrictamente hacia adelante. Sin presentarse ningún ciclo o devolverse a una unidad en una capa anterior. Redes recurrentes, son aquellas en donde la salida de una unidad puede ir a la entrada de otra dentro de su misma capa o en una capa anterior. Ejemplos clásicos de redes de flujo hacia adelante son Perceptron y Adeline (Adaptative linear element). Para obtener detalles sobre éstas se puede consultar Rosenblatt32 y Widrow & Hoff33 respectivamente. Por otra parte, se puede obtener más detalles sobre las redes recurrentes de Hopfield34, la máquina de Boltzmann35 En los subcapitulos siguientes, se explicaran dos tipos de redes neuronales muy difundidas para el uso en herramientas de minería de datos, la primera en multicapas de flujo hacia delante “Back Propagation”, la segunda una de red recurrente “Kohonen”

• Back Propagation El primer acercamiento hacia las redes neuronales de flujo hacia delante, o flujo lineal, se hizo mediante redes de una sola capa, como lo eran Perceptron y

31 KRÖSE. y VAN DER SMAGT. Op. Cit. p. 17 32 ROSENBLATT, Frank. Principles of Neurodynamics. New York: Spartan Books, 1959. 33 WIDROW, Bernard y HOFF, Marcian. Adaptive switching circuits. En: IRE WESCON Convention Record. Parte 4, p. 96 -104. Agosto 1960. 34 HOPFIELD, John. Neural networks and physical systems with emergent collective computational abilities. En: National Academy of Sciences, Vol. 79; 2554-2558, 1982. 35 ACKLEY, David, HINTON, Geoffrey y SEJNOWSKI, Terrence. A learning algorithm for Boltzmann machines. En: Cognitive Science, Vol. 9; 147-169, 1985.

Page 40: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

40

Adeline, pero este tipo de redes tenía una desventaja fundamental, el limitado poder de representación debido a que solamente se podían construir clasificaciones lineales y en el caso de las funciones, solamente funciones lineales podían ser representadas36. Las redes multicapa surgieron como solución a este problema, pero tenían el inconveniente que no convergían a la solución óptima del sistema, como si lo hacían las de una sola capa. Además poseían un problema intrínseco, el ajuste de los pesos de las entradas a las unidades ocultas. Una solución a esté problema fue presentada por Rumelhart, Hinton y Williams37, cuya idea central era que los errores para las entradas de las unidades ocultas, se determinaran determinadas mediante las propagaciones de los errores anteriores (Back-Propagation) El proceso de Back Propagation se detalla a continuación con base en Kröse y Van der Smagt38. Una vez se encuentra afianzado el patrón de aprendizaje, los valores de la función de activación son propagados a las unidades de salida, y la salida actual de la red es comparada con el valore deseado. Usualmente se finaliza con un error en cada una de las unidades de salida, a este error se le llamará eo de la unidad O y se debe llevar a 0. Este es el primer paso para llevar a cabo el proceso de ajuste de los pesos de las conexiones, el método más simple de llevar a cabo esta tarea es el método codicioso (greedy method) el cual procura cambiar las conexiones en la red neuronal de forma tal que la siguiente vez el error eo para ese patrón particular sea 0. El obtener los errores en 0 para un patrón determinado no es suficiente, debido a que si se lleva a cabo únicamente esta regla, los pesos de la las entradas de las unidades ocultas no cambian nunca y se pierde el poder de representación de las redes de flujo hacia delante, como lo enuncia el teorema universal de aproximación, el cual dice que aún con una sola capa de unidades ocultas se puede aproximar cualquier función con una cantidad finita de discontinuidades a

36 KRÖSE. y VAN DER SMAGT. Op. Cit. p. 33 37 RUMELHART, David, HINTON, Geoffrey y WILLIAMS, Ronald. Learning representations by backpropagating errors. En: Nature, Vol. 323; 533-536, 1986. 38 KRÖSE. y VAN DER SMAGT. Op. Cit. p. 33

Page 41: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

41

una precisión arbitraria39. El segundo paso consiste en adaptar los pesos de las entradas de las unidades ocultas, para ello se aplica la regla delta, la cual modifica los pesos de acuerdo a la salida objetivo y a la salida actual. El valor δ con al cual se van a afectar las entradas es obtenido mediante una regla de cadena que distribuye el error de una salida O entre todas las unidades ocultas con las cuales se encuentra conectada. Y opera de la siguiente manera: Una unidad oculta h recibe un delta δ de cada unidad de salida O, multiplicado por el peso de la conexión entre esas dos unidades, la función de activación es aplicada sobre el delta y este proceso se repite a través de todas las capas de la red. Este proceso de aprendizaje y corrección teniendo en cuenta el valor deseado y el obtenido, hace de las redes de tipo back propagation sean muy útiles. Pero a su vez hace que el proceso de entrenamiento del modelo sea demasiado largo. Un aspecto que se debe tener en cuenta es que no por el simple hecho de utilizar una red de back propagation, se asegura tener buenos resultados, por ejemplo, la habilidad para minimizar el error depende del algoritmo de aprendizaje y el número de iteraciones que se realicen, así como la valides de la representación de la función depende del número de muestras de aprendizaje utilizadas. • Self Organizing Maps - Kohonen Las redes neuronales comúnmente se usan para realizar transformaciones de un conjunto de datos a otro, un ejemplo de esto son las redes tipo back propagation del numeral anterior. Pero que sucede cuando se necesita que las redes no obedezcan a una serie de patrones definidos o a unas entradas especificas, sino que la información relevante para el desarrollo del patrón de las mismas sea adquirido de los conjuntos de entrenamiento del modelo sin la presencia de un instructor externo. Algunos casos en donde esto llega a ser necesario son40:

• Clustering: Los datos de entrada deben ser agrupados en clusters, y el sistema de procesamiento de datos tiene que encontrar estos clusters. La

39 HORNIK, Kurt, STINCHCOMBE, Maxwell y WHITE, Halbert. Multilayer feedforward networks are universal approximators. En: Neural Networks, Vol. 2; 359-366, 1989.

40 KASABOV, Nikola. Foundations of Neural Networks, Fuzzy Systems, and Knowledge Engineering. Cambridge: Massachusetts Institute of Technology, 1998.

Page 42: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

42

salida del sistema puede ser el cluster marcado o los patrones de los grupos obtenidos

• Cuantificación de vectores: Este problema ocurre cuando un espacio

continuo tiene que ser discretizado, la entrada sería un vector n-dimensional, la salida una representación discreta del espacio. El sistema tiene que buscar la discretización óptima del espacio de entrada.

• Reducciones dimensionales: Los datos de entrada son agrupados en un subespacio que tiene una dimensión menor que los datos de entrada. El sistema debe realizar un mapping óptimo de tal forma que la mayoría de la varianza se preserve en los datos de salida.

• Extracción de características: El sistema debe extraer características de una señal de entrada, para eso muchas veces es necesaria una reducción dimensional como la del punto anterior.

El tema de interés para este documento es el clustering de datos, en cual se aplica a la minería de datos, y por ende a la segmentación. Las redes de Kohonen se componen de dos capas, una de entrada y una de salida, llamada también mapa característico, en el cual se representan vectores de salida del espacio de salida. En una red de Kohonen, cada unidad de salida se relaciona con todas la unidades de entrada por medio de conexiones con pesos, al igual que en las demás redes. Esto forma un espacio de vectores de dimensión n donde n es el número de unidades de entrada que existen. Estas entradas pueden ser tanto continuas o discretas, pero las salidas son exclusivamente binarias41. Las unidades o neuronas de salida, se especializan en reaccionar a ciertos datos de entrada (vectores o grupos, clusters) y representar ciertas características compartidas entre estos datos. Las neuronas en la capa de salida son neuronas competitivas, esto quiere decir que las neuronas compiten entre si, y al final tan solo una será activada a la vez, es decir solamente una gana la competencia. En esta capa existen conexiones laterales entre neuronas, una vez la ganadora ha sido activada, esta a su vez activa con una menor fuerza a las neuronas aledañas, tomando este aledañas como un cierto radio alrededor de la neurona ganadora. Sin afectar a las neuronas que se encuentran fuera de este radio. Al final la red 41 KASABOV. Op. Cit.

Page 43: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

43

transforma así los datos de entrada en puntos (neuronas) sobre el mapa topológico de salida. La distancia entre estas neuronas es una de las características importantes de las redes de Kohonen. Los self organizing maps de Kohonen pueden ser utilizados en dos modos. Modo no supervisado, en el cual se le pasa a la red un conjunto de datos del cual no se sabe su resultado. Modo supervisado o modo de entrenamiento, en este se le da a la red un conjunto de datos con los resultados previamente obtenidos, para evaluar la certeza de los resultados de la red. A continuación se explican con mayor detalle cada uno de estos modos: Mapas característicos de auto organización no supervisados También conocidos como SOM’s por su sigla en ingles (Self Orginizing Maps), el proceso que se lleva a cabo estas redes no supervisadas se detalla en la tabla siguiente: Tabla 9. Proceso de entrenamiento para redes de Kohonen.

K0 Se asigna a cada conexión con una neurona j dentro de la capa de salida un peso aleatorio pequeño Wj (t=0)

K1 Se aplican los datos de entrada en el momento de tiempo siguiente t K2 Se calcula la distancia dj en el espacio n-dimensional entre x y los pesos

de las conexiones Wj(t) para cada neurona j. K3 La neurona k que se encuentre más cercana a x es declarada ganadora y

se convierte en el centro del área de vecinos Nt K4 Cambio de todos los pesos dentro del área Nt

Wj(t+1) = Wj(t) + α(x - wj(t)) si j Є Nt Wj(t+1) = Wj(t) si j esta fuera del área Nt

Nt y α decrecen en el tiempo. Los pasos K1 a K4 son repetidos por todas las instancias de entrenamiento hasta la convergencia. Wj = peso de la conexión j dj = distancia de la neurona j con los datos t = momento, número de iteración (ciclo) Nt = Area de vecinos o radio de cercanía con la neurona ganadora para el momento t α = parámetro de aprendizaje x = datos

Page 44: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

44

Tomado de Kasabov42 Se recomienda que el número de iteraciones t sea mayor que 500 veces el número de neuronas, si los datos ingresados son menores que esta cantidad, se tomará el conjunto de datos ingresado de nuevamente hasta completar el número de ciclos. La red posee ciertas características estadísticas, debido a la sinapsis existente entre los pesos de las conexiones se tiende a aproximar la función de densidad de los datos de entrada en una forma ordenada. Las conexiones sinápticas Wj convergen exponencialmente a centros de grupos de patrones y el mapa total, representa en cierto grado la probabilidad de distribución de los datos de entrada. Algoritmos Supervisados de Aprendizaje de Cuantificación Vectores (LVQ) Surgen como solución al problema que se obtiene cuando para una entrada, la salida caen en el borde del área de dos neuronas y a la necesidad de utilizar características conocidas de los datos de entrada para realizar un mejor mapeo de los datos en el espacio de salida43. Actualmente existen diferentes tres algoritmos básicos para el aprendizaje de cuantificación de vectores, LVQ por su nombre en ingles (Lerning Vector Quantization), estos son LVQ1, LVQ2 y LVQ344 El algoritmo LVQ1 asigna una clasificación inicial a los datos de entrada mediante la aplicación de SOM, luego, un proceso de validación de estas marcas se lleva a cabo comparando los resultados obtenidos con los resultados objetivos se poseían previamente. Una vez realizada esta comparación, se aplican las siguientes funciones según el caso45:

42 KASAVOB. Op Cit. 43 KASAVOB. Op. Cit. 44 KOHONEN, Teuvo. The self-organizing map. En: IEEE Vol. 78; 1464-1497, 1990. 45 KASAVOB. Op. Cit.

Page 45: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

45

Si el dato o vector x fue clasificado correctamente en la clase j representada por la j-ésima neurona: Wj(t+1) = Wj(t) + α(t) (x(t) - Wj(t)) Si el dato o vector x fue clasificado en forma errónea en la clase j representada por la j-ésima neurona:

Wj(t+1) = Wj(t) - α(t) (x(t) - Wj(t))

Para todos los demás datos i diferentes de j: Wi(t+1) = Wi(t) Donde α(t) es un factor escalar que decrece monótonamente en el tiempo Por otra parte, LVQ2 tiene un componente adicional, una vez se ingresan los datos o vectores y se obtiene una neurona ganadora, se realiza un proceso de ajuste de pesos entre las neuronas vecinas a esta. Esto es por si acaso un dato x de entrada que debería esta clasificado en la clase Cj, queda clasificado en la clase Ci debido a que esta gano. En este caso, se ajustan los pesos de las conexiones entre las neurona de la siguiente forma46:

Wi(t+1) = Wi(t) - α(t) (x(t) - Wi(t)) ó Wj(t+1) = Wj(t) + α(t) (x(t) - Wj(t)) ó Wk(t+1) = Wk(t) para el resto de neuronas k

Por último LVQ3 considera la existencia de una ventana entre las neuronas ij sobre el plano de salida, de tal forma que cuando los datos o vectores x caen dentro de esta ventana, se aplican las siguientes formulas a los pesos de las conexiones: 46 KASAVOB. Op. Cit.

Page 46: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

46

Si x cae en la ventana y pertenece a la clase Cj

Wi (t+1) = Wi(t) - α(t) (x(t) - Wi(t))

Si x cae en la ventana y pertenece a la clase Cj

Wj (t+1) = Wj(t) + α(t) (x(t) - Wi(t))

Si x cae en la venta y las neuronas j e i representan la misma clase

Wk (t+1) = Wk(t) + α(t) (x(t) - Wk(t)), para k Є {i, j}

Si x cae fuera de esta ventana, LVQ2 determina cual de las neuronas es la ganadora y clasifica los datos de salida.

Page 47: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

47

3. SAMPLING Y OVERSAMPLING

Sampling: Es el proceso de crear un conjunto con menor cantidad de datos que el original, pero de tal forma que este subconjunto sea representativo, lo cual significa que todos los valores del conjunto original deben estar presentes en la muestra y que su distribución debe ser similar a las de los datos originales. La mejor forma de realizar un sampling es por medio de selección con números aleatorios, estos números pueden ser generados fácilmente por medio de programas de computadora que generan un pseudo random (pseudo debido a que no es totalmente aleatorio ya que depende de variables como la fecha y hora del computador). Si se desea que los números generados se puedan volver a repetir se podría realizar la selección por medio de funciones matemáticas y con el uso de números primos. Las muestras se pueden probar verificando la representatividad del modelo de la siguiente forma: En las variables categóricas el valor más común en la muestra debe ser también el valor más común en los datos originales. Las variables Numéricas de la muestra deben tener una media y una desviación estándar similares a la del conjunto original

Cuando estamos interesados en puntos singulares de los datos como casos de fraude, perdida de información entre otros, dependiendo del tamaño del Model Set y si la densidad de casos singulares es demasiado baja para que sean tenidos en cuenta, es necesario recurrir a técnicas como el over sampling que busca aumentar la densidad de casos singulares en la muestra de datos a cambio de variaciones en la interpretación de los resultados. Over Sampling : El Over Sampling es usado cuando al analizar los datos, se encuentra que los resultados obtenidos, ignoran casos singulares importantes debido a que la frecuencia de estos últimos es mucho menor que la de los casos comunes o a que se presentaron en un menor lapso de tiempo.

El proceso de Over Sampling busca forzar el Sampling para que tome un mayor número o en ocasiones hasta la totalidad de casos singulares presentes en el Model Set y así, ajustar el porcentaje de resultados obteniendo una densidad adecuada para que el caso singular sea tenido en cuenta en el modelo es decir,

Page 48: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

48

obtener un balance en la muestra. Si existen solamente 2 tipos de resultados, es recomendable poseer entre el 10% y el 40% de casos singulares en la muestra para obtener buenos resultados. Si existen más de dos resultados posibles, estos porcentajes pueden encontrarse entre el 20% y el 30%

Se pueden utilizar otras técnicas para darle mas peso a los casos singulares como la ponderación de resultados o la duplicación de registros, pero la aplicación de estas técnicas debe realizarse con cuidado debido a que pueden interferir en la búsqueda de patrones en los datos. Cuando se usa la ponderación, el peso asignado a cada caso, debe ser un valor entre 0 y 1 para disminuir el efecto y en el caso de la duplicación se deben distinguir los datos duplicados para no incluirlos en la búsqueda de patrones.

Los resultados del modelo en una muestra con Over Sampling deben analizarse de forma diferente y se debe tener en cuenta la densidad de la muestra para su interpretación.

Page 49: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

49

4. METODOLOGÍA PARA EL DESARROLLO DE SEGMENTACIÓN EN MERCADEO

La metodología para el desarrollo de un modelo de segmentación correcto adquiere relevancia en el sentido que el éxito del modelo de segmentación depende, no tanto de la técnica que se utilice para segmentar -puesto que actualmente la mayoría de las herramientas en el mercado incluyen algoritmos de segmentación bastante efectivos ya implementados- como del proceso que se sigue para la realización de la segmentación. El proceso de segmentación como parte de la minería de datos, posee también un proceso cíclico como el definido por Berry & Linoff47, el cual se describe a continuación: Figura 8. Modelo propuesto para el desarrollo de la segmentación

b. Desarrollar el modelo de segmentación de acuerdo al problema

y los datos disponibles

a. Identificar el problema c. Actuar sobre la información obtenida del modelo

c. Medir los resultados

del modelo de segmentación para Verificar su validez y proveer orientación

para sus posibles avances

a. Identificar el problema: La identificación del problema es el punto esencial en el desarrollo de la segmentación, puesto que según el objetivo planteado, se van a descartar o usar ciertas características para

47 BERRY y LINOFF. Op. Cit. p. 43

Page 50: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

50

la definición de los segmentos. Este paso debe hacerse conjuntamente con los expertos del negocio, puesto que son ellos quienes conocen como funciona el negocio y lo que realmente necesita

b. Desarrollar el modelo: Involucra los procesos de obtención de los

datos, adecuación y estandarización de los mismos para que sean relevantes frente al problema definido. Con los datos depurados, se desarrolla un modelo de segmentación para solucionar el problema, usando segmentación dirigida, no dirigida o una combinación de ambas según sea el caso.

c. Actuar sobre la información: Implica aplicar de los resultados del modelo a la campaña, producto o en general al problema que se había planteado.

d. Medir los resultados : Es el proceso de validación del modelo para evaluar sus resultados, medir la efectividad de la acción tomada sobre cada uno de los segmentos y así aprovechar estos resultados en el desarrollo o refinamiento futuro de esto u otro modelo.

El diagrama definido anteriormente describe a grandes rasgos la metodología que se debe seguir para el desarrollo de un modelo efectivo de segmentación aplicable a cualquier tipo de problema. En los capítulos siguientes profundizaremos en cada uno de los pasos que hacen parte de éste para definir una metodología formal de desarrollo de segmentación. Al final de cada capitulo, se encuentra un caso de estudio tomado de Mastering Data Mining48. En el cual se muestra como llevar a la práctica la teoría planteada. Antes de entrar en materia, se dará un pequeño background sobre el caso de estudio que se va a utilizar a lo largo del Libro. Un modelo de deserción en una compañía de telecomunicaciones. 4.1. IDENTIFICACIÓN DE LOS OBJETIVOS DEL NEGOCIO La definición de los objetivos es un punto esencial, por no decir el determinante fundamental en el éxito de un proceso de segmentación. La razón por la cual se puede realizar esta afirmación es debido a que el planteamiento del problema representa el punto de partida, la base sobre la cual se van a construir y fundamentar completamente los pasos sub siguientes; esta base define los datos 48 BERRY y LINOFF. Op. Cit. p. 311

Page 51: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

51

necesarios para la construcción del modelo, así como el estilo de segmentación que se va a utilizar, y puede, en ocasiones, definir algunas de las características que determinarán los segmentos. Estar enfocado desde un comienzo con un objetivo, es la forma más eficiente de aprovechar los recursos que se tienen, asegurando una mayor rentabilidad, un alcance de las metas y la formación de relaciones de largo termino con el mercado. Es muy común no estar enfocado desde un comienzo en el logro de un objetivo específico, o tenerlos en cuenta muy tarde en el proceso de desarrollo del modelo; estas circunstancias conforman un factor crítico para que el diseño del modelo de segmentación obtenga los resultados esperados. Por otra parte, la información obtenida del modelo debe ser valorada o evaluada, y esta evaluación se debe realizar en la medida en que esos resultados apoyen el logro del objetivo establecido. De que sirve obtener segmentos bien definidos, pero que no tienen ningún valor en cuanto a los objetivos del negocio? La segmentación realizada sin un objetivo especifico, resultara no solamente en mayores costos económicos para la organización, sino también en menor rentabilidad, reducción del Market Share o cambios negativos en la percepción de la gente en cuanto a la empresa y sus productos. Una definición comprensiva del objetivo a alcanzar debe tener en cuenta todos los aspectos que puedan influir de manera directa o indirecta en este, para ello se delinearan los ítems fundamentales que deben ser tenidos en cuenta en la definición del problema. Comenzaremos por la conformación del Staff del proyecto, el proceso iterativo de la definición del problema, una vez se tiene un problema bien definido y delimitado, se evalúa si la segmentación es una alternativa de solución al problema y si no lo es, se examinan otras opciones que podrían servir como salida. Si se decide iniciar un proceso de desarrollo de un modelo de segmentación, el siguiente paso sería escoger la forma en que se va a desarrollar el modelo, In-House o por Outsourcing (para lo cual se incluye un sub capitulo sobre elección de consultores externos), por último se redefine en Staff del proyecto con los nuevos miembros del equipo y con las funciones que cada uno desempeñara en el proyecto. 4.1.1. Conformación del Staff de Trabajo Para obtener los mejores resultados del desarrollo de un modelo de segmentación, se debe comenzar por conformar un equipo de proyecto multidisciplinario que analice todos los aspectos que tengan que ver con el planteamiento y definición del problema que se desea solucionar. Es necesario que el equipo este conformado por personas que conozcan profundamente el

Page 52: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

52

negocio: que posean un conocimiento real de como funciona este, que puedan ayudar en la definición de cada uno de los aspectos en el desarrollo del modelo como lo son: las reglas del negocio que se deben tener en cuenta; las posibles fuentes de datos; qué se espera del modelo de segmentación; cual es la población objetivo y otras necesidades de información que surjan durante el trabajo de segmentación y que tengan que ver directamente con aspectos del negocio. También es importante, contar con miembros por parte de la organización que tengan dominio sobre temas técnicos: Bases de Datos, fuentes de datos, aplicaciones existentes en la compañía entre otros. Como elementos adicionales, sería ideal contar con la participación de los futuros usuarios tanto operativos como administrativos, que tendrán acceso y harán uso de la de la información que brinde el modelo. Comúnmente existen áreas esénciales para el negocio que deben ser incluidas dentro del equipo del proyecto. A continuación se darán algunas, aunque estas áreas dependen y varían de acuerdo a la industria y al proyecto que se esta desarrollando.

Mercadeo Ventas - Comercial Investigación de mercados Análisis de Bases de Datos Sistemas de Información Análisis Financiero Operaciones – Personal operativo Manejo de riesgo financiero

En los capítulos sub siguientes se analizaran cada uno de los roles que existen dentro del staff del proyecto y el papel que jugarán dentro del desarrollo del mismo. Líder del Proyecto: Es el encargado de coordinar el desarrollo total del

proyecto, sus funciones van desde la definición de los objetivos y la coordinación del grupo de trabajo que hará parte del proyecto, hasta la gestión de los acuerdos sobre el cumplimiento de tiempos, presupuestos y objetivos. Es el canalizador entre la parte técnica y funcional del equipo y en el caso del desarrollo mediante Outsourcing, es quien debe realizar los acuerdos con la compañía contratante. Debe ser la persona que tiene una visión global tanto del negocio como del sistema y que puede ver aspectos importantes e interrelaciones con las demás áreas del negocio para así hallar sinergias que enriquezcan el alcance del proyecto. Su conocimiento no debe ser netamente funcional así como tampoco

Page 53: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

53

totalmente técnico, debe tener nociones de todos los aspectos, sin tener necesariamente que conocer en detalle alguno de estos. Debe ser una persona con habilidades de negociación y liderazgo. Expertos Estratégicos: Son las personas que hacen parte del negocio y

conocen en todo el detalle el funcionamiento de éste a nivel estratégico, así como los requerimientos y necesidades que debe suplir el modelo que se va a desarrollar. Dependiendo del alcance del proyecto, y de la gestión realizada por el líder del proyecto, este grupo de expertos estratégicos puede estar formado por una persona o más. Su función va a ser el levantamiento de documento de especificaciones funcionales y el servir de guía durante el desarrollo del proyecto, ayudando en procesos claves tales como la ubicación de los datos y la evaluación del impacto del modelo en otras unidades del negocio, dando soporte en este punto al líder del proyecto. Los expertos deben ser miembros de los departamentos que tienen que ver con el proyecto y deben tener facilidad en su expresión tanto oral como escrita y trabajo en equipo. Expertos Operativos: Hacen parte de las unidades de negocio que tiene

que ver con el proyecto. Son expertos en el trabajo diario que se debe llevar a cabo en cada uno de los departamentos donde trabajan, y gracias a ellos, se pueden encontrar numerosos puntos a mejorar en el desarrollo del proyecto, puesto que ellos no solamente conocen en teoría el tema, sino que debido a su trabajo lo manejan de forma constante en la práctica. Son algunos de los miembros más valiosos del equipo puesto que tienen el Know How del proceso y pueden brindar un punto de vista desde la óptica operacional. Al igual que los expertos estratégicos, los expertos operativos que harán parte del staff de trabajo deben tener facilidad en su expresión tanto oral como escrita y trabajo en equipo. Consultores o Expertos en Segmentación IT: Si el modelo se va a

desarrollar mediante el uso de outsourcing, la participación de los asesores expertos en segmentación por parte de la compañía no es obligatoria, puesto que se asumiría que el outsourcing es el experto y simplemente bastaría por parte del equipo de la compañía, un conocimiento somero del tema para entender los alcances de un modelo de segmentación y que tipo de problemas se pueden enfrentar con su uso. Por otra parte si el proyecto se desarrolla inhouse, el conocimiento de los expertos en segmentación debe ser sólido y apoyado en una metodología como la que se plantea en este documento o en una similar. Puesto que el planteamiento, desarrollo o aplicación errónea de un modelo puede causar altos costos a la compañía que lo implementa, o incluso, en el peor de los casos puede producir

Page 54: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

54

una desbandada de clientes o un cambio de estrategia que dejaría en vilo la estabilidad de la compañía. Expertos en las Fuentes de Datos IT: Debido a que generalmente la

información se encuentra almacenada en los diferentes dispositivos de los sistemas de información poseídos por la compañía, se hace necesario que un experto de IT de la organización guíe el proceso de obtención de información de las fuentes de datos para que este pueda evaluar que información es realmente útil y de cual se puede prescindir. Su función es ayudar en la evaluación, conexión, ubicación, limpieza y disponibilidad de los datos requeridos para el modelo. 4.1.2. Planteamiento, Delimitación y Definición de los Objetivos Es importante asegurarse antes de iniciar el desarrollo de un modelo de segmentación, de aspectos esenciales como verificar que las necesidades del mercado para mi producto son heterogéneas, esto se puede verificar por medio de una exploración previa o la aplicación de encuestas a poblaciones de clientes. Que poseo información en mi base de datos que revela esa heterogeneidad como información demográfica, psicográfica y de hábitos de compra (la cual es ofrecida por diferentes compañías en el mercado). Que existe forma de medir el potencial de los segmentos, es decir existe una forma de validar el proceso de segmentación. Y por último que es posible y económicamente factible llegar a esos segmentos de mercado, en otras palabras que existen los medios para llagar nuevos segmentos. Una vez cumplidas todos las condiciones antes mencionadas se puede iniciar el proceso de segmentación de mercado. Aunque algunos de estos aspectos deban ser evaluados de manera más minuciosa con el desarrollo del modelo, es bueno tenerlos en mente desde un comienzo para analizar sus implicaciones. La definición y delimitación de los objetivos es una de las tareas que toma mayor tiempo, y en la que deben estar enfocados todos los miembros del staff del proyecto, es un proceso iterativo de refinamiento, en el cual, el objetivo planteado inicialmente debe ser revisado continuamente para que comprenda todas las expectativas del negocio y de los usuarios. Para esto se debe asegurar la participación de los expertos del negocio (la gente que conoce sobre éste) en el staff que va a definir el objetivo a alcanzar.

Page 55: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

55

Por otra parte, no se puede estar restringido a las consideraciones de los expertos en el tema, o los limites preestablecidos sobre el proceso, es útil entender lo que esta sucediendo realmente para así poder identificar nuevas particularidades del objetivo que se esta planteando. Que es lo que Quiere y Necesita la Empresa: El éxito de un proyecto de

segmentación radica en saber a ciencia cierta hacia dónde se quiere ir, cuál es el objetivo del proyecto, cómo se van a ver afectados los departamentos de la organización, cuál es el impacto buscado con el desarrollo del modelo. Preguntas como estas y sus respuestas –evidentemente-, junto con algunas otras que se enumerarán más adelante son esenciales en la definición del objetivo y deben ser evaluadas siempre, puesto que ninguna herramienta, por sofisticada que sea, es capaz de saber que es lo realmente importante para el negocio en un momento determinado.

• Cuales son los aspectos del negocio relevantes • Existe un grupo o segmento de interés especial • Los datos necesarios existen

La definición de los objetivos del modelo implica un proceso iterativo, en el cual cada integrante del staff de trabajo, aporta sus conocimientos y opiniones, para obtener un objetivo concreto, alcanzable, medible, y sobre todo, que cumpla las expectativas de la organización. Cada integrante del equipo del proyecto, especialmente las personas que tiene que ver con el área operativa y estratégica del área de mercadeo de la organización, deben realizar un proceso cíclico de definición y revisión de objetivos, hasta que se llegue a un resultado que cumpla con las expectativas de los integrantes y de la organización. 4.1.3. ¿Realmente es necesaria la Segmentación? En muchas compañías se inician procesos de desarrollo de proyectos, simplemente por que en el momento se encuentra de moda una metodología, herramienta o concepto, sin que se tenga un respaldo por parte de los objetivos de la organización, ni sea parte de una iniciativa estratégica con un fin claro. El desarrollo de cualquier proyecto, y en particular la segmentación en mercadeo debe tener en un fin claro y estar sustentada dentro de los planes estratégicos de la organización, para evitar perdidas de tiempo y dinero, en productos que no van a ser usados y si implican un esfuerzo por parte de las personas que las lleva a cabo. La puesta en marcha de un proyecto de segmentación además de el costo

Page 56: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

56

de la herramienta con la cual se va a desarrollar, implica la inversión de tiempo de muchas personas dentro e inclusive fuera de la organización, desempeñando tareas arduas como la construcción de fuentes de datos y limpieza de los mismos. Si se realizara un estimado de los costos asociados a un proyecto de segmentación, se tendrían que evaluar por lo menos las siguientes variables:

Costo de la Herramienta: Generalmente son herramientas propietarias, por las cuales se paga un costo inicial (one time cost) por el motor y las licencias de los usuarios que van a tener acceso a esta y se adicionalmente un costo anual a causa de este mismo licenciamiento. Dependiendo de el número de usuarios que vaya a tener la herramienta, los costos de su adquisición se pueden incrementar muy rápidamente. En este aspecto existe un hecho muy marcado en la cultura organizacional, que hace que los usuarios cada vez que se les da algo bueno, siempre quieren más. Así el número de usuarios estimado podría diferir en una cantidad considerable del número final de usuarios que tendrán acceso a ella.

Desarrollo del modelo: El desarrollo del modelo puede llevarse a cabo dentro de la organización, por parte de sus analistas (inhouse) o fuera de la organizacional por medio de empresas consultoras o analistas externos.

Sea cual fuere la elección, ambas opciones implican costos a la empresa. Por una parte los costos de capacitación entrenamiento de los analistas internos (puesto que sería de esperarse que no sean expertos en el manejo de herramientas de minería de datos) se tiene que sumar al costo de las horas que estos están dejando de desempeñar sus labores habituales junto con el tiempo extra empleado precisamente por dicha capacitación. Por otra parte, los costos de contratar personal externo generalmente son altos debido a que se emplea personal altamente capacitado cuyo pago se realiza por horas y en un proyecto de este tipo, los imprevistos hacen que el tiempo se pueda extender más allá de lo presupuestado. Además estos contratos incluyen cuestiones legales como cláusulas de incumplimiento y seguros, que le agregan complejidad al desarrollo del proyecto.

Levantamiento de datos y definición de objetivos: En este punto se debe evaluar el tiempo invertido por parte de todos los miembros del equipo, que

Page 57: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

57

aportaron ya sea con los requerimientos del modelo, levantamiento de información y datos así como con su depuración.

Si se evalúan todos estos aspectos juntos, el costo de desarrollar un modelo de segmentación puede llegar a ser alto, pero la forma en que se utilicen los resultados que se obtengan de el, determinarán en éxito de la inversión o por el contrario, el fracaso de la misma. Además de los costos en su desarrollo, un proyecto de segmentación no debe ser tomado a la ligera, por que de el pueden depender decisiones que impactarán el curso de la compañía, como estrategias de mercadeo o decisiones de inversión. Otro error común en las empresas es el sobredimensionamiento del proyecto de segmentación. La adquisición de una herramienta especializada en análisis de datos implica y se justifica solamente cuando se va a trabajar con un alto volumen de datos, como la información almacenada de dos o más años ya sea en un CRM, en un datawarehouse, en una base de datos con estadísticas de ventas y perfiles de clientes, o con cualquier fuente de datos con información relevante de la que disponga la organización. Cuando no se posee un volumen alto de datos se pueden utilizar herramientas más sencillas, como manejadores de bases de datos y obtener la información por medio de SQL, hojas de cálculo o si se desea una perspectiva más detallada de la información, se puede analizar por medio de herramientas OLAP. Teniendo así un ahorro en los costos de capacitación o contratación de personal y adquisición de herramientas especializadas. 4.1.4. Cómo se va a desarrollar el proyecto Como ya se ha indicado en varios apartados de este documento, existen dos formas de desarrollar un proyecto de segmentación, la primera es por medio de recursos internos (analistas) o a través de consultores externos. A continuación se evaluaran cada una de las alternativas para así elegir la que mejor se adecue a cada tipo de empresa tomando como base los puntos expuestos por Berry y Linoff49 : 49 BERRY y LINOFF. Op. Cit. p. 32

Page 58: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

58

• Desarrllo In-house: Si en la organización de desea hacer de la segmentación un proceso habitual del negocio, e incorporar sus resultados a los datos existentes, de forma que se puedan rastrear los movimientos de los registros entre segmentos y utilizarlos para analizar comportamientos a través del tiempo de forma periódica; con certeza, la acción a tomar es el fortalecer el conocimiento de la organización acerca de la segmentación, sus herramientas, algoritmos, resultados y demás.

El incorporar este conocimiento dentro de la organización hace que esta tenga dentro tanto el conocimiento del negocio, así como los insights que pueda brindar un modelo de segmentación. Este camino es costoso, en términos de capacitación, pero si el objetivo es incorporar la segmentación como un procesos habitual del negocio, seguramente esta inversión retornará sus frutos. Si por el contrario el modelo se desarrolla buscando atacar un problema puntal, quizás la solución podría evaluarse desde el punto de vista de contratar un experto externo que lleve a cabo el desarrollo y entrene a los usuarios en su funcionamiento, como se explica en el siguiente apartado.

• Desarrollo Outsourcing: El desarrollo outsourcing es mucho más benéfico,

cuando se lleva a soluciones puntuales para problemas definidos, que cuando se pretende hacer de la segmentación una actividad del día a día en la organización. Aunque el tiempo de desarrollo es mucho más corto, debido a que las personas encargadas del desarrollo son expertas, se puede crear una dependencia de la organización hacia su proveedor, puesto que es el único que conoce el modelo y los datos. Además se pierden los descubrimientos claves que se podrían dar al mezclar el conocimiento de los datos y del negocio, con los resultados de los procesos de segmentación.

Esto no quiere decir que el desarrollo con personal externo sea malo, solamente que dependiendo de el plan que tenga la organización para la utilización de esos resultados, puede ser más productivo incorporar el conocimiento a la organización o contratar una persona que desarrollo del modelo específico.

4.1.5. Caso de Estudio – Definición del Problema La compañía más grande de telefonía celular en un país recientemente desarrollado, ha realizado una inversión en tecnología para el soporte de decisiones desde hace varios años. El mercado de la telefonía móvil en ese país había sido recientemente desregulado y los nuevos proveedores del servicio crecieron rápidamente. Al mismo tiempo el mercado estaba madurando y ellos

Page 59: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

59

reconocieron la necesidad de moverse del mercadeo reactivo, hacia el manejo proactivo de clientes. Ellos y sus competidores ya le habían suministrado celulares a cerca de un tercio de la población del país, con las otras compañías poseyendo cerca de la mitad de suscriptores que esta compañía. La maduración del mercado y el incremento en la competencia estaba ahora llevando a que la compañía se enfocara en los usuarios existentes, en cómo mantenerlos y en cómo hacerlos más rentables. Fondo del Proyecto El modelo de deserción fue una de las responsabilidades del equipo de mercadeo en bases de datos recientemente formado. Otro proyecto relevante era un desarrollo de un datawarehouse que se encontraba en curso, cuyo prototipo es la fuente principal de datos para el modelo de deserción. Por Favor no se vayan! Un modelo de deserción en una compañía de comunicación inalámbrica50 Churn es la palabra empleada en la industria de telecomunicaciones para referirse a los clientes que desertan, así que un modelo de Churn predice cuales clientes son propensos a abandonar en el futuro cercano. NOTA: Para el caso que analizaremos, llamaremos deserción al fenómeno estudiado, en lugar de Churn como lo hace el libro. La construcción de modelos de deserción es una aplicación común de la minería de datos a lo largo de varias industrias. Y más específicamente, casi todas las compañías de telefonía móvil en el mundo (En mercados Competitivos) han construido, o están al borde de construir un modelo de deserción. Aquellas que no lo hacen, no son competitivas. En Suma, los resultados del modelo de deserción pueden ser usados con diferentes fines, más allá que solamente desarrollar campañas para retener clientes. 50 BERRY y LINOFF. Op. Cit. p. 311

Page 60: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

60

La industria de telefonía Inalámbrica Cada lector de este trabajo, es usuario de al menos una compañía de telecomunicaciones -y probablemente varias. Algunos de nosotros podemos tener diferentes operadores para llamadas locales y de larga distancia; algunos pueden usar un servicio de dial-around para llamadas internacionales. Algunos pueden también tener un servicio de Beeper con una compañía y un teléfono móvil proporcionado por otra. Nuestra propia experiencia como consumidores frecuentemente sirve como pista cuando se esta realizando un proceso de minería de datos. Porque podríamos, nosotros, o nuestros amigos o colegas cambiar de proveedor de servicios? Los planes de servicio ofrecidos no fueron nunca competitivos, o nuestro aparato telefónico es muy anticuado. Otro aspecto podría ser el cambio en las responsabilidades laborales, que puede cambiar las prioridades como el incremento o decremento en la necesidad de realizar llamadas internacionales. Es interesante considerar como con los datos disponibles se pueden reflejar estas situaciones. Nuestra experiencia sirve como guía intuitiva a nivel micro, pero las respuestas que provee no son toda la historia. Esta industria difiere de otros retailers e industrias de servicio. Aun cuando se piense que dos compañías son completamente diferentes, las compañías de telefonía móvil son más similares que disímiles, ofreciendo servicios similares a mercados similares usando tecnologías similares Una industria que madura rápidamente Había una vez, una época en que los teléfonos celulares eran tan populares que los proveedores de servicio líderes no tenían que preocuparse por la deserción de clientes. En cualquier año eran muchos, muchos más los usuarios que se unían que aquellos que los dejaban. Pero ese periodo de crecimiento exponencial no podía durar para siempre, llegaría el momento en que cada quien tuviera un teléfono celular y se saturaría el mercado, así el número de desertores y el efecto de la deserción sobre la base de usuarios, crece significativamente a través del tiempo.

Page 61: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

61

Inicialmente por cada usuario que deserta hay muchos nuevos usuarios que ingresan. El foco en esta etapa se encuentra en atraer más y más nuevos usuarios. El eliminar la deserción en esta etapa de rápido crecimiento tiene poco efecto sobre el número total de usuarios. A medida que el mercado madura, la tasa de deserción crece hasta que cada nuevo usuario remplaza uno que ha desertado. Existe un límite en el número total de usuarios (como el tamaño de la población), así que el crecimiento se debe estabilizar en algún punto. Esto significa, que cuantas más y más personas usan teléfonos celulares, el negocio se mueve de incorporar nuevos usuarios a no incorporar ningún usuario. En un mercado maduro el crecimiento proviene de tres áreas:

• Ventas cruzadas y estímulos de ventas: Maximizando la rentabilidad por los usuarios existentes

• Retención y estimulo de ventas: Mantener los consumidores rentables y

dirigir o aumentar la rentabilidad de aquellos que no lo son • Poaching: Robo de clientes de los competidores.

El mercado de la telefonía celular esta en proceso de maduración y en muchas partes del mundo existe ya un mercado más saturado que el de Estados Unidos. Esto incluye muchos países en desarrollo, en donde debido al poco tiempo que llevan las líneas telefónicas terrestres, la telefonía celular ha tenido una rápida difusión. El caso de estudio en este capitulo, tiene lugar en la compañía líder de telefonía móvil en uno de estos países recientemente desarrollados. Contiene muchas lecciones, no solamente acerca de modelos de deserción, sino acerca de la construcción de buenos y efectivos modelos en general. Algunas diferencias con otras industrias En muchos aspectos, las compañías telefónicas son solamente otro ejemplo de la industria de servicios, similar a las compañías de servicios financieros, aseguradoras y utilidades. En otras palabras, la venta de servicios de telefonía es mas como vender productos al por menor. Existen algunas cosas importantes para tener en mente cuando se trabaja con la industria de telefonía móvil:

Page 62: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

62

Único proveedor del servicio (Monopolios de usuarios): Las compañías de telefonía tienden a ser monopolios de usuarios, lo que significa que los usuarios tienden a usar solamente uno de los proveedores para un servicio particular (aunque puedan escoger entre muchos más). Esto difiere de otras industrias, donde en consumidor tiene la opción con cada compra y los grupos de consumidores están repartidos entre dos o más competidores. El ser un monopolio de consumidores implica que las compañías de telecomunicaciones tienen un conocimiento mucho más completo del comportamiento de sus usuarios relativo a sus productos que el que pueden tener otras industrias. Costo relativamente alto de adquisición: Subsidios para los equipos celulares y la necesidad de cheques de crédito incrementan el costo de adquirir usuarios más allá de los costos usuales de marketing. El flujo de ganancias generadas por cada usuario a través del tiempo determina su valor para la compañía. Esto implica que retener un usuario actual es mucho más rentable que atraer uno nuevo, debido a que la retención evita los costos primarios de adquisición. No existe contacto directo con el usuario: El usuario nunca tiene contacto cara a cara con su proveedor de telefonía. De hecho el único contacto es solamente para servicio al usuario –y usualmente solamente cuando hay un problema que reportar. Esto implica que las compañías de telecomunicaciones crean su imagen a través de manejo de marcas y mercadeo directo. Bajo compartimiento de marca en la mente de los usuarios: Los usuarios de telefonía celular comúnmente no asocian el servicio con el fabricante de su aparato, excepto cuando surgen problemas de servicio. Después de todo, el teléfono trae incorporado el nombre del fabricante –Ericsson, Motorola, Samsung entre otros- a diferencia de la industria de tarjetas de crédito, en donde existe un alto compartimiento de marca en la mente los usuarios. El Equipo: Como muchos otros productos al pormenor, la telefonía celular posee un atractivo de vanidad –En la forma del equipo. Los nuevos teléfonos pesan menos, ofrecen más características y son generalmente más atractivos a la base de clientes. De este modo los equipos pasan a jugar un papel importante en el modelo de deserción. Existe también una tremenda cantidad de datos disponibles. Las compañías telefónicas usan switches para enrutar las llamadas. Estos switches son actualmente los más potentes computadores que existen, y graban cada llamada e

Page 63: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

63

intento de llamada hecha sobre la red. Actualmente las compañías celulares pueden utilizar su red de receptores para determinar la ubicación precisa de un usuario usando un teléfono celular. Esto es una excelente fuente de información para propósitos de mercadeo. Esta fuente de datos, también posee problemas, puesto que el volumen de información es bastante alto y los datos se encuentran bastante sucios. Además el uso de información demasiado personal trae consigo problemas éticos que no van a ser discutidos en detalle. Sin embargo es valioso enfatizar en que el uso de información de llamadas invasivas en campañas de mercadeo, puede ser un arma de doble filo si se exhibe demasiado conocimiento del usuario. El problema del negocio La compañía de telefonía móvil más grande en un país recientemente desarrollado había estado invirtiendo desde hacía varios años en una herramienta tecnológica para el soporte en la toma de decisiones. El mercado de telefonía móvil en ese país había sido recientemente desregulado y el número de compañías competidoras crecía rápidamente. AL mismo tiempo, el mercado estaba madurando y ellos reconocían la necesidad de moverse del mercadeo reactivo a la administración proactiva de clientes. Ellos y su puñado de competidores ya habían brindado los servicios de telefonía móvil a cerca de un tercio de la población del país. De la cual, cada una de las compañías competidoras tenía cera de la mitad de suscriptores que esta empresa. Background del proyecto El modelo de deserción era solamente una de las responsabilidades des recién formado equipo de mercadeo con base de datos. Otro de los proyectos relevantes que se encontraba en curso era el desarrollo de un data warehousing, cuyo prototipo era la fuente de datos principal para el modelo de deserción. Durante el curso de éste esfuerzo, el data warehouse estaba en el proceso de migración a una plataforma más grande, con más funcionalidad, más datos y más historia. La primera entrega estaba programada varios meses después de la finalización del proyecto del modelo de deserción. Otro proyecto relevante era una aplicación para dar soporte al proceso de decisión, basada en OLAP relacional (Microstrategy’s DSS Agent) en su fase beta. Este sistema permitía a los usuarios del negocio distribuir y agrupar los datos de mercadeo y ventas a través de múltiples dimensiones, tales como tipo de equipo telefónico, región y hora del día. El sistema OLAP probó ser muy útil para el

Page 64: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

64

modelo de deserción permitiendo dar respuestas rápidas a preguntas como “¿Cuál fue la tasa de deserción en Abril y Mayo para los miembros del club versus los no miembros? “ A través del proyecto del modelo de deserción, el cliente estuvo también interesado en aprender como los esfuerzos de modelaje en el futuro podrían interactuar con otros sistemas. Que otros requerimientos impondrá el modelo de deserción sobre el data warehouse y los data marts? Aspectos específicos de éste mercado El mercado de la telefonía inalámbrica esta poco desarrollado en el mercado total que la compañía cubre. La compañía tiene cerca de cinco millones de usuarios, con una muy significante porción concentrada en las grandes ciudades. Cada mes, alrededor del 1 por ciento de la base de clientes deserta. Tabla 10. Usuarios afiliados y no afiliados con su tasa de deserción

SEGMENTO # USUARIOS % DE USUARIOS TASA DE DESERCIÓN Club 1’500,000 30% 1.3% No Club 3’500,000 70% 0.9% TOTAL 5’000,000 100% 1.1%

Nota: Los número en esta y las subsecuentes tablas son representativos de los números actuales, pero han sido modificados para evitar revelar la identidad del cliente. Los usuarios de mas valor pertenecen al “Club”, lo que es análogo a los programas de viajero frecuente en las aerolíneas. Los usuarios clasifican por generar suficiente ganancia para la compañía sobre su teléfono. La membresía les da a los clientes descuentos especiales, promociones y cupones. La gente en este país depende en gran medida de sus teléfonos celulares. El usuario típico realiza alrededor de una docena de llamadas por día, sin contar las llamadas entrantes. El volumen de llamadas a las 10 p.m. es casi tan alto como lo es a lo largo del resto del día. Esto es un totalmente contrario a lo que sucede en Estados Unidos, donde el volumen de llamadas decrece notablemente durante las horas no pico y de no oficina.

Page 65: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

65

Una de las razones para la generalización del uso de los teléfonos móviles en este y otros mercados en desarrollo es el hecho que el usuario de telefonía móvil no paga por las llamadas entrantes –la persona que realiza la llamada paga por ella. Esto ha permitido a muchas personas en países en desarrollo obtener teléfonos inalámbricos cuando no tiene acceso a líneas terrestres. También este esquema de cobro ha sido un estimulo considerable para la industria, esto también significa que el negocio rara vez recolecta información de las llamadas entrantes. Los switches graban las llamadas tanto entrantes como salientes, pero solamente las llamadas que salen son pasadas en el sistema de cobro. Esta es una infortunada falta de datos, porque las llamadas entrantes contienen indicadores importantes del comportamiento del usuario. Por ejemplo, el cambio de proveedor de servicio usualmente supone un cambio en los números de teléfono. Alguien que recibe llamadas de muchas otras personas es menos propenso a desertar por evitar el lío de dar nuevamente su número a docenas de personas. Otra característica de este mercado es que alrededor de las dos terceras partes de los usuarios tienen pago automático. Esto significa que su cuenta de telefonía celular es deducida mensualmente de su cuenta corriente o ocasionalmente de su tarjeta de crédito. Aunque la información de la sostenimiento familiar no esta disponible para los usuarios, algunas veces múltiples cuentas de cobro son asignadas a una sola cuenta –como para todos los teléfonos en una casa- proveyendo una forma rudimentaria de sostenimiento para un subset de la base de usuarios. Que es la deserción? Es fácil hablar acerca de la deserción y el valor que representa para el negocio el desarrollar modelos predictivos para esta. De hecho es aún más fácil determinar quien ha desertado dentro de los datos, porque cada cuenta de teléfono tiene un campo para el día de desactivación. Entonces cual es el problema en definir la deserción? Existen diferentes tipos de deserción. Este grupo de mercadeo sobre base de datos ya ha dividido la deserción en voluntaria e involuntaria, lo que es una distinción útil. La Deserción Involuntaria ocurre cuando un usuario no ha pagado la cuenta por varios meses. Predecir la deserción involuntaria es muy valioso, ya que esta información puede ser usada para reducir perdidas. La Deserción Voluntaria es cualquier cosa que no sea deserción involuntaria. Desafortunadamente, las directrices para la deserción voluntaria e involuntaria

Page 66: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

66

suelen ser similares en algunos casos. Es importante que el modelo para deserción voluntaria no vaya a predecir involuntaria y viceversa. Si este lo hace, el mercadeo gastara recursos en campañas a usuarios que no van a pagar sus cuentas. El problema con la definición de deserción voluntaria es que ella envuelve diferentes situaciones:

• Usuarios que se mudan fuera de el área de servicio • Usuarios que cambian de compañía • Usuarios que no continuaran usando el teléfono inalámbrico • Usuarios que son robados por otros proveedores de servicio • Usuarios que desean comprar un nuevo equipo

Esta última categoría, llamada migración por equipo, merece una explicación más profunda. Esta compañía ofrece mayores subsidios para los nuevos usuarios que para los usuarios existentes. La gente es lista, así que esta política anima a los usuarios existentes a desertar y luego volver a abrir un nuevo contrato para así tener los subsidios legales. Algunas veces, los usuarios degradan el uso de su servicio sin desertar. Un ejemplo puedo ser un usuario que cambie de plan a uno que solamente acepte el ingreso de llamadas y no permita realizarlas. La degradación del uso de servicios no es normalmente considerada deserción, aunque puede tener un gran impacto en el valor del usuario. La pregunta final acerca de la deserción es “Cuando”. Nosotros sabemos que se cada usuario que se une eventualmente se retirara por alguna razón, así que un modelo que prediga la deserción en los próximos cien años es fácil de producir –todos los usuarios vana a desertar. La pregunta de “Cuando” esta directamente relacionada a como va a ser usada la información. Todas estas posibilidades sugieren que una definición más refinada de deserción podría ser útil para el negocio. Este proyecto no intenta diferenciar las diferentes clases de deserción voluntaria. El mejor acercamiento para este diferenciamiento es la construcción de un modelo sobre quienes pueden desertar primero y luego el encontrar porque (mediante el uso de otro modelo)

Page 67: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

67

Otra aproximación para trabajar con la deserción es la construcción de modelos que predigan la permanencia de cada usuario a lo largo de su permanencia con la compañía. Estos modelos requieren la suficiente cantidad de datos históricos, la cual no esta disponible. Además el propósito del esfuerzo descrito era el producir una lista de intervenciones durante un mes por venir. Como resultado, el modelo de deserción es más apropiado. Por qué es útil un modelo de deserción? Con una definición de deserción, grandes cantidades de datos, y una poderosa herramienta de minería de datos, podemos desarrollar modelos que predigan la probabilidad de deserción. La clave para llevar a cabo procesos de minería de datos exitosos se encuentra en la incorporación de los modelos al negocio. Debido a que este era un proyecto real, debemos admitir que uno de los principales impulsores era un ejecutivo del negocio, que insistía en tener un modelo de deserción para el final del año. Su razonamiento era simple, la deserción se estaba volviendo un problema cada vez más grande y las compañías celulares que andaban bien, tenían modelos de deserción. Y el quería que su compañía fuera la mejor. Afortunadamente, existen muchas buenas razones por las cuales un modelo de deserción terminará satisfaciendo las esperanzas de los directores ejecutivos (aún tengan la razón). La más obvia es el proveer al departamento de mercadeo con listas para el desarrollo de programas de prevención. Dichos programas usualmente consisten en brindar a los usuarios descuentos en tiempo al aire, minutos gratis, u otras promociones para animar a los usuarios a continuar con la compañía. Para este caso de estudio esta compañía celular pertenecía a un conglomerado, y sus promociones ofrecían productos de sus compañías hermanas, de las cuales no todas estaban relacionadas con el uso de el teléfono. Otras aplicaciones que dan como resultado puntajes de deserción, son sin embargo menos obvias. La deserción esta relacionada con la cantidad de tiempo estimada que los usuarios se mantendrán; es decir, el ciclo de vida del usuario. La idea es simple: si un grupo de usuarios tiene un 20 porciento de posibilidad de desertar en este mes, entonces, nosotros debemos esperar que conservemos usuarios por cinco meses (un mes dividido por el 20 porciento). Si el puntaje de deserción sugiere una tasa de deserción de solamente 1 porciento, entonces deberíamos esperar que los usuarios se mantuvieran por cien meses. Entonces la longitud del ciclo de vida de los usuarios puede ser llevada a modelos que

Page 68: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

68

calculen la ganancia o rentabilidad a lo largo del ciclo de vida del usuario (también llamada valor del ciclo de vida del usuario). Los modelos de deserción tienen una irónica relación con el tiempo de vida de un usuario. Si el modelo de deserción fuera perfecto, entonces los puntajes serian siempre de un 100 o de 0 porciento de probabilidad de desertar el siguiente mes. El tiempo de vida de un usuario será entonces 1 mes o para siempre. Sin embargo, debido a que el modelo de deserción no es perfecto, este provee información sobre la duración del ciclo de vida de los usuarios en la compañía. Una aplicación un poco diferente se utiliza para priorizar los segmentos de clientes. Si un segmento tiene más probabilidad de desertar, no podrá tener la nueva y fabulosa oferta para obtener descuento en un equipo - que solamente empezara a retornar ganancia después de diez meses. Aunque, estamos de acuerdo en que darles a ellos la posibilidad de obtener la oferta los podría animar a quedarse. Esta decisión no es definitiva, pero el tener puntajes de deserción, ayuda a tomar decisiones más informadas en el negocio. Tres objetivos La realización del modelo de deserción tenía varios objetivos. Existía un objetivo de retornar valor a corto plazo mediante la construcción de listas de los usuarios con mayor probabilidad de deserción, para así realizar una intervención por medio de campañas de mercadeo. La forma de construir esas listas, debería ser automatizada en una aplicación que administre la deserción. Y esta aplicación, debería a su vez ser parte de un sistema más grande de administración de relaciones con usuarios (CRM). Estas tres acciones son los tres objetivos que imponen un reto en el desarrollo de cualquier proyecto. Objetivo a corto plazo: Identificar una lista probables desertores Una de las primeras tareas en el proyecto fue hablar con los representantes del departamento de mercadeo y entender como usarían ellos los puntajes de deserción. Ya habían existido intentos de construir modelos de deserción en el pasado. En la discusión inicial con mercadeo, ellos expusieron una experiencia desalentadora: una lista previa de 10.000 probables desertores tenía poco menos

Page 69: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

69

de 3.000 miembros tipo club. Para las intervenciones en deserción, los clientes de más alto valor en los que la compañía estaba interesada deberían ser la mayoría. El tipo de inversión que ellos tenían en mente, era ofrecer incentivos a una lista de 10.000 usuarios usando su ilimitado centro de telemercadeo. Estos incentivos no estaban relacionados con telecomunicaciones; eran descuentos en productos de otras compañías que hacían parte del conglomerado del cual hacía parte esta compañía. Las discusiones con el grupo de mercadeo, delimitaron el foco inicial considerablemente. En lugar de asignar un puntaje de deserción a todos los usuarios, el departamento de mercadeo solamente necesitaba los 10.000 usuarios con puntajes superiores para una campaña de mercadeo. En lugar de buscar sobre todos los usuarios, solo los miembros tipo club se tuvieron en cuenta. Y en lugar de trabajar una fecha limite difusa, el departamento pidió que la lista le fuese entrega el día 24 del mes para actuar sobre ella. El nuevo objetivo a corto plazo para la primera mitad del proyecto se convirtió en el siguiente: Para el día 24 del mes, proveer al departamento de mercadeo con una lista de los 10.000 miembros tipo club con mayor probabilidad de desertar. La importancia de involucrar a los usuarios del negocio y del modelo no debe ser subestimada. Ese proceso ilustra la necesidad de involucrar a los usuarios del negocio para definir el problema. Objetivo a mediano plazo: Construir una aplicación para el manejo de la deserción. El objetivo a mediano plazo era el construir modelos de deserción efectivos para soportar una aplicación de administración de deserción (también llamada CMA - Churn management application). La CMA iba a ser un refinamiento de los modelos construidos durante las primeras semanas del proyecto. Este incluía los modelos por debajo de su interfase, Los modeladores no eran responsables de construir la interfase, solamente especificaban que y como debían trabajar los modelos en la aplicación. Esta parte del proyecto requería educar al cliente acerca de puntos importantes para la construcción de una aplicación de modelamiento. Después de todo, las aplicaciones de minería de datos proveen la base algorítmica para dicha aplicación, pero detrás de correr modelos de deserción la CMA también

Page 70: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

70

necesitaba:

Manejar modelos. Proveer un ambiente para el análisis de datos antes y después del

modelaje. Importar y transformar datos en valores de entrada para los modelos de

deserción. Exportar los puntajes de deserción retornados por los modelos.

Estas actividades asociadas cambian el foco de la simple construcción de modelos de minería de datos a la automatización de la construcción de modelos tanto como sea posible. Los usuarios de la CMA, ya no tendrán la necesidad de un Ph.D. en estadística para usuaria. De hecho un prototipo de una CMA que se centrara demasiado en la estadística del modelo, sería de muy poca ayuda en el mantenimiento, pruebas y actualizaciones de los modelos. Aunque estamos de acuerdo en que el equipo de mercadeo mediante bases de datos jamás la usaría si no cumpliera con sus necesidades. La necesidad de automatizar el modelo impone varios nuevos requerimientos sobre la construcción de modelos de minería de datos:

La automatización en la construcción de modelos es incompatible con el cambio mensual de técnica de modelamiento. debido a que los usuarios finales no son capaces de tomar decisiones educadas acerca del uso de regresión lineal, versus árboles de decisión o redes neuronales.

La automatización en la construcción de modelos es incompatible con decisiones de poda manual de árboles, debido a que los usuarios no conocen los detalles de la poda manual.

La automatización en la construcción de modelos es incompatible con el clustering, debido a que es importante entender los clusters desde una perspectiva tanto técnica como dl negocio.

La automatización en la construcción de modelos necesita tener sets razonables de parámetros de modelado predefinidos; esto significa que, la aplicación debe ser el repositorio, para así tener las mejores prácticas en la construcción de modelos

Page 71: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

71

La necesidad de automatización también produce algunas técnicas híbridas, tal como construir un árbol de decisión, tomando un puñado de las variables más significativas, e ingresando estas en una red neuronal (o una rutina de regresión lineal). Estas técnicas son riesgosas si no son monitoreadas por expertos e el tema. De este modo la CMA podrá implementar interfaces de tal modo que los usuarios más avanzados podrán acceder a funcionalidad más avanzada. El hecho en este punto es el definir una interfase básica de tal modo que los usuarios no tengan que entender todos los detalles del modelamiento. Objetivo a largo plazo: Administración completa de las relaciones con el usuario mediante un CRM (Customer Relationship Management) El objetivo a largo plazo del grupo de mercadeo mediante bases de datos, era el incluir el modulo de administración de deserción como una parte mas del CRM. Este proyecto inicial proveyó una base para discutir el Ciclo virtuoso de la minería de datos y el modelamiento mediante el ciclo de vida del usuario. Este proyecto se enfoco en la construcción de un modelo; el negocio necesita implantar el modelo y medir su efectividad a través del tiempo 4.2. TRANSFORMAR LOS DATOS EN INFORMACIÓN ACCIONABLE (DESARROLLO DEL MODELO DE SEGMENTACIÓN)

La transformación de los datos en Información Accionable (Información sobre la que se pueda actuar) es el objetivo principal de la segmentación y es donde debe estar concentrada la atención una vez se ha definido el problema que se pretende resolver con el modelo. El proceso de transformación de los datos en resultados se compone de varios sub pasos como se ve en el diagrama a continuación.

Page 72: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

72

Figura 9. Proceso de transformación de datos en resultados. Adaptado de Berry y Linoff51 4.2.1. Identificar y Obtener los Datos: Que son los datos? Datos es cualquier tipo de información que se encuentre disponible, razonablemente limpia y sea accesible. Cuando se desea identificar los datos que servirán para la resolución del problema u objetivo planteado, se debe estar seguro que se han tenido en cuenta todos los elementos necesarios para el análisis, considerar posibles fuentes de datos tanto internas como externas. También se deben buscar datos demográficos así como sobre el comportamiento transaccional de los usuarios. Es de esperarse que estos datos se encuentren a diferentes niveles, es decir que algunos se encuentren al nivel de usuario, otros a nivel de transacción, ítem, etc. Los datos con los que se realice el modelo deben encontrarse al mismo nivel o si es un análisis multidimensional, se debe tener información sobre todos los niveles. Al escoger los datos que se usaran dentro del modelo, se debe tener en cuenta que los datos escogidos deben ser relevantes para el problema definido anteriormente por el staff del proyecto. Puesto que el proceso de recopilación de los datos trae consigo cotos elevados tanto en términos económicos como en términos de tiempo. 51 BERRY y LINOFF. Op. Cit. p. 48

Identificar y Obtener los Datos

Validar, Explorar y Limpiar los Datos

Llevar los Datos a la Granularidad Correcta

Agregar Variables Derivadas

Preparar el Model Set

Escoger el Algoritmo para el Modelo

Probar el Modelo

Confrontar los Resultados de los Algoritmos y

Escoger el Mejor

Page 73: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

73

Las posibles fuentes de datos deben ser conocidas por los expertos del negocio y el grupo técnico según las necesidades del problema

4.2.2. Validar, explorar y limpiar los datos La validación de los datos es esencial para determinar la calidad de resultados que se van a obtener del modelo, puesto que su validez depende de la validez de los datos con que se desarrolle el modelo, acá aplica perfectamente el hecho que si basura entra, basura sale.

La validación debe asegurarse que en los datos no existan campos sin información, que todos los datos cumplen con los requisitos de formato pedidos y que tanto los datos como su distribución son relativamente razonables además debe decidir la acción a tomar con aquellos que no cumplen los criterios establecidos.

4.2.3. Llevar los datos a la granularidad correcta El nivel de granularidad de los datos normalmente esta dado por el problema, según los requerimientos de información que sean necesarios para su solución.

Debido a que la sumarización de los datos puede llegar ser un proceso complicado, en ocasiones se utilizan herramientas como PERL, SAS o SPPSS que permiten manipular más fácilmente los formatos de los datos. 4.2.4. Agregar variables Derivadas Las columnas derivadas son generalmente calculadas con base en los datos históricos almacenados en la base de datos, por medio de combinaciones y operaciones con estos o bien pueden ser traídos directamente de los datos analizados por un sistema OLAP. Basados en la premisa que el comportamiento anterior es el mejor predictor de los comportamientos futuros, Las variables derivadas buscan dar un punto de vista más amplio para la toma de decisiones con respecto a los criterios de segmentación

Page 74: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

74

4.2.5. Preparar el Model Set El Model Set es el conjunto de datos que se va a utilizar para la construcción del modelo. Después de tener los datos, de limpiarlos, validarlos, llevarlos a la granularidad correcta y agregarles las variables derivadas necesarias, es necesario llevar a cabo algunas tareas adicionales sobre los datos, como lo son:

En el caso que el conjunto de datos sea demasiado grande, es factible no realizar el proceso de segmentación directamente sobre los datos originales, sino sobre un conjunto de muestra que sea manejable y representativo. Esto se hace por medio del Sampling (Ver capitulo 3).

4.2.6. Escoger la herramienta para el desarrollo del modelo No todas las herramientas en el mercado se ajustan a todas las necesidades de los usuarios, existen una gran cantidad de variables que deben ser tenidas en cuenta para la selección de la herramienta con la cual se realizará el proceso de segmentación. Según la Corporación Crows52, existen tres tipos básicos de herramientas en minería de datos: Las herramientas OLAP, en las cuales los usuarios pueden identificar dimensiones y/o segmentos importantes para el negocio. Estas herramientas utilizan cubos para la representación de la información e incorporan algunos algoritmos para el análisis de patrones en los datos. Entre estas herramientas se encuentran Microsoft Análysis Services, Business Objects Business Miner y Cognos Scenario entre otras. Otro tipo de herramientas está conformado por herramientas puras de minería de datos, orientadas a resolver problemas complejos de minería de datos por medio de algoritmos avanzados de análisis de patrones y datos, razón por la cual tiene un amplio campo de acción. En la lista de herramientas de esta categoría se puede encontrar a IBM Intelligent Miner, Oracle Darwin, SAS Enterprise Miner, SGI MinerSet y SPSS Clementine.

52 Two Crows Corporation. Introduction to Data Mining and Knowledge Discovery: Third Edition. Potomac, 1999

Page 75: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

75

Por último se encuentran las aplicaciones analíticas que ejecutan procesos específicos del negocio y las cuales incorporan dentro des sí elementos de minería y análisis de datos. En esta categoría se pueden encontrar productos de CRM y ERP, así como herramientas propias del negocio que llevan a cabo manejo de datos. De estos tipos de herramientas se debe escoger el que mejor se ajuste a las necesidades del problema y el negocio para, ello se evalúan aspectos como53:

Requerimientos de maquina, características del equipo en el cual debe correr (procesador memoria, equipo dedicado) así como si corre en modo Stand Alone o necesita un ambiente cliente servidor. Esto da indicios acerca de la complejidad de problemas que puede resolver y la robustez de la herramienta. La idea es que entre más capacidad necesite, esta es más sofisticada y puede llevar a cabo análisis con gran cantidad de datos y algoritmos de mayor precisión que consumen más recursos.

Soporte en la limpieza de los datos, esta es la parte que más tiempo consume en el desarrollo de cualquier modelo de minería. Es útil que la herramienta provea funciones para la preparación de los datos, como por ejemplo la identificación de datos vacíos, violaciones de integridad, distribución estadística de los datos, transformaciones entre columnas de datos y/o muestreo.

Acceso a datos, es otro componente importante del diseño del modelo, las formas de extracción de datos de los repositorios en los que se encuentran. Muchas herramientas de minería utilizan archivos planos para la carga de información, pero es más útil conectarse directamente a la fuente de datos, para así aprovechar todo el potencial del manejador en el cual se encuentra la información. Esto se puede hacer por medio de enlaces que vinculen a la herramienta de minería con la base de datos. Un enlace muy conocido es ODBC de Microsoft.

Algoritmos, son los que finalmente deciden como se va a llevar a cabo el proceso de segmentación y cuales serán sus resultados. Es importante entender como funcionan, que hacen con las variables, como tratan los casos especiales como campos vacíos, valores inconsistentes en general el ruido en los datos de entrada. Si un algoritmo es muy sensible al ruido en

53 Ibid

Page 76: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

76

los datos, probablemente de cómo resultado una baja precisión en los datos.

Compatibilidad con otros productos. Las interfaces que pueda brindar la herramienta para permitir la integración de los modelos con aplicaciones del negocio como el balanced scored card, un sistema de publicación web, el CRM o cualquier herramienta la cual necesite o le sea útil el uso de esta información, es un aspecto muy valorado al interior de las organizaciones.

Evaluación de la confiabilidad del modelo y de sus resultados, mediante matrices de confusión o diagramas ROI (retorno de Inversión) las cuales se explican más adelante, son algunos medios para obtener medidas sobre la validez del modelo.

Depuración y aplicación del modelo. El objetivo de las herramientas de minería de datos es generar reglas sobre los datos, una vez se tienen estas reglas, se deben aplicar a la base de datos (o a la aplicación que tenga acceso a los datos). Algunas herramientas de minería, hacen esta labor por el programador, exportando la regla para que sea aplicada directamente a la base de datos, evitando así la generación de las transformaciones necesarias para aplicarla manualmente.

Escalabilidad. La existencia de grandes tablas (tanto en filas como en columnas) en una base de datos y técnicas avanzadas de validación, imponen un reto a las herramientas de minería, el cual para ser superado, implica aprovechar al máximo la capacidad que nos da el hardware hoy en día. Evaluar el uso del paralelismo en la herramienta, no solamente consiste en saber si sirve con dos o más procesadores, la herramienta debe estar diseñada para aprovechar al máximo estas ventajas. Si el código de la herramienta fue diseñado para correr sobre un solo procesador, su velocidad no va a aumentar al tener más, para aprovechar las ventajas del multiprocesamiento, la aplicación debeb estar diseñada para ello, y lo puede hacer de dos formas :

La primera se llama inter-model, en esta la herramienta realiza en paralelo algoritmos independientes, es decir, si se corren dos algoritmos al tiempo en una máquina, cada uno va a ir por un procesador diferente, sin aumentar la velocidad de procesamiento del modelo, pero si disminuyendo el tiempo total de obtención de los resultados de los dos modelos.

Page 77: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

77

La segunda, permite disminuir el tiempo total de procesamiento de un modelo, partiendo este en tareas más pequeñas que son asignadas a cada procesador, y que al final son recombinadas para dar la respuesta del modelo. Además del procesamiento paralelo, la herramienta puede aprovechar el uso de Sistemas manejadores de Bases de Datos (DBMS) paralelos así como de el paralelismo en el acceso a datos.

Interfaz de usuario. Aunque no se debe elegir una herramienta de minería basándose en el front end que posea, sino en lo que realmente importa que es la forma en que trabaja, no se puede desconocer que en una organización las personas que tienen acceso a esta o a sus datos, poseen diferentes grados de habilidad en el uso de herramientas informáticas. La elección de una herramienta con una interfaz amigable o fácil de usar, puede implicar la construcción de modelos más efectivos por parte del usuario final.

La evaluación de las características expuestas anteriormente soporta el proceso de elección de una herramienta de minería de datos, pero se debe tener claro que el análisis de estos puntos, no asegura la elección de la herramienta óptima. La experiencia de quienes desarrollarán el modelo así como la aplicación de pilotos con diferentes herramientas, son en la mayoría de casos mucho más decisivas que cualquier característica que pueda poseer o no la herramienta. 4.2.7. Pruebas, Evaluación y Verificación del Modelo Durante el proceso de desarrollo de un modelo de minería de datos, es frecuente el uso de datos de prueba para realizar el entrenamiento del modelo, la validez del modelo que se obtiene depende de que tan distintos sean los datos de prueba de los datos reales una vez el modelo esté en producción. Para evaluar la validez de los resultados y los costos asociados a ella, se utilizan las matrices de confusión, diagramas de elevación de cargas (lift charts) o de retorno a la inversión (ROI), el análisis de esta información da una buena aproximación del resultado del modelo, pero como en cualquier otro modelo, los modelos de minería de datos por simplicidad asumen la estabilidad de ciertas variables, que en la aplicación del modelo rara vez se encuentran en dicha estabilidad. Por esta razón se debe tener en cuenta que la evaluación de estos resultados da indicios sobre el comportamiento del modelo, pero probablemente no va a ser una copia exacta de lo que finalmente se obtenga.

Page 78: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

78

Este último argumento apoya la idea de la aplicación de pilotos de los modelos con una muestra representativa de la población objetivo, de este modo se pueden confirmar o refutar los resultados obtenidos con los métodos de evaluación aplicados al modelo. A continuación se explican cada uno de ellos tomando como base la explicación de Two Crows Corporation54. Matrices de Confusión Es una herramienta que permite entender los resultados de un modelo de minería, comparando los resultados reales obtenidos contra lo que se había predecido. Son muy útiles en problemas de clasificación como lo es la segmentación. A continuación se presenta un ejemplo expuesto por Two Crows Corporation55 para explicar el funcionamiento de las matrices. Tabla 11. Matriz de confusión 1

Actual Predicción Clase A Clase B Clase C

Clase A 45 2 3 Clase B 10 38 2 Clase C 4 6 40

Tomada de Two Crows Corporation56 Las columnas son los resultados reales, y las filas son la predicción que se había hecho para cada clase, así por ejemplo para la clase C se habían predicho 50 (4+6+40) casos, pero efectivamente solamente ocurrieron 45 (3+2+40). En la diagonal de la tabla se encuentran los aciertos de la predicción, entonces para la clase C se obtuvieron 40 aciertos. Además sabemos que 3 casos predichos para la case A y 2 casos predichos para la clase B, realmente fueron Clase C. Esto da

54 Ibid 55 Ibid 56 Ibid

Page 79: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

79

mucha más información que la simple estadística que para la clase C el 80% (40 de 50 casos) de las predicciones fueron aciertos. La utilidad de las matrices de confusión se debe a que no siempre el modelo que tenga más aciertos es el mejor modelo para una organización. Muchas veces los costos asociados a los errores del modelo pueden hacer que se prefiera un modelo menos acertado, pero que minimice los costos de la compañía debido a los errores de clasificación, por ejemplo comparemos la matriz anterior con la siguiente Tabla 12. Matriz de confusión 2

Actual Predicción Clase A Clase B Clase C

Clase A 40 12 10 Clase B 6 38 1 Clase C 2 1 40

Tomada de Two Crows Corporation57 Con los siguientes costos asociados:

• Cada caso correctamente clasificado tiene un valor de 10 • Un caso mal clasificado para la clase A tiene un costo de 5 • Un caso mal clasificado para la clase B tiene un costo de 10 • Un caso mal clasificado para la clase C tiene un costo de 20

Así el valor total del modelo de la matriz de confusión 1 será:

(123 * $10) – (5 * $5) – (12 * $10) – (10 * $20) = $885 Y para el modelo de la matriz 2

(118 * $10) – (22 * $5) – (7 * $10) – (3 * $20) = $940

57 Ibid

Page 80: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

80

Así, aunque la matriz de confusión 2 muestra que es menos acertada que la matriz 1 en cinco casos, la ganancia obtenida es mayor debido a que el costo total de los casos mal clasificados es menos que el de la matriz 1. Diagramas de Elevación de Carga Una forma sencilla de evaluar un modelo de minería es por medio de diagramas de carga, estos consisten en mostrar como aumenta la respuesta de una población ante la aplicación del modelo. Así por ejemplo si se toma un 20 por ciento de una población a la cual se le aplicaron los resultados de un modelo de minería el cual maximiza la responsividad hacia un producto, y se toma por otra parte el mismo número de personas seleccionadas aleatoreamente, y lo que obtiene es que el 60 % de las personas a las cuales se les aplicaron los resultados del modelo respondieron positivamente a la oferta, mientras que tan solo el 20 % de los seleccionados aleatoreamente respondieron al producto. El número de veces más que las personas del modelo responden al producto es el factor de carga del modelo. Así entonces el factor de carga de este modelo sería 3 (60/20). Un ejemplo de un diagrama de elevación de carga es el siguiente.

Figura 10. Lift Chart.

Tomado de Two Crows Corporation58

58 Ibid

Page 81: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

81

Diagramas de Retorno de Inversión (ROI) Los diagramas de ROI son otra sencilla forma de evaluar económicamente un modelo: Figura 11. Digrama ROI

Tomado de Two Crows Corporation59 En ROI se mide es la relación beneficio costo. Para obtener el porcentaje de ganancia que se está obteniendo de un modelo. También se suele aplicar con la ganancia neta (ingreso – costo). 4.3. ACTUAR SOBRE LA INFORMACIÓN Una vez se obtiene el modelo ya probado y aprobado. Este se aplica a la población total o a una muestra si es que se tiene un universo muy amplio. Pero, ¿ahí hemos acabado el proceso? Está claro que la respuesta es no, para que llevar a cabo un proyecto con unos costos moderados, si no se va a hacer nada 59 Ibid

Page 82: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

82

con la información que se obtiene. En ese caso hubiese sido preferible no, hacer nada o simplemente tomar una población aleatoria. El proceso de desarrollo de un modelo de segmentación, tiene tantos detalles y existen en todo momento tantas tareas por desarrollar, que se puede perder el foco del proyecto. El objetivo de la segmentación es resolver un problema del negocio o dar solución a una pregunta que se plantee. Pero con el desarrollo del mismo, se obtienen también beneficios adicionales, el conocimiento profundo de los datos que se poseen es una de los resultados más avasalladores, muchas veces, el resultado del modelo simplemente es determinar que se deben obtener más datos o que para poder obtener resultados satisfactorios, se debe llevar a cabo una depuración mucho más profunda que la realizada inicialmente. Con esto no se puede considerar la segmentación como un fracaso, por el contrario da cantidades inimaginables de indicios sobre el tipo de información que se busca obtener y al final cuando se vuelva a realizar el modelo con la nueva información los resultados son mucho más alentadores, efectivos y reales que si se hubiese llevado a cabo con los datos con los cuales se disponía inicialmente. Otro uso adicional que habitualmente se le da a la segmentación, es la generación de una base de datos en la cual se encuentra el tracking de cada uno de los registros a través de los diferentes cambios de segmento que se dan con la aplicación periódica del modelo. Esto permite realizar minería de datos sobre la minería, analizando factores que incluyen en los cambios de segmento y a medida que se obtiene una base histórica de los registros, permite descubrir perfiles de los registros más valiosos en la base de datos. Con respecto a la respuesta al problema definido inicialmente, la segmentación, aporta información adicional al problema, la cual puede ser utilizada en forma de reglas, analizada en profundidad por medio de herramientas OLAP o incorporada a herramientas del negocio. Por último el desarrollo de modelos predictivos con base en los segmentos obtenidos para realizar pruebas de respuesta a campañas o lanzamientos abre la puerta a una relación larga duradera y fructífera entre la organización y la minería de datos.

Page 83: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

83

4.4. MEDIR LOS RESULTADOS OBTENIDOS La medición de los resultados una vez en producción el modelo, al igual que en etapa de pruebas se realiza por medio de matrices de confusión, diagramas de elevación de carga y diagramas de retorno a la inversión. El objetivo de estos es compararse con los resultados obtenidos mediante en la etapa de validación del modelo, para verificar o refutar los la aplicación de los me La medición de los resultados se debe realizar con base a las acciones tomadas o los modelos predictivos desarrollados con base en la información generada por el modelo de segmentación. Pero la medición no es el paso final de la metodología, puesto que como se planteó al inicio del capitulo 4, el proceso de segmentación es un ciclo de refinamiento continuo, en el dual los resultados de una iteración, son la base para la siguiente y cada nuevo giro del ciclo, la organización avanza hacia un modelo de datos más definido con la información relevante de acuerdo a la problemática del negocio que se está desarrollando, y hacía un conocimiento más profundo de sus productos y sobre todo de sus clientes. Así que si los resultado no fueron los esperados, no se desanimé, redefina el problema de tal forma que cada una de los falencias y fortalezas que captó en el desarrollo de el sirvan de experiencia y dato de entrada para mejorar su siguiente modelo.

5. CASO DE ESTUDIO, APLICACIÓN DE LA METODOLOGÍA Piloto Segmentación a Pacientes En Colombia al igual que en muchos países del mundo, los laboratorios desarrollan programas a pacientes, con el fin de crear grupos focales y fidelizar pacientes por medio de incentivos a la compra de productos, así entonces, si un paciente afiliado al programa compra cierta cantidad de medicamento (no necesariamente en una sola compra) adquiere el derecho a disfrutar ciertos beneficios extras que le ofrece el plan (generalmente una financiación parcial del tratamiento, por medio de recambio de cajas vacías por cajas adicionales del producto). Fuera de los que posee automáticamente por ser miembro del programa. EL presente caso analiza un programa a pacientes o programa de valor agregado (VAP) de una farmacéutica con presencia en Colombia, el cual vincula y realiza todos los contactos con sus pacientes vía telefónica (ya sea en su casa o lugar de trabajo). Al realizar una evaluación de dicho programa, se encontró que el índice

Page 84: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

84

de deserción de los pacientes contactados era bastante alto. Es decir que de todos los pacientes que contactaban, las llamadas efectivas llegaban a ser cerca de la mitad de la base disponible, de la cual una gran parte se salían del programa antes de recibir el primer incentivo y otra gran cantidad desertaba gradualmente. Ante estas circunstancias, dicho laboratorio, decide actuar, pero para hacerlo debe conocer que características comunes poseen tanto los pacientes que permanecen dentro del programa como aquellos que desertan, para ello pensó en desarrollar un modelo de segmentación que hallara estas características comunes. Siendo esta una metodología para la aplicación de segmentación a procesos de mercadeo, se llegó a un acuerdo con dicha farmacéutica para realizar un piloto del proyecto y así hacer una evaluación del estado actual de las fuentes de datos y tener así una visión de lo que se puede obtener mediante el desarrollo de un modelo para la el total de la población en la base de datos. Para el desarrollo del piloto de aplicación de la metodología, se seleccionó una muestra de cerca de 800 pacientes de un solo producto, a los cuales se les aplicó una encuesta telefónica, obteniendo un contacto positivo de 300 de ellos, muestra que finalmente fue utilizada para el modelo. Aplicación de la Metodología • Identificación De Los Objetivos Del Negocio: Como sé mencionó inicialmente la necesidad de la realización de modelo, surge de la búsqueda de respuestas por la alta tasa de deserción que se presenta en los programas a pacientes de un laboratorio farmacéutico y siendo la salud de los pacientes el objetivo principal de un laboratorio, su deserción pone una alerta en todos los niveles de la compañía. Lo cual se refleja con el planteamiento de objetivos estratégicos para el negocio que busquen frenar y dar reverso a la deserción que esta llevando a cabo. El objetivo estratégico de este laboratorio en respuesta a esta coyuntura es:

“SER ALIADOS DE NUESTROS PACIENTES”

Y este a su vez se divide en tres objetivos específicos, los cuales tienen ya un contexto más firme y unas medidas más claras para su implementación:

Page 85: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

85

1. AUMENTAR LA BASE DE DATOS DE PACIENTES

2. AUMENTAR LA ADHERENCIA A LAS TERAPIAS

3. GENERAR LEALTAD A LA MARCA

Estos objetivos no fueron plateados para realizar el proyecto de segmentación, sino que fueron obtenidos mediante el análisis estratégico del negocio y con base en ellos, como una tarea para su logró, nació el proyecto de segmentación a los pacientes vinculados a programas de fidelización. Una vez se tienen los objetivos a los cuales se apunta con el proyecto, se continúa con la Conformación del Staff de Trabajo. Quienes serán los encargados de desarrollar el proyecto y llevarlo a su objetivo. • Conformación del Staff de Trabajo EL proyecto fue liderado por el área de Investigación de Mercados del laboratorio y en el participaron el gerente de investigación de mercados, los coordinadores de programas médicos y programas a pacientes, un estudiante en práctica y el autor de este documento. Los roles desempeñados por los integrantes fueron los siguientes:

Gerente de Investigación de Mercados: Sopnsor y Experto estratégico Coordinador de Programas Médicos: Líder del proyecto, Experto estratégico

y operativo Coordinador de Programas a Pacientes: Experto estratégico y operativo Estudiante en práctica: Soporte al proyecto Autor de este documento: Experto en segmentación

Los datos fueron obtenidos con el apoyo de el área de IT de la compañía, pero estos no fueron parte activa del proyecto.

Page 86: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

86

• Planteamiento, Delimitación y Definición de los Objetivos El planteamiento de los objetivos específicos del proyecto, se llevó a cabo mediante la elaboración de un DOFA en el cual se analizaba el estado actual de los programas a pacientes (VAP’s). El análisis realizado, se adjunta a continuación: Figura 10. Análisis DOFA prueba piloto - proyecto de segmentación.

Como resultado de este análisis se decidió usar dos variables para analizar a los pacientes actualmente vinculados a VAP, estas fueron la Motivación y la Adherencia al tratamiento. Con las cuales se dividió el universo de pacientes en cuatro cuadrantes fundamentales según sus características y los cuales serían atacados de manera diferente cada uno.

FORTALEZAS IInniicciiaattiivvaa EEssttrraattééggiiccaa KKnnooww--HHooww ddee 66 aaññooss eenn VVaapp´́ss VVaapp´́ss CCoommppeettiittiivvooss RReeccuurrssooss DDiissppoonniibblleess EEqquuiippoo ddee ttrraabbaajjoo mmuullttiiddiisscciipplliinnaarriioo AAmmpplliioo ppoorrttaaffoolliioo ddee pprroodduuccttooss AAmmpplliiaa bbaassee ddee ddaattooss

RETOS GGeenneerraarr nnuueevvaass ffuueenntteess ddee ccaappttuurraa ddee ppaacciieenntteess CCrreeaarr ssiinneerrggiiaass eennttrree eell ppoorrttaaffoolliioo ddee pprroodduuccttooss FFoorrttaalleecceerr llaa iinnffrraaeessttrruuccttuurraa aaccttuuaall ddee VVaapp´́ss FFoorrttaalleecceerr llaa ccuullttuurraa oorrggaanniizzaacciioonnaall hhaacciiaa eell sseerrvviicciioo MMeejjoorr ccoommuunniiccaacciióónn ccoonn nnuueessttrrooss cclliieenntteess

OPORTUNIDADES PPoossiicciioonnaarrnnooss ccoommoo eell llaabboorraattoorriiooss llííddeerr eenn pprreessttaacciióónn ddee sseerrvviicciiooss NNoo eexxiissttee eenn eell sseeccttoorr ffaarrmmaaccééuuttiiccoo ccoolloommbbiiaannoo uunnaa ccllaarraa eessttrraatteeggiiaa ddee CCRRMM MMeerrccaaddoo ccrreecciieennttee ddee SSaalluudd AAddmmiinniissttrraaddaa IInnfflluueenncciiaa ddee llooss ppaacciieenntteess eenn llaa ddeecciissiióónn ddee ccoommpprraa

AMENAZAS NNoo hhaayy uunnaa ccllaarraa ddiiffeerreenncciiaacciióónn eennttrree llooss VVaapp´́ss ddee llaa iinndduussttrriiaa CCrreecciieennttee PPrroolliiffeerraacciióónn ddee GGeennéérriiccooss yy CCooppiiaass EEll ffaaccttoorr pprreecciioo eess qquuee pprriimmaa aa llaa hhoorraa ddee llaa ccoommpprraa CCaammbbiioo ddee FFóórrmmuullaacciióónn eenn llaass ffaarrmmaacciiaass PPooccaa aaddhheerreenncciiaa aa llooss ttrraattaammiieennttooss

ANÁLISIS DOFA

Page 87: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

87

Figura 11: Objetivo del piloto – proyecto segmentación

Así entonces como se puede ver en el cuadro anterior los objetivos del proyecto de segmentación fueron:

IDENTIFICAR EL PERFIL DE LOS PACIENTES DE C/SEGMENTO DETERMINAR EL TAMAÑO DE CADA SEGMENTO

• ¿Realmente es necesaria la Segmentación? Este laboratorio farmacéutico, ya poseía un producto que le permitía realizar labores de minería de datos (Microsoft Analisis Services), por lo cual el costo económico de la implementación del proyecto no era muy alto. Además como este

Page 88: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

88

era solo un piloto con 300 pacientes para analizar la implementación del modelo para todo el universo de pacientes, los costos en tiempo asociados no eran representativos, así que se decidió proseguir con el desarrollo del modelo de segmentación. • Cómo se va a desarrollar el proyecto El modelo se desarrollo con asesoría externa en el piloto del proyecto, para su implementación en toda la base de datos, se esta evaluando la posibilidad de desarrollarlo in-house, puesto que se piensa hacer de la segmentación un proceso de mejoramiento continúo del negocio. Transformar Los Datos En Información Accionable (Desarrollo Del Modelo De Segmentación) En este punto se llevan a hechos los objetivos del modelo mediante el seguimiento de los siguientes puntos: • Identificar y Obtener los Datos: Para el desarrollo del proyecto se utilizó la información disponible en la base de datos del programa a pacientes de la compañía, en donde se encontraron las siguientes variables:

Número de identificación del Paciente, Edad, Sexo, Fumador Meses Vinculado al Programa, Estado Civil, Ocupación, Novel de Estudios, Hobbies, Concentración del medicamento, Dosis del medicamento, Numero de cajas vacías para el recambio Especialidad del Médico Tratante,

Page 89: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

89

Provincia del Médico Tratante Ciudad del Médico Tratante Sexo del Médico Tratante Tiempo Vinculado del Médico Tratante Enfermedades Concomitantes Paciente (Artritis, Artritis – Reumatoide,

Artrosis, Colesterol, Depresión, Diabetes, Enfermedad Reumática, Gastritis, Glaucoma, Hipertensión, Lumbalgia, Migraña, Neuropatía, Osteoartritis, Osteoporosis, Tiroides)

Música Preferida Paciente (Baladas, Boleros, Clásica, Ninguna En Particular, Tropical)

Motivación Para evaluar la motivación de los pacientes se desarrollo la encuesta que se encuentra en el ANEXO 1 y de la cual mediante el promedio aritmético de sus resultados se obtuvo un indicador de motivación. • Validar, explorar y limpiar los datos Esta fue sin duda alguna la tarea más ardua en el desarrollo de todo el proyecto, puesto que la base de datos de pacientes no estaba normalizada, y existían inconsistencias dentro de sus información. Así por ejemplo las fechas se almacenaban en cadenas de texto sin ningún formato específico, forzando así a su revisión manual. Por otra parte existían muchos campos que deberían tener un valor netamente numérico, pero debido a que en la base de datos estaban almacenados como texto, en ellos se podían encontrar letras y comentarios por ejemplo en las dosis y concentración del medicamento y el número de cajas vacías para el recambio. Hechos como estos, la existencia de datos duplicados en las tablas referenciales así como de vacíos en muchos campos de información básica, hicieron que el proceso de limpieza de los datos tomara un tiempo mucho mayor que el estimado (Casi tres veces más) Una vez se tuvieron los datos validados, fueron exportados desde la base en Microsoft Access en que se encontraban a una base de datos en Microsot SQL Server para así facilitar su administración. • Llevar los datos a la granularidad correcta La mayoría de los datos examinados ya se encontraban en la granularidad correcta. Los valores que se modificaron fueron la concentración para que toda

Page 90: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

90

quedara en miligramos (MG), las dosis para que quedaran en un consumo diario y las fechas para dejarlas en términos de lapsos de tiempo en meses, en lugar de una fecha como tal. • Agregar variables Derivadas Como se planteo en la definición del problema, las variables a tenerse en cuenta para la clasificación de pacientes, son Motivación y Adherencia. Para evaluar la motivación, como ya se enunció en el punto de obtención de variables, se desarrollo una encuesta (ANEXO 1) en la cual se mide el grado de motivación de los pacientes hacia el tratamiento en una escala de 1 a 5. Por otra parte para evaluar la adherencia, se desarrolló una formula, según el tiempo de vinculación del paciente al programa y el número de veces que ha recibido el beneficio de medicamentos gratis mediante la siguiente formula: IA = MgCons / MgTto Donde: IA = Indicador de Adherencia

MgCons = Miligramos del producto consumidos realmente MgTto = Miligramos del producto

Y se calculan mediante las siguientes formulas:

MgCons = (Σ ((NCVR *10) + TB)) * CM MgTto = MVP *30 * DM * CM

NVCR = Numero de cajas Vacias para el recambio i recambio TB = Tabletas recibidas a en el reambio i MVP = Meses Vinculado al Programa DM = Dosis del Medicamento CM = Concentración del medicamento Así la primer formula muestra la suma de las cajas entregadas para cada recambio por 10 (que es el número de tabletas en una caja) más las tabletas recibidas en ese mismo recambio. Y todo esto por el gramaje de la dosis.

Page 91: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

91

La segunda formula nos da el consumo objetivo en gramos del total del tratamiento hasta la fecha, multiplicando el número de meses en tratamiento por los 30 días del mes y todo esto multiplicado por la dosis diaria del tratamiento y el gramaje de esa dosis para expresarlo en la misma medida que el consumo real. El segundo dato calculado y el cual es el dato objetivo de los algoritmos a desarrollar es el Cuadrante al que pertenece el paciente. Este cálculo se hizo normalizando los valores de adherencia, tomando como el tope, el mayor valor obtenido en el cálculo anterior y dividiéndolo entre 2. Esto dio el valor medio por el cual se separan los cuadrantes. Con respecto a la motivación se realizó este mismo proceso de normalización para encontrar el valor medio por el caul se tenía que dividir la muestra. En formulas esto nos da lo siguiente

Xm = Max(Adherencia) / 2 Ym = Max(Motivación) / 2

Agrupando a los pacientes en los cuadrantes de la siguiente manera:

Cuadrante I = Adherencia > Xm y Motivación > Ym Cuadrante II = Adherencia < Xm y Motivación > Ym Cuadrante III = Adherencia < Xm y Motivación < Ym Cuadrante IV = Adherencia > Xm y Motivación < Ym

• Preparar el Model Set Debido a que este proceso era solamente un piloto y no se iban a realizar reclasificaciones futuras con respecto a las reglas generadas por el modelo, no se crearon model sets de prueba, sino que se trabajó siempre con la muestra completa • Escoger la herramienta para el desarrollo del modelo Como se dijo en la evaluación de la desición del proyecto, el laboratorio con el que se desarrollo el piloto, ya poseía Microsoft Analisis Services, y no se tenía pensado adquirir otra herramienta hasta que no se tuvieran los resultados del

Page 92: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

92

modelo. Los cuales una vez fueran entregados servirían de justificación para la adquisición de la herramienta. Una vez se tenía esta certeza, se prosiguió con el desarrollo del modelo. Para esto se realizaron en realidad dos modelos para ser comparados entre si, uno con cada uno de los algoritmos de minería disponibles en Analisis Services:

Microsoft Clustering Microsoft Decisión Trees

El proceso de desarrollo de los modelos se llevo a cabo mediante el asistente de creación de modelos de la herramienta. En algunos otros programas disponibles en el mercado la creación de los modelos representa un trabajo más complejo debido a que no existe la ayuda de un asistente. Por medio de este asistente se selecciona la base de datos en la que se encuentra almacenada la información y luego se marcan cada una de las columnas como columnas objetivo o columnas de entrada. Las primeras no se utilizan para realizar divisiones entre segmentos, pero son tenidas en cuenta para la evaluación del segmento final. Las segundas, pueden se utilizan para dividir los segmentos y pueden o no ser tenidas en cuenta para la evaluación del segmento, esto se decide una vez terminado el modelo, en el menú de edición, en las propiedades de cada columna se puede especificar si se quiere solo de entrada o también utilizarla como objetivo. Luego de finalizar el diseño del modelo, este se procesa y se verifican sus resultados mediante el menú “browse“ del modelo. Si los resultados no son representativos (muy pocos registros en algún segmento o no son relevantes los segmentos obtenidos) se deben ajustar los parámetros del modelo para forzarlos a encontrar nuevos patrones en los datos. Para los modelos de el piloto se utilizaron los siguientes parámetros según el algoritmo: Árboles de decisión: COMPLEXITY_PENALTY=0.2. Este parámetro inhibe o permite el crecimiento de árbol, es un valor entre 0 y 1, entre más cerca de cero, es más fácil que genere una división en los datos y entre más cerca de uno es más exigente con las divisiones. Por defecto se encuentra en 0.5. Clusters: Para el algoritmo de clusters, solamente se cambió la cantidad de clusters objetivo que por defecto es 10 a 2, cantidad con la que se encontró que se

Page 93: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

93

daba la mayor diferencia entre los cuadrantes I y II, y se escogió debido a que el cuadrante 1 es el cuadrante del que inicialmente se quieren obtener las características de los pacientes, por su alta percepción del tratamiento. En caso que se buscará otro tipo de cuadrante, se tendría que evaluar nuevamente para ese cuadrante cual es la mejor cantidad de clusters a elegir. Para este modelo se escogieron los dos valores tan bajos debido al tamaño de la muestra. • Pruebas, Evaluación y Verificación del Modelo Los resultados del modelo fueron los siguientes: Arboles de decisión Figura 12. Árbol de decisión, con colores basados en todos los cuadrantes

Figura 13. Árbol de decisión, con colores basados en el cuadrante 4

Los porcentajes y reglas obtenidas se detallan a continuación para cada uno de sus nodos

Page 94: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

94

Nodo 1 (Superior) (Node Total) 68 100.00% Cuadrante 1 35 49.32% Cuadrante 2 32 45.21% Cuadrante 3 1 2.74% Cuadrante 4 0 1.37% missing 0 1.37% Des Provincia = N. DE SANTANDER nodo 2 (Centro) (Node Total) 13 100.00% Cuadrante 1 1 11.11% Cuadrante 2 11 66.67% Cuadrante 3 1 11.11% Cuadrante 4 0 5.56% missing 0 5.56% Meses Vinculado <= 1.25 and Des Provincia not = N. DE SANTANDER nodo 3 (Inferior) (Node Total) 213 100.00% Cuadrante 1 69 32.11% Cuadrante 2 83 38.53% Cuadrante 3 17 8.26% Cuadrante 4 44 20.64% missing 0 0.46% Meses Vinculado > 1.25 and Des Provincia not = N. DE SANTANDER Según estos resultados, la variable que más influye en la ubicación de un paciente en un nodo o en otro es que la provincia del medico tratante sea Norte de Santander o no. Y la segunda y última es que no siendo de Norte de Santander, lleve más de un mes y una semana vinculado al programa. Estos datos deberían ser estudiados para evaluar su veracidad, pero a simple vista se podría suponer que no son representativos, y que esto se puede deber a la reducida cantidad de la muestra y/o a la calidad de los datos que se tenían a disposición. Por otra parte al realizar la segmentación por medio del algoritmo de Clustering, se obtuvieron los siguiente resultados:

Page 95: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

95

Figura 13. Clustering

Y las reglas y porcentajes obtenidos según cada cluster se detallan a continuación: Cluster 1 (Cluster 1 Total) 169.91 100.00% Cuadrante 1 67.02 39.44% Cuadrante 2 68.88 40.54% Cuadrante 3 10.01 5.89% Cuadrante 4 24.01 14.13% missing 0 0.00% Des Ciudad = 3575 - MANIZALES , Des Ciudad = 1196 - CARTAGO , Des Ciudad = 962 - CAJICA , Des Ciudad = 832 - BUCARAMANGA , Des Ciudad = 2353 - FONTIBON , Des Ciudad = 6695 - VALLEDUPAR , Des Ciudad = 4420 - POPAYAN , Des Ciudad = 2210 - ENVIGADO , Des Ciudad = 2938 - IBAGUE , Des Ciudad = 494 - ARMENIA Tiempo Vinculado Medico = 67 , Tiempo Vinculado Medico = 70 , Tiempo Vinculado Medico = 3 , Tiempo Vinculado Medico = 64 , Tiempo Vinculado Medico = 69 , Tiempo Vinculado Medico = 16 , Des Especialidad = 09 - Endocrinologia , Des Especialidad = 21 - Neumologia , Des Especialidad = 15 - Psiquiatria , Concentracion = 100

Cluster 2 (Cluster 2 Total) 124.09 100.00% Cuadrante 1 37.98 30.61% Cuadrante 2 57.12 46.03% Cuadrante 3 8.99 7.24% Cuadrante 4 19.99 16.11% missing 0 0.00% Des Ocupacion = ESTUDIANTE , Des Ocupacion = TEMPORALMENTE DESEMPLEADO Des Ocupacion = INDEPENDIENTE , Tiempo Vinculado Medico = 15 , Clasica = True , Baladas = True , Ninguna En Part = True , No Registrado = True , Otros = True Gastritis = True , Des Estado = UNION LIBRE , Concentracion = 20 , Depresion = True , Tiroides = True , Artrosis = True , Des Provincia = CORDOBA , Des Hobbies = LEER , Des Hobbies = CINE , Des Ciudad = 1872 - DOSQUEBRADAS , Des Ciudad = 3861 - MONTERIA

Según estos resultados, los pacientes que se encuentran en el cuadrante 1 (alta motivación, alta adherencia) tienden a encontrarse en las ciudades enumeradas, ser atendidos por médicos relativamente antiguos en el programa y de ciertas especialidades. Al igual que con los árboles de decisión se debe evaluar la veracidad de estos datos, y la representatividad de la muestra antes de tomarlos como verdaderos.

Page 96: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

96

• Actuar Sobre La Información El laboratorio farmacéutico tendrá que realizar una revisión de los datos disponibles antes de realizar el modelo definitivo de segmentación, debido que las limitantes en cuanto a información y sobre todo la autenticidad e integridad de la que ya se posee deben ser aseguradas para así obtener resultados confiables sobre los cuales tomar decisiones acertadas. Una vez limpios los datos se podría realizar otro piloto más grande con la misma herramienta para evaluar los resultados y decidir si esta herramienta si les da la profundidad que ellos necesitan o deben adquirir otra más especializada. • Medir Los Resultados Obtenidos El resultado del piloto fue satisfactorio, puesto que revelo falencias en los datos que deben ser revisadas antes de intentar aplicar el modelo en gran escala. Puede que los resultados obtenidos no puedan ser utilizados para la toma de decisiones aún, pero como se planteo en la metodología el desarrollo de modelos de segmentación aplicados al mercadeo es un proceso cíclico que a medida de sus etapas incrementales lleva a la obtención de un resultado satisfactorio.

6. CONCLUSIONES La aplicación de la metodología a un caso práctico, permitió evaluar la funcionalidad de esta y dar una guía de la forma en que se debe llevar a cabo un proceso de segmentación aplicado al mercadeo. Además mostró que no siempre la no obtención de un resultado aplicable a una regla de negocio es una pérdida, sino que por el contrario representa una ganancia en el sentido de que va a permitir en el futuro una obtención de resultados más confiable que da la tranquilidad a las organizaciones de estar tomando decisiones sobre información veraz. Se logro el objetivo de el documento, el cual no era explicar en detalle el uso de las herramientas de minería de datos, para utilizarlas en el desarrollo de modelos de segmentación, puesto que esto lo hacen los manuales de dichas herramientas, sino más bien dar una asesoría de un nivel más alto, para que este proceso pueda ser evaluado desde una perspectiva si no gerencial si por lo menos analítica mostrando sus implicaciones sobre otras áreas de la organización.

Page 97: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

97

Durante todo el documento se mantuvo un nivel de profundidad y un vocabulario claro que permite el entendimiento de la metodología tanto para expertos en minería de datos, así como para principiantes y personas ajenas al área de sistemas. Permitiéndoles a estos últimos entender el proceso con un mayor grado de profundidad, lo que no es frecuente debido al alto vocabulario técnico que se utiliza durante la realización de estos modelos. Se logró dar una metodología de segmentación nueva, aunque basado en el ciclo virtuoso de la minería propuesto por Berry & Linoff60 y enmarcarla en su aplicación a las empresas y específicamente al área de mercadeo, de una forma clara y fácil de seguir, mostrando porque efectivamente la minería de datos apoya los procesos de mercado en las empresas y guiando al lector a través de los cuidados y procedimientos que se deben realizar para su aplicación. Por último se aportó un documento de alto valor técnico y de aplicabilidad empresarial a la línea de investigación en Ingeniería de Información de la universidad de los andes, dejando las bases para que en un futuro se puedan hacer más y mejores aplicaciones de esta metodología o porque no una extensión, corrección o complemento de lo que acá se ha planteado.

60 BERRY y LINOFF. Op. Cit. p. 43

Page 98: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

98

REFERENCIAS

ACKLEY, David, HINTON, Geoffrey y SEJNOWSKI, Terrence. A learning algorithm for Boltzmann machines. En: Cognitive Science, Vol. 9; 147-169, 1985. BERRY, Michael y LINOFF, Gordon. Mastering Data Mining: The Art and Science of Customer Relationship Management. New York: John Wiley & Sons, 1999. BOSQUE, Marcelo. Conceptos Fundamentales Sobre Las Redes Neuronales Artificiales. Buenos Aires, 1998. Disponible en: http://www.geocities.com/SiliconValley/Byte/4713/ DROZDENKO, Ronald y DRAKE, Perry. Optimal Database Marketing, Strategy, Development and Data Mining. Thousand Oaks: Sage publications Inc, 2002. FELDMAN, Jerome y BALLARD, Dana. Connectionist models and their properties. En: Cognitive Science. Vol. 6; 205-254, 1982. FLEISMAN, David. Modelos De Las Estrategias De Marketing: Para Las Micros, Pequeñas, Medianas Y Grandes Empresas. En: Gestión en el Tercer Milenio. Año 5 . Nº 9. Octubre 2002. Disponible en: http://sisbib.unmsm.edu.pe/bibvirtual/publicaciones/administracion/A%C3%B1o5_n9_2002/modelo_estrategias_marketing.htm Harvard Business School Publishing Corporation. Marketing Essentials, 2003. Disponible en: http://www.harvardmanagementor.com/demo/demo/market/print.htm HOPFIELD, John. Neural networks and physical systems with emergent collective computational abilities. En: National Academy of Sciences, Vol. 79; 2554-2558, 1982. HORNIK, Kurt, STINCHCOMBE, Maxwell y WHITE, Halbert. Multilayer feedforward networks are universal approximators. En: Neural Networks, Vol. 2; 359-366, 1989. HUBA, Gerorge. CHAID. The Measurement Group, 2003. Disponible en: http://www.themeasurementgroup.com/Definitions/CHAID.htm

Page 99: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

99

Information Discovery, Inc. A Characterization of Data Mining Technologies and Process. Hermosa Beach (CA), 1997. Disponible en: http://dmreview.com/master.cfm?NavID=61&WhitePaperID=60 Information Discovery, Inc. Rules are Much More than Decision Trees. Process. Hermosa Beach (CA), 1996. Disponible en: http://dmreview.com/master.cfm?NavID=61&WhitePaperID=46 KASABOV, Nikola. Foundations of Neural Networks, Fuzzy Systems, and Knowledge Engineering. Cambridge: Massachusetts Institute of Technology, 1998.

KOHONEN, Teuvo. The self-organizing map. En: IEEE Vol. 78; 1464-1497, 1990. KOTLER, Philip, ARMSTRONG, Gary, SAUNDERS, John y WONG, Veronica. Principles of Marketing. Second European Edition. New Jersey: Prentice Hall Inc, 1999. KRÖSE, Ben. y VAN DER SMAGT, Patrick. An Introduction to Neural Networks. Amsterdam:The University of Amsterdam, 1996. MORIARTY, Rowland y REIBSTEIN, David. Benefit Segmentation: An Industrial Application. Marketing Science Institute, 1982.

PARR, Olivia. The Datamining CookBook. New York: John Wiley & Son, 2001. ROSENBLATT, Frank. Principles of Neurodynamics. New York: Spartan Books, 1959.

RUMELHART, David, HINTON, Geoffrey y WILLIAMS, Ronald. Learning representations by backpropagating errors. En: Nature, Vol. 323; 533-536, 1986. Stat Soft, Inc. Data Mining Techniques. Tulsa, (OK), 1984-2003. Disponible en: http://www.statsoftinc.com/textbook/stdatmin.html

Two Crows Corporation. Introduction to Data Mining and Knowledge Discovery: Third Edition. Potomac, 1999. Disponible en: http://www.twocrows.com WIDROW, Bernard y HOFF, Marcian. Adaptive switching circuits. En: IRE WESCON Convention Record. Parte 4, p. 96 -104. Agosto 1960.

Page 100: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

100

ANEXO 1

ENCUESTA PARA EVALUAR LA MOTIVACIÓN DE PACIENTES

NOMBRE DEL PACIENTE: ________________________ NOMBRE DEL ENCUESTADOR: ____________________ CÉDULA (CÓDIGO): __________ ¿Cuál es el nombre del medicamento que está tomando para (nombre del diagnóstico): _____________________________________________________ A continuación le voy a leer algunas frases y usted solo debe decirme que tan de acuerdo esta con la frase. Uste va a calificar cada frase en una escala de 1 a 5, donde 1 significa “ESTOY COMPLETAMENTE EN DESACUERDO” y 5 significa “ESTOY COMPLETAMENTE DE ACUERDO”. Ejemplo:

- Normalmente todas las mañanas yo hago ejercicio....

Qué tande acuerdo esta con la frase? Si esto es cierto... entonces usted “ESTA COMPLETAMENTE DE ACUERDO” entonces califica con 5 Si es cierto pero no ocurre siempre así, simplemente “ESTA DE ACUERDO” entonces califica con 4 Si esto es más o menos cierto “NO ESTA NI DE ACUERDO NI EN DESACUERDO” entonces califica con 3 Si esto casi no ocurre pero algunas pocas veces si “ESTA EN DESACUERDO” entonces califica con 2 Si esto no es cierto entonces “ESTA COMPLETAMENTE EN DESACUERDO” entonces califica con 1

Page 101: METODOLOGÍA PARA EL DESARROLLO DE MODELOS DE …

Metodología para el Desarrollo de Modelos de Segmentación y su Aplicación al Mercadeo ISC-2003-2-27

101

(por favor asegurarse que la persona entienda la instrucción, repetir el ejemplo cuantas veces sea necesario y luego si empezar a preguntar. NA significa No Aplica) Que tan de acuerdo esta con la frase... 1 2 3 4 5 NA1. Yo soy muy juicioso(a) en asistir a los controles médicos que me tocan

2. Yo siempre me aseguro de guardar la plata para pagar el medicamento

3. Generalmente yo sigo las recomendaciones del médico en cuanto a las cosas que debo comer y las que no

4. Siempre hago los ejercicios que me recomienda el médico

5. Pase lo que pase yo no dejo de tomar el medicamento ni un solo dia

6. Yo considero que estoy muy motivado a seguir el tratamiento como debe ser

7. Cuando siento que estoy mejor prefiero dejar de tomar el medicamento

8. Usualmente yo sigo las recomendaciones del médico al pie de la letra

9. Yo creo que destinar plata para el medicamento vale la pena

10. Cada dia que pasaestoy más convencido(a) de seguir con el tratamiento

11. Yo creo que el medicamento realmente me ayuda

12. Si me invitan a una charla sobre esta enfermedad hago todo lo posible por ir

13. Yo aconsejaría a una persona recien diagnosticada con esta enfermedad seguir las recomendaciones del médico

14. Yo pienso antes de empezar a comer cuáqles son los alimentos que me convienen y cuáles no

15. Normalmente yo sigo las indicaciones de ejercicio físico que necesito