investmercados-ii-5.pdf

25
UNIVERSIDAD JOSE CARLOS MARIATEGUI Pág. 126 TÉCNICAS MULTIVARIADAS EN LA INVESTIGACIÓN DE MERCADOS En el capítulo precedente, nos concentramos en el análisis de datos en que intervenían una o dos variables solamente. Se trata de la-herramienta fundamental del investigador; por tanto, la habilidad con que la apliquemos nos llevará a adquirir gran pericia. En el presente capítulo, abordaremos diversas técnicas que no son tan usuales en esta actividad. Con lo anterior no, pretendemos afirmar que los métodos que veremos aquí son frívolos o poco prácticos. Del mismo modo que la alta cocina nos da alimentos nutritivos y sustanciosos, también esos métodos pueden ser de gran utilidad para el investigador de mercados. Sin embargo, si nos dedicamos a comer en restaurantes de lujo veremos mermar mucho nuestros fondos. Asimismo, la explicación pormenori- zada de dichos procedimientos rebasa los conocimientos de matemáticas y estadísticas que este libro supone por parte del lector. Las técnicas multivariadas son aquellas que incluyen más de dos variables a la vez. Una de ellas, la escala multidimensional, fue descrita en el capitulo anterior en que hablamos de las escalas de actitudes debido a su nexo especial con este tema. Este y otros métodos multivariados son útiles porque muchos problemas de mercadotecnia y varias preguntas de la investigación exigen tener en cuenta más de una o dos variables. Para ilustrar esto con un ejemplo, consideremos las siguientes posibilidades: En vez de limitarse a ver las ventas en función de la publicidad, una compañía de sea emprender un análisis que las considere como dependientes de diversas variables; por ejemplo, nivel de la publicidad, número de vendedores, precio e ingresos disponibles por persona. En esta aplicación conviene utilizar el análisis de regresión múltiple. Una compañía de seguros de vida desea identificar las: variables que predecirán si un solicitante tiene probabilidades de ser: a) un riesgo aceptable o b) un riesgo no aceptable como tenedor de, una póliza. En este caso, se recomienda el análisis discriminatorio; la compañía predice la "pertenencia!' al grupo basándose para ello en la edad, sexo, estado civil, hábito de fumar y de beber del solicitante, así como en sus, problemas médicos pasados. . Hemos diseñado un cuestionario de 100 preguntas", cuya finalidad es medir los atributos que los estudiantes juzgan importantes al seleccionar la universidad a que asistirán. ¿Estamos en. Realidad midiendo 100 características diferentes de una universidad o existe un menor número de dimensiones más básicas que las que describen estas variables? Este es un problema que cae dentro del ámbito del análisis factorial. En la siguiente sección ofreceremos una clasificación general de las técnicas multivariadas que han sido incorporadas a la investigación de mercados; luego empezaremos a examinar algunas de ellas en sus aspectos básicos. Según dijimos con anterioridad, estos métodos son complejos. desde el punto de vista matemático, y nuestro nivel descriptivo no nos permitirá poner inmediatamente en práctica estos métodos. Sin embargo, una cosa es cierta: el lector conocerá mejor la índole y el objetivo de ellos; además le. servirán

Upload: nuria

Post on 05-Nov-2015

5 views

Category:

Documents


1 download

TRANSCRIPT

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 126

    TCNICAS MULTIVARIADAS EN LA INVESTIGACIN DE MERCADOS

    En el captulo precedente, nos concentramos en el anlisis de datos en que intervenan una o dos variables solamente. Se trata de la-herramienta fundamental del investigador; por tanto, la habilidad con que la apliquemos nos llevar a adquirir gran pericia. En el presente captulo, abordaremos diversas tcnicas que no son tan usuales en esta actividad.

    Con lo anterior no, pretendemos afirmar que los mtodos que veremos aqu son frvolos o poco

    prcticos. Del mismo modo que la alta cocina nos da alimentos nutritivos y sustanciosos, tambin esos mtodos pueden ser de gran utilidad para el investigador de mercados. Sin embargo, si nos dedicamos a comer en restaurantes de lujo veremos mermar mucho nuestros fondos. Asimismo, la explicacin pormenori-zada de dichos procedimientos rebasa los conocimientos de matemticas y estadsticas que este libro supone por parte del lector.

    Las tcnicas multivariadas son aquellas que incluyen ms de dos variables a la vez. Una de ellas, la

    escala multidimensional, fue descrita en el capitulo anterior en que hablamos de las escalas de actitudes debido a su nexo especial con este tema. Este y otros mtodos multivariados son tiles porque muchos problemas de mercadotecnia y varias preguntas de la investigacin exigen tener en cuenta ms de una o dos variables. Para ilustrar esto con un ejemplo, consideremos las siguientes posibilidades:

    En vez de limitarse a ver las ventas en funcin de la publicidad, una compaa de sea emprender un

    anlisis que las considere como dependientes de diversas variables; por ejemplo, nivel de la publicidad, nmero de vendedores, precio e ingresos disponibles por persona. En esta aplicacin conviene utilizar el anlisis de regresin mltiple.

    Una compaa de seguros de vida desea identificar las: variables que predecirn si un solicitante tiene probabilidades de ser: a) un riesgo aceptable o b) un riesgo no aceptable como tenedor de, una pliza. En este caso, se recomienda el anlisis discriminatorio; la compaa predice la "pertenencia!' al grupo basndose para ello en la edad, sexo, estado civil, hbito de fumar y de beber del solicitante, as como en sus, problemas mdicos pasados. .

    Hemos diseado un cuestionario de 100 preguntas", cuya finalidad es medir los atributos que los estudiantes juzgan importantes al seleccionar la universidad a que asistirn. Estamos en. Realidad midiendo 100 caractersticas diferentes de una universidad o existe un menor nmero de dimensiones ms bsicas que las que describen estas variables? Este es un problema que cae dentro del mbito del anlisis factorial.

    En la siguiente seccin ofreceremos una clasificacin general de las tcnicas multivariadas que han sido incorporadas a la investigacin de mercados; luego empezaremos a examinar algunas de ellas en sus aspectos bsicos. Segn dijimos con anterioridad, estos mtodos son complejos. desde el punto de vista matemtico, y nuestro nivel descriptivo no nos permitir poner inmediatamente en prctica estos mtodos. Sin embargo, una cosa es cierta: el lector conocer mejor la ndole y el objetivo de ellos; adems le. servirn

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 127

    de marco de referencia para comunicarse de modo ms eficiente con quienes los utilizan y entender sus informes. Nuestro estudio de estos mtodos se organizar a partir de los siguientes temas: I. Tipos de tcnicas multivariadas. II. Regresin y correlacin multivariadas III. Anlisis discriminatorio. IV. Anlisis factorial V. Anlisis de conglomerados VI. Otras tcnicas multivariadas. TIPOS DE MTODOS MULTIVARIADOS

    Estos mtodos pueden clasificarse por la estructura que aparece en la figura 13-1. En lo

    fundamental, la seleccin de la estrategia adecuada de anlisis depende de las respuestas a las tres preguntas que se comentan a continuacin. 1. Dependen algunas de las variables dependientes d otras?. Interviene la dependencia si estamos suponiendo que una o. ms variables podran predecirse o explicarse con los valores de dos o ms variables (independientes). Un ejemplo sera un estudio donde estemos examinando la fidelidad a la marca en funcin de la edad, ingresos y escolaridad del consumidor. En la interdependencia, no se supone que una variable dependa de la otra o que pueda predecirse y explicarse a partir de ella; lo que nos interesa es ante todo conocer las relaciones existentes entre el. conjunto entero de variables. 2. Hay ms de una variable dependiente? Si la respuesta a la pregunta anterior es negativa tambin ser la que sede a sta. Pero algunas tcnicas (entre ellas, la regresin mltiple) tan slo pueda en manejar una variable dependiente a la vez; en cambio, otras (como el anlisis multivariado de variancia) son capaces de incluir simultneamente mas de una. 3. Cul es la naturaleza de los datos?. En este contexto, la escala de medicin se tiene en cuenta; es decir, se ve si los datos son mtricos (escala de razn o de intervalo) o no mtricos (escala nominal u ordinal). Tratndose de procedimiento que se funden en la dependencia, primero hemos de atender a la escala de medicin de la variable (variables) dependiente; en cambio en la independencia se tienen presenten simultneamente todas las variables. Segn se advierte en la figura 13-1, subdivisiones ulteriores pueden hacerse a partir de la escala de variables independientes.

    Antes de abordar una descripcin mas pormenorizada de las tcnicas multivariadas en la siguiente seccin, aqu sintetizaremos brevemente algunos de los procedimientos de mayor uso: Anlisis de regresin mltiple: describe la relacin lineal de mejor ajuste entre la variable dependiente (Y) y dos o ms variables independientes (las X). Correlacin multivariada: mide la fuerza de la asociacin lineal entre una variable dependiente (Y) y dos o mas variables independientes (las X). Anlisis discriminatorias: determina cules variables distinguen mejor los miembros de dos o ms grupos. Pueden emplearse para predecir la pertenencia a un grupo, a partir de las mediciones de las variables independientes. Anlisis factorial: reduce un nmero mayor de variable a un conjunto menor de variables (factores) que tienen un sentido ms bsico pero que contienen la mayor parte de la informacin sobre el grupo original. Anlisis de conglomerados: a partir de las mediciones de cada objeto de un grupo numeroso, divide los objetos en varios grupos mas pequeos en los cuales los miembros tienden a mostrar mediciones semejantes. Puede reducir un nmero extenso de consumidores en conglomerados menos grandes de

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 128

    individuos similares, lo cual facilita la segmentacin del mercado. Escala multidimensional: a partir de datos sobre semejanzas o preferencias, mapea un conjunto de objetos en el espacio-perceptual multidimensional; las dimensiones representan los atributos importantes que poseen los objetos (y que ya explicamos en pginas precedentes). Anlisis multivariado de variancia: se parece al caso de una variable descrito en el captulo 12; slo que cada grupo se describe ahora por dos o ms mediciones y no por una. Anlisis de covariancia: ajuste el valor de una variable dependiente por medio de la relacin de regresin existente entre la variable dependiente y una o ms variables independientes. En el caso de datos experimentales, en ocasiones sirve para "suprimir" el efecto de variables externas no controladas.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 129

    Regresin mltiple escalonada: se parece a la regresin mltiple; slo que las variables independientes (las X) se introducen en la ecuacin una a la vez; la primera escogida explica el mayor grado de variabilidad en la variable dependiente (Y). Las introducciones posteriores son asimismo secuenciales, y sobre esta base la X restante explica el mayor grado de variabilidad restante en Y. Regresin mltiple de variable nominal: se parece a la regresin mltiple, salvo que algunas de las variables independientes pertenecen a la escala nominal y. se representan numricamente como 0 1, conforme a la categora en que se encuentran un objeto o respondiente determinado. Detector automtico de interaccin: usando el anlisis de variancia, divide en forma secuencial una muestra total en submuestras, basndose en una variable a la vez y tomando primero la variable explicatoria de mayor potencia. Es til en la segmentacin del mercado y en la identificacin de las variables que distinguen los segmentos. Anlisis conjunto: basado en un orden por rangos de preferencias expresadas en varias combinaciones de los rasgos de un producto, determina los valores bsicos d utilidad de esas caractersticas y ayuda a escoger el mejor "paquete" de las caractersticas para la oferta del producto. Correlacin cannica: se parece a la regresin y correlacin mltiples, salvo que la variable dependiente es en realidad una combinacin lineal de dos o ms variables dependientes. A diferencia de la regresin-correlacin ordinaria, que incluye una Y y la combinacin lineal de las X, la correlacin cannica incluye tanto un conjunto de la Y como un conjunto de las X.

    Como se advierte en la figura 13-1 y en la descripcin precedente, se trata de un grupo muy rico de tcnicas por su complejidad matemtica y por su gran aplicabilidad. Sin embargo; la ndole de sus procesos matemticos y de sus suposiciones estadsticas nos impiden ofrecer aqu una explicacin ms completa. Como casi siempre se realizan con programas especiales de computadora, el lector rara vez tendr que hacer personalmente los clculos que se requieren.

    Lo ms probable es que el contacto con ellas se establezca mediante artculos de revistas especializadas, una leccin sobre investigacin avanzada o en un encuentro de profesionales donde un especialista explica la posibilidad o los resultados del empleo de estos mtodos en la solucin de un problema concreto de investigacin. En cualquiera de' las eventualidades anteriores, la combinacin de las definiciones que acabamos de dar y la exposicin que presentamos en seguida facilitar la comprensin y comunicacin en lo tocante a laS tcnicas multivariadas en la investigacin de mercados. REGRESIO Y CORRELACIN MULTIVARIADAS.

    En el ltimo captulo, hemos analizado la regresin y correlacin cuando slo intervienen dos variables una dependiente (Y) y una independiente(X). En la presente seccin, estudiaremos el equivalente multivariado, en el cual hay todava una variable dependiente; pero se presentan dos o ms variables independientes al describir y predecir su valor. Regresin mltiple

    La capacidad de este tipo de anlisis para incluir ms de una variable independiente permite realizar un estudio de regresin que es ms realista por reflejar el hecho de que el valor de una variable dependiente tiende a recibir el influjo de los valores de diferentes variables independientes. Como en el caso bivariado (Y = a + bX), la relacin se supone lineal, siendo bastante similar. la forma bsica. Por ejemplo. Si hay tres variables independientes, la ecuacin de regresin mltiple ser Y = a + b1X1 + b2X2 + b3X3

    La variable dependiente y se expresa en funcin de la interseccin de a ms una combinacin lineal de las tres variables independientes X1, X2 y X3 Los coeficientes b1, b2 y b3 indican cmo Y tiende a cambiar

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 130

    con cada cambio de X, a condicin de que las otras X permanezcan constantes. Por ejemplo, b1 refleja cmo y tender a cambiar con los cambios que se produzcan en 1, suponiendo que X2 y X3 permanezcan inalteradas. Los coeficientes b en ocasiones reciben el nombre de coeficientes de regresin parcial, y se calculan en forma anloga al caso de dos variables expuestos en el capitulo 12. .

    La regresin mltiple se utiliza: 1) para describir la naturaleza de una relacin lineal entre una

    variable dependiente Y varias variables independientes Y 2) para predecir el valor de la variable dependiente a partir de los valores conocidos de varias variables independientes. En el primer caso, tratamos de entender mejor cmo estn relacionadas la variable dependiente y la variable independiente. El siguiente anlisis de algunas pizzeras hipotticas constituye un ejemplo de este tipo de aplicacin. En la segunda categora, el pronstico de ventas basado en factores mltiples (por ejemplo, nivel de publicidad, precio y nmero de vendedores) es una aplicacin comn de esta tcnica.

    A continuacin damos un ejemplo de cmo funciona la regresin mltiple. Consideremos un grupo

    de datos de ocho pizzeras hipotticas situadas fuera de la universidad. En cada establecimiento tenemos tres mediciones: 1) el nmero de clientes que hace poco acudieron un viernes. 2) el precio de una pizza grande de salchichas y 3) el cupo del establecimiento. Al. realizar el anlisis de regresin mltiple, nos gustara determinar la relacin lineal que mejor describe al nmero de clientes (Y) en funcin del precio (X1) y el cupo (X2). Y = X1 = X2 = Numero de Precio de una cupo Clientes Pizza grande De salchicha Establecimiento Pizzera italiana 180 5.00 50 Pizzas napolitanas 120 6.00 34 Freds Pizzas 150 5.80 42 Pizzas Centro 60 6.50 42 Pizzas Capri 90 7.80 45 Pizzas Italianas genuinas 20 7.40 22 Ginos Pizzas 50 8.00 30 Pizzera Giusseppe 60 5.20 24

    Si dos datos se presentaran en forma de diagrama de dispersin seran como los de la figura 13-2 en ella el nmero de clientes est representado por la longitud de la lnea vertical desde la base a punto de datos. Cada punto puede visualizarse como un globo lleno de helio fijado al punto que indica la combinacin, de precio y cupo del restaurante; el nmero de clientes sealado por la longitud de la cuerda que detiene al globo. Como se aprecia en la figura 13-2, el restaurante con los precios bajos y un gran grupo tiende a ser el ms frecuentado.

    En el anlisis de regresin' con dos variables; tratamos de encontrar la recta que mejor se ajuste a un conjunto de datos. En este caso; nos ocupamos de tres dimensiones y la-expresin del mejor ajuste ser un plano bidimensional. En la figura 13-2, esto tendr la forma de un techo inclinado sobre la base del diagrama. Para evitar la complejidad de la figura; este plano no ha sido, trazado. Sin embargo, algunos pun-tos de datos estar sobre el plano de mejor ajuste y otros debajo; el plano estar situado de modo que minimice la suma de los cuadrados de las desviaciones entre os valores reales de Y y los predichos por la superficie del plano. Si hay ms de tres variables, la, "superficie" de mejor ajuste ser. una entidad matemtica denominada hiperplano, difcil de visualizar e imposible de dibujar.

    Al analizar los datos referentes a las pizzeras por medio de un programa de computadora para la regresin mltiple, observaremos que la ecuacin de mejor ajuste de los datos es Y = 110 - 22.42X, + 3.49X2

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 131

    donde Y = nmero de clientes que acudieron el ltimo viernes por la noche X1 = precio de una pizza grande de salchichas X2 = cupo del restaurante

    Los coeficientes de regresin parcial, -22.42 y:3.49; indican cmo se espera que Y cambie cuando se altera el precio del cupo. Por ejemplo, para determinado cupo, cabe esperar que el nmero de clientes disminuya en 22.42 con cada incremento de 1 dlar en el precio de una pizza grande de salchichas. Asimismo, para cierto precio, se supone que el nmero, de: clientes aumente en 34.9 con cada diez asientos que se aadan al cupo del establecimiento. Muchas de las estimaciones no difieren notablemente del nmero real de clientes observados. As la ecuacin de regresin predice que el nmero de clientes que participan en la Pizzera italiana ser de 110 - 22.42(5) + 3.49(50) = 172.4, apenas con una desviacin de 7.6 respecto al valor real de 180.

    Cuando se examina una ecuacin de regresin, no se incurre en el error de suponer que una variable independiente es muy importante por el simple hecho de que resulta tener el mximo coeficiente. Por ejemplo, el hecho de que 22.4-2. sea-mayor que 3.49. no significa que el precio tenga ms importancia que el cupo al momento de calcular el nmero de clientes que acuden el viernes por la noche. Si el precio hubiera sido expresado en centavos en vez d dlares, el coeficiente de X1 habra sido - 2242 y no - 22.42 y si se hubiera expresado en relacin con el nmero de billetes de 10 dlares, habra sido - 2.242.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 132

    Correlacin multivariada

    El objetivo de esta tcnica es determinada fuerza de Una relacin lineal entre la variable dependiente y el conjunto de variables independientes. As pues a semejanza de la regresin mltiple, constituye tambin una extensin del caso de dos variables expuesto en el captulo 12.

    Adems de generar la ecuacin de regresin, un anlisis por computadora revelar R, que es el coeficiente, de correlacin mltiple. Como en el caso de ,dos variables, lo anterior refleja la correspondencia tan estrecha entre los valores reales de Y los predichos, por la ecuacin de regresin los valores mayores de R denotan una relacin ms fuerte. En relacin con los datos referentes a las pizzeras, el coeficiente de correlacin mltiple es R = .889, lo cual indica una correspondencia, satisfactoria entre el nmero verdadero y el predicho de clientes para cada restaurante.

    El coeficiente de determinacin mltiple, R2, indica la proporcin de la variacin en Y que se explica por los cambios en la variable independiente. As, .8892, o sea 79% de la variacin en el nmero de clientes de las pizzeras, se explica por las variables de precio y cupo. Debe observarse que esa cifra es mayor que el coeficiente de determinacin (bivariado) para cualquiera de las dos variables independientes tomadas por separado. Esto lo demuestran los siguientes anlisis de regresin: 1. Y (nmero de clientes) frente a X1 (precio) sola:} La ecuacin de menor ajuste es Y = 280.4 29.31, r = -.62 y r2 = .38. En un anlisis bivariado, X1 explica el 38% de la variacin de Y. 2. Y frente a X2 (cupo) sola: La ecuacin de mejor ajuste es Y = -55.4 + 4.1 X2, r = .76 y r2 = .58. En el anlisis bivariado, X2 explica 58% de la variacin en Y. 3. Y frente a X1 y X2: La ecuacin del mejor ajuste es Y = 110 22.42X1 + 3.49X2, R = .889 y R2 = .79. En un anlisis multivariado, X1 y X2 explican el 79% de la variacin en Y.

    En los casos anteriores, ntese que R2 en el anlisis multivariado es menor que en la suma simple de dos valores individuales de r2 en el anlisis bivariado. Ello se debe a que las dos variables independientes no son totalmente independientes; es decir, estn correlacionadas entre s. Aunque la correlacin entre X1 y X2 no es muy grande (r = .22), incluso una relacin tan pequea entre las dos indican que no nos revelan dos cosas enteramente diferentes sobre las pizzeras. Multicolinealidad

    Cuando dos o ms de las variables independientes guardan una gran correlacin entre si, se presenta una condicin denominada Multicolinealidad. Al ocurrir esto, el coeficiente de regresin parcial en la ecuacin ser estadsticamente inconfiable y difcil de interpretar. En el ejemplo de las pizzeras, habremos incurrido en un grave caso de multicolinealidad de haber agregado la tercera variable, X3 = precio de la pizza grande sencilla. Probablemente habr una estrecha correlacin entre el precio de la pizza grande con salchichas (X1) y el de una pizza grande sencilla (X3). As pues, si dos variables estn "indicando" cosas semejantes sobre la variable dependiente, la solucin ms sencilla consiste simplemente en eliminar una de ellas en el anlisis. La multicolinealidad no constituye un problema cuando el objetivo de la ecuacin de regresin es slo predecir el valor de Y. Pero si estamos tratando de describir la naturaleza de la relacin lineal entre Y y las variables independientes, esta condicin deber evitarse. Regresin escalonada

    En esta aproximacin a la regresin mltiple, las variables independientes entran en el anlisis una

    a la vez: la primera que lo hace es la variable que explica la mxima cantidad de variacin en Y. La segunda que entra es la que-explica la mxima cantidad de la variacin restante de Y. Y se procede as hasta agotar las variables independientes significativas o hasta explicar una parte satisfactoria de la variabilidad en Y. Este procedimiento ayuda a evitar el problema de la colinealidad, puesto que cada variable sucesiva que entre en

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 133

    el anlisis debe de alguna manera ser distinta de las otras para que sea ''incorporada'' en la ecuacin de regresin. Por su capacidad para juzgar el valor de introducir cada X en dicha ecuacin, esta tcnica es especialmente til cuando tenemos un gran nmero de variables independientes de donde escoger. Variables nominales en el anlisis de regresin

    En algunos casos tenemos una variable dependiente o una o ms variables independientes que no cumplen con las condiciones de la escala. de intervalos. Por ejemplo, en el caso de las pizzeras queremos, saber si el restaurante ofrece servicio a domicilio. Esta sera una medida nominal, pero podra utilizarse en el anlisis de regresin si se considera una variable nominal; es decir, si el restaurante tuviera servicio de entrega a domicilio, esta variable poseera un valor de 1; y si no lo ofreciera, el valor sera de 0. Las variables nominales son binarias (apagado encendido, s no) puesto que tan slo tienen dos estados posibles. Las que ms se emplean en la investigacin de mercados relacionan las medidas nominales que describen una caracterstica personal o pertenencia al grupo; por ejemplo, el sexo, el hecho de que uno se suscriba a Selecciones del Reader's Digest o el usar anteojos. Cuando tambin Y es una categora y se expresa como una variable nominal W,I), la regresin mltiple es anloga a la forma de dos grupos del anlisis discriminatorio que abordaremos en el siguiente apartado. ANALISIS DISCRIMINA TORIO

    El anlisis discriminatorio es una tcnica que, a semejanza de la regresin mltiple, tiene una variable dependiente y un conjunto de variables independientes. Pero en l la variable dependiente siempre pertenece a la escala nominal y representa la pertenencia al grupo. Los dos principales usos del anlisis discriminatorio son: 1) clasificacin de objetos en grupos y 2) identificacin de las variables descriptivas que mejor describan la pertenencia al grupo. Clasificacin de objetos en grupos. Por basarse- en las mediciones de las variables independientes (X), el anlisis discriminatorio puede utilizarse para clasificar a personas u objetos en uno de dos o ms grupos. En calidad de consumidores seguramente habremos sido clasificados en grupos. muchas veces, a menudo por parte de gente que sin saberlo est aplicando el anlisis discriminatorio. Por ejemplo, sin duda ya habremos pasado por una experiencia de "categorizacin" semejante a la que tuvieron las siguientes personas: Alicia Rodriguez y algunas de sus amigas fueron a un restaurante de lujo a celebrar el final del primer ao de universidad. La jefa de las meseras, al darse cuenta de que las clientes son universitarias y que no visten ropa cara, las acomoda en . un rincn con mucha luz situado entre la entrada a la cocina y los baos de los caballeros. Quiz se haya equivocado al clasificar a Alicia y a sus amigas en la categora de clientes que gastan poco y dan propinas pequeas. Rodolfo Ramrez luego de hacer la solicitud del seguro de su automvil, seda cuenta de que la pliza anual le costar casi lo mismo que el coche. Aunque en los cinco aos que lleva conduciendo nunca ha tenido un accidente ni una sola infraccin, la compaa anota que tiene menos de. 25 aos, no est casado y no ha recibido cursos de manejo: Alfredo Montalbn, un mariscal de! campo seleccionado para el equipo de. estrellas de la liga colegial, no recibe ninguna llamada durante el reclutamiento de jugadores colegiales para la liga profesional. El servicio de reclutamiento de los equipos profesionales afirma que este jugador no tendr xito en el ftbol profesional por ser de baja estatura.

    Nos guste o no, los individuos y las empresas constantemente clasifican a las personas en grupos basndose en. variables como la edad, escolaridad, ingresos, estado civil, peso fsico, talla, tipo de automvil que usan, indumentaria; y promedio de puntos de calidad. Si bien quiz. no se aplique especficamente el anlisis discriminatorio, los principios en que se funda esta tcnica matemtica estn presentes es; decir a partir de un grupo de mediciones observadas podemos tratar de clasificar un individuo u objeto en un grupo.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 134

    Identificacin de las variables descriptivas que mejor determinan la pertenencia al grupo. En esta aplicacin del anlisis discriminatorio, se examinan a miembros de grupos conocidos, con objeto. de averiguar cules variables nos. ayudan ms a diferenciar entre los miembros de cada uno. Por ejemplo, si trabajamos en prstamos para los consumidores, nos gustar identificar las variables que mejor "discriminan" entre: a) prestatarios anteriores que han pagado su, deuda a tiempo y b) prestatarios anteriores que no la han pagado. Esas variables pueden ser edad, ingresos, aos viviendo en el presente domicilio, aos en el trabajo actual, estado de salud y estado civil.

    El anlisis discriminatorio generalmente supone que las variables independientes pertenecen a la escala de intervalo. No obstante, como sucede con la regresin mltiple, es posible incluir variables independientes que sean nominales. En este caso, utilizaremos lo que en la figura 13-1 se llama anlisis discriminatorio con "variable nominal". Aunque algunos de los ejemplos precedentes han incluido algunas va-riables independientes de escala nominal a fin de ilustrar la tcnica, en el resto de la exposicin supondremos que tenemos variables, independientes en la escala de intervalo o ms fuertes. Anlisis discriminatorio de dos grupos

    En esta aproximacin al anlisis discriminatorio queremos. clasificar o describir la. pertenencia en slo dos grupos y es posible que tengamos ms de dos variables independientes. Pero para hacer la representacin grfica en nuestros ejemplos e ilustraciones habr nicamente dos variables independientes: X1 y X2. Principios y trminos fundamentales

    Para ilustrar con, un ejemplo; las ideas en que se basa el anlisis discriminatorio, supongamos que tenemos informacin sobre la edad e ingresos referente a: a) suscriptores y b), no suscriptores de tres revistas hipotticas. Los, diagramas de dispersin de cada revista vienen en la figura.13-3, partes. A, B y C. Examinemos cada parte por separado: Buena condicin fsica despus de los 50. En los datos, que aparecen en la parte A de la figura 13-3, parece que X1 (ingresos) tiene poco que ver con la pertenencia en los grupos de suscriptores y no suscriptores. Los grupos estn dispersados sobre la dimensin X2 (edad), lo cual indica que esta variable es la nica que realmente discrimina los grupos. Aviso mensual de impuestos. En estos datos, que aparecen en la parte B de la figura 13-3, sucede lo contrario de la parte A; X1 (ingresos) es la nica variable que parece diferenciar entre los grupos. Obsrvese que los grupos estn separados slo en la direccin horizontal. Revista de juegos de video. En estos datos que aparecen en la parte C de la figura 13-3, los grupos. se distinguen entre: si a, lo largo d ambas dimensiones, lo cual indica que ambas variables influyen en la diferencia entre los miembros de los dos grupos. Obsrvese que en este caso, los grupos estn separados a lo largo de la lnea que podra estar, en un comps de navegacin, aproximadamente en la direccin noreste. Adems de mostrar los datos de los suscriptores y no suscriptores, la parte C de la, figura 13-3 ilustra adems varios trminos importantes que se emplean en el anlisis discriminatorio: Eje discriminatorio: es la lnea noreste que acabamos de mencionar, o sea la lnea a lo largo de la cual los grupos estn ms separados. Desde el punto de vista matemtico, es la direccin alo largo de la cual cierta razn (variacin entre grupos dividida entre la variacin dentro de los grupos) es maximizada. Los puntos de datos pueden proyectarse en esta lnea, lo cual hace posible las dos distribuciones de curva normal mostradas sobre la lnea.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 135

    Funcin discriminatoria: es una funcin matemtica que describe las puntuaciones a lo largo del eje discriminatorio y puede describirse como Z = aX1 + bX2, donde Z es la puntuacin de la funcin discriminatoria para un individuo. Ntese que Z es la combinacin lineal (una suma ponderada) de las puntuaciones de X1 y X2 y es as como cada punto de dato se proyecta matemticamente hacia el eje discriminatorio.

    Segn su puntuacin en la funcin discriminatoria, se predecir que un individuo es un miembro de uno u otro grupo. Coeficientes discriminatorios: son los coeficientes a y b en la funcin discriminatoria, y tienden a reflejar la importancia relativa que X1 y X2 tienen en la determinacin de la pertenencia al grupo. Centroide: En cada grupo, hay un punto correspondiente a las medias de X1 y X2. El centroide puede considerarse una media multidimensional. La proyeccin de cada, centroide al eje discriminatorio se realiza por la misma combinacin lineal aplicada a los puntos individuales de datos.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 136

    Lnea discriminatoria: es una lnea, perpendicular al eje discriminatorio, que sirve para predecir la pertenencia al grupo o a. los miembros individuales de los dos grupos. Segn las puntuaciones del individuo en X1 y X2, puede caer en uno u otro lado de la lnea. La lnea discriminatoria representa una puntuacin neta de la funcin discriminatoria, arriba o debajo de la cual cualquier nuevo individuo ser asignado a uno u otro grupo. La lnea discriminatoria se encuentra a la mitad entre los dos centroides. Clasificacin errnea: si, basndonos en las puntuaciones X1 y en X2, asignamos un individuo a un grupo al cual realmente no pertenece, lo habremos clasificado errneamente. En el diagrama C de la figura 13-3, las pequeas reas sombreadas representan' los dos tipos de errores de clasificacin. Un ejemplo

    Para mostrar cmo funciona el' anlisis discriminatorio, veamos cmo esta tcnica se aplicara a un

    conjunto hipottico de datos. Consideremos el siguiente problema de investigacin:

    Desde la muerte de su socio, Samuel ha sido el nico dueo de Zapateras Rodrguez y Snchez. Con el fin de identificar mejor alas clientes serios, Samuel ha reunido datos observaciones de tres variables: X1: nmero de minutos que un cliente pasa viendo el escaparate antes de entrar en la tienda. X2: edad aproximada del cliente. X3: hecho de que el cliente compre o no un par de zapatos antes de marcharse del establecimiento.

    Los datos observacionales de Sam aparecen en el diagrama de dispersin de la figura 13-4. Obsrvese que, como en la parte C de esa figura, tanto X1 como X2 ayudan a distinguir entre los dos grupos: los no compradores tienden a ser de mayor edad y a pasar menos tiempo viendo los escaparates. En este diagrama, se muestran los centroides de ambos grupos y puede apreciarse que en promedio los compradores difieren de los no compradores en las dos dimensiones.

    Con ayuda del anlisis discriminatorio de dos grupos, Samuel puede ser un poco ms riguroso al

    "clasificar" a los individuos antes de que entren en la tienda. Si bien no realizaremos los clculos concretos (generalmente se dejan a un programa de computadora), examinaremos los resultados de ese anlisis. Estos anlisis se muestran, grfica y matemticamente, en la figura 13-4.3 En este resumen, el lector habr de fijarse especialmente en los puntos clave.

    El centroide de los compradores es (X1 = 3.0 minutos, X2 = 24. 2 aos), en tanto que el de los no compradores es (X1 = 1.9 minutos, X2 = 32.5 aos). El eje discriminatorio se halla aproximadamente en la direccin "este-sureste" y no en la vertical ni en la horizontal. Ello indica que ambas variables sirven para diferenciar entre los miembros de los dos grupos. El eje discriminatorio no necesariamente debe ser paralelo a la recta que pasa por los centroides. (Recurdese que el eje discriminatorio es la direccin a lo largo de la cual se minimiza la variacin entre grupos frente a la variacin dentro de grupo; ste es el nico criterio para determinar su direccin.)

    La funcin discriminatoria, que describe las puntuaciones de Z a lo largo del eje discriminatorio es Z = .39X1 - .17 X2. La puntuacin promedio de Z para los compradores puede obtenerse calculando Z = .39(3.0) - .017(24.2), o sea .76; por tanto, en el eje discriminatorio el comprador promedio est situado en la posicin Z = .76. De manera semejante, podemos sustituir los valores del centroide para el grupo de no compradores en la funcin discriminatoria y obtener as su posicin promedio, la cual es Z = .19. Obsrvese que la funcin discriminatoria asume dos mediciones diferentes y las combina en una sola, la puntuacin de Z. '

    La lnea discriminatoria, o punto "divisorio" al clasificar nuevos individuos. en uno de los grupos; est situada a la, mitad. entre. los dos centroides e intersecta el eje discriminatorio en Z = .475. Si un cliente potencial de unos 35 aos de edad (X2 = 35) pasara cuatro minutos, (X1 = 4) observando el escaparate, su puntuacin de Z sera .39(4) - .017(35), o sea .965. Como.965 excede el valor lmite de .475, a este cliente lo clasificaremos en el grupo de "compradores" y supuestamente, le prestaremos mayor atencin durante su,

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 137

    visita. La ecuacin de la lnea discriminatoria es .457 = .39X1 - .017X2. Anlisis discriminatorio: comentario

    El anlisis discriminatorio tambin incluye ms de dos grupos; de ser as, se le llama anlisis discriminatorio mltiple. Se trata esencialmente de una extensin del mtodo de dos grupos y requiere la generacin de ms de una funcin discriminatoria. En tales. casos puede efectuarse resolviendo, ecuaciones similares a las que hemos presentado antes para la regresin y correlacin de dos y tres variables. Sin embargo, el anlisis discriminatorio mltiple exige el uso de un programa adecuado de computadora. Dada su mayor complejidad, rebasa el mbito de este libro explicar los grupos. mltiples en, el anlisis discriminatorio.

    Puesto que esta tcnica trata de clasificar en grupos a los individuos u objetos, podemos evaluar- el

    xito de una funcin discriminatoria con slo calcular la proporcin de personas que puede clasificar sin error. En este caso, es ms fcil utilizar a las mismas que se usaron al desarrollar la funcin. Para los datos de Samuel y su zapatera, la funcin discriminatoria clasifica correctamente 11 de 12 personas observadas. Pero a causa de: a) los tamaos. pequeos. de la muestra y b) el "razonamiento circular" al evaluar la funcin partiendo de los mismos datos con que se desarroll, conviene juzgar el xito. de una funcin discriminatoria empleando una muestra aislada de personas. stos pueden ser una pequea proporcin de las obser-vaciones originales (una muestra "de referencia") o un conjunto enteramente nuevo de individuos.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 138

    ANLISIS FACTORIAL

    Tanto la regresin mltiple como el anlisis discriminatorio suponen que hay una variable dependiente (Y), cuyo valor es una funcin de varias variables independientes (las X). En esta seccin y en la siguiente, examinaremos dos mtodos que trata como "iguales" a todas las variables. La primera de estas tcnicas, el anlisis factorial, es un instrumento de creciente aceptacin entre. los investigadores. Sus dos aplicaciones fundamentales son: 1) simplificar un conjunto de datos reduciendo para ello el nmero de variables y 2) identificar la estructura o dimensionalidad subyacente de los datos. Simplificacin de un conjunto de datos reduciendo el nmero de variables. En los estudios de la investigacin de mercados, es posible que al final tengamos un extenso nmero de mediciones o variables para un grupo de respondientes. De ello pueden resultar dos problemas: 1) el nmero de variables puede ser difcil de anlisis ulterior (por ejemplo, una regresin mltiple de 100 variables) y 2) algunas de ellas pueden guardar estrecha relacin con otras, lo cual suscita problemas de con fiabilidad como la multicolinealidad, expuesta antes en el captulo. El anlisis factorial ayuda a reducir el nmero de variables a un nivel fcil de manipular, sin que por ello deje de contener la mayor parte de la informacin que se encuentra en el conjunto original (ms amplio). En la encuesta, quiz convenga reunir datos haciendo pruebas preliminares (pretests) con un cuestionario; despus se aplica el anlisis factorial para "depurar" el cuestionario de modo que incluya las preguntas que realmente estn midiendo cosas distintas sobre el respondiente. Con ello se ahorran los gastos de copiado de la encuesta y de su administracin, se abrevia el cuestionario y se incrementa la tasa de respuestas. Identificacin de la estructura subyacentes o dimensionalidad de los datos. Aunque podemos tener 50 variables diferentes, stas quiz no midan sino cinco caractersticas bsicas de la muestra. Por ejemplo, en un estudio dedicado a la vivienda, variables como el nmero de habitaciones, tamao del lote, nmero de baos, nmero de residentes, costo anual de servicios y valor de mercado tendern a ser identificados por el anlisis factorial como indicadoras de una sola dimensin fundamental: en este. caso, el tamao de la casa. Principios bsicos del anlisis factorial.

    Comenzando generalmente con una matriz de. correlaciones entre las variables (por ejemplo, tabla 13-1), el anlisis factorial trata de generar "nuevas variables", cada una de las cuales es una combinacin lineal de las originales. A estas variables nuevas se les llama factores y a los coeficientes de cada. combinacin lineal se les da el nombre de cargas factoriales.

    El mtodo de componentes principales, sin duda la ms comn de las tcnicas del anlisis factorial,

    deriva un conjunto de factores sin la menor correlacin; es decir, sus ejes son perpendiculares entre si. El primer factor escogido es aquel ala largo del cual los datos se hallan ms "dispersos" y explicar la mxima variacin posible de los datos. El segundo factor, perpendicular al primero, se escoge de modo que explique la mxima cantidad posible de la variacin restante de los datos. Otros factores, perpendiculares todos a los anteriores, se seleccionan hasta que la cantidad de variacin no explicada se encuentre por debajo de un lmite aceptable.

    A continuacin damos un ejemplo de la forma que adoptar un factor. Examine atentamente la

    figura 13-5, en la cual se muestran los dos primeros factores para un conjunto de datos en dos dimensiones. Ntese que el primer factor, F1 = .95X1 + .20X2.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 139

    se halla a lo largo de la direccin de la "mxima dispersin" de los datos. Obsrvese asimismo que el segundo factor es. perpendicular al primero. En los datos originales, cada respondiente es representado por una posicin sobre X1 y X2. Sin embargo, utilizando la descripcin de combinacin lineal en cada factor, los individuos pueden ahora describirse en funcin de sus puntuaciones en los factores 1 y 2. Por ejemplo, un punto descrito inicialmente por (X1 = 4 y X2 = 3) puede representarse ahora con [F1 = .95(4) + .20(3) = 4.4 y F2 = .20(4) - .95(3) = -2.05]. Para entender mejor lo que ha sucedido basta visualizar los puntos que permanecen en el mismo lugar, pero los ejes del sistema de coordenadas se desplazan ligeramente.

    Una vez que las variables originales han sido "estandarizadas" (cada una expresada en funcin de su desviacin estndar y una vez que la media ha sido corregida a cero), las cargas factoriales representan la correlacin entre cada factor y las variables originales. Por ejemplo, en la figura 13-5, la correlacin entre el factor 1 y X1 ser. 95. Esta "estandarizacin" es el motivo de que la figura 13-5 tenga X1 = 0 y X2 = 0 como el origen de los dos ejes.

    Una vez conseguido el conjunto de factores y las correlaciones (cargas de factores) entre cada factor y variable original, podemos descubrir que resulta bastante difcil interpretar los resultados (es decir, algunas variables quiz no guarden gran correlacin con cualquiera de los factores). En tal caso, el sistema de coordenadas representado por los factores puede "girarse" alrededor de su origen, por lo cual las correla-ciones tendern a ser muy altas o muy bajas. Lo que se pretende es obtener nuevos factores, cada uno de los cuales tiene algunas variables estrechamente correlacionados con l. Un ejemplo

    Para demostrar en forma ms amplia cmo funciona el anlisis factorial, consideremos el estudio que aport la informacin presentada en la tabla 13-2. Como parte del examen de los compradores (que

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 140

    acuden a varias tiendas donde se ex penden los mismos articulas), los. investigadores midieron una muestra de ellos mediante los 23 enunciados de la tabla. Realmente midieron 23 aspectos de la muestra o bien los resultados revelan que las 23 mediciones podan ser representativas de un nmero ms pequeo de caractersticas ms bsicas del consumidor? La respuesta parecera ser la segunda posibilidad, pues los 23 enunciados (variables) han sido depurados por el anlisis factorial en tres tipos fundamentales de mediciones, o factores: Factor I. Como se advierte en la tabla, cada uno de los 14 enunciados tiene una gran carga o correlacin, con el primer factor identificado. Dada la naturaleza comn de estos enunciados, los investigadores identifican ese factor como representante de una dimensin de "motivacin y participacin de la moda". Factor II. Los siguientes cinco enunciados en la tabla tienen una gran carga en el segundo factor identificado; los factores lo interpretaron como representante de una dimensin" gran seguridad 'en s mismo y de liderazgo en opinin de la moda". Factor III. Los ltimos cuatro enunciados en la tabla estn cargados en el factor III, caracterizado por los autores como dimensin de "motivacin de valor y compra oportunista.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 141

    Ntese que las cargas de factor en la tabla 13-2 son tales, que cada, uno de los 23 enunciados tiende a ejercer una fuerte carga sobre un factor y una carga baja en los otros dos. Ello se debe a que los factores son el resultado de la rotacin de ejes, destinada a este propsito. Como se seal antes, dicho eje facilita la interpretacin del significado de los factores.

    La tabla. 13-2 incluye varios trminos comunes del anlisis factorial, algunos de los cuales no hemos explicado. Como en el caso de los factores; stos se hallan entre la informacin tpica de una aplicacin del anlisis factorial. Pueden describirse como se indica a continuacin. Cargas de factores: son las correlaciones entre los factores y las variables originales. Se muestran en las columnas I, II y III. Por ejemplo el enunciado I, ("Me gusta ser la persona que usa la ropa, de moda en la. escuela o en el trabajo") tiene una correlacin de .8 con el factor I de .21 con el factor II y de .03 con el factor III. Comunalidades: en cada enunciado, la comunalidad es la proporcin de la variabilidad del enunciado que se explica mediante los tres factores indicados. En ocasiones denominadas h2, la comunalidad no es ms que la suma del cuadrado de las correlaciones del enunciado y de los tres factores. As, en el caso del enun-ciado I, la comunalidad (.69) es igual a (.80)2 + (.21)2 + (.03)2. Como se advierte en la tabla, los tres factores logran explicar mejor la variabilidad en el enunciado 1 (h2 = .69) que el enunciado 2 (h2 = .61). En 9 de los 23 enunciados, los tres factores explican por lo menos la mitad de la variabilidad en las respuestas de los con-sumidores al enunciado. Valores caractersticos (propios): en cada factor, el valor caracterstico es la suma del cuadrado de las cargas de factores para ese factor. Por ejemplo, en el caso del factor I, el valor propio es (.80)2 +(.77)2 +... + (-.80)2, o sea 5.90.Cuando dividimos se valor entre el nmero de enunciados, obtenemos la proporcin de la variabilidad total explicada por ese factor. En el caso del factor I; podemos calcular 5.90/23 = .257 y determinar que el factor I explica el 25.7% de la variancia en las respuestas del consumidor a los 23 enunciados. A medida que avanzamos del factor I al II, observaremos que cada uno ayuda a explicar parte de la variabilidad y que la combinacin de los tres factores explica 45.8% de la variabilidad en las respuestas del consumidor. .

    El anlisis factorial sigue siendo la tcnica ms compleja de que se dispone en la investigacin de mercados, pese a que el mayor acceso a la computadora y el aumento de sus capacidades facilitan bastante su aplicacin. El usuario se halla ante varias decisiones que tienden a conferirle al anlisis una dimensin esttica y matemtica a la vez. As, hemos de decidir cuntos factores extraeremos de determinado conjunto de datos,.si los rotaremos para una mejor interpretabilidad (y, si los rotamos, decidiremos tambin en qu manera lo haremos) y la forma, que asumirn los datos de entrada. Adems, la identificacin de los factores resultantes constituye un proceso subjetivo que puede diferir mucho entre los. investigadores. Al lector que desee aplicar el anlisis factorial a los datos de mercadotecnia. le, aconsejamos complementar esta exposicin introductoria consultando otra ms amplia. ANLISIS DE CONGLOMERADOS

    El anlisis de conglomerados es una tcnica multivariada. que pone las variables u objetos en grupos, de modo que los que estn dentro de cada uno sean ms semejantes entre si que los miembros de los otros grupos. Su principal aplicacin es agrupar objetos; por ejemplo, ciudades, consumidores marcas de productos y programas de televisin. Se cuenta con muchos algoritmos de computacin para clasificar los objetos en conglomerados, todos deben empezar con algn medida de las semejanzas entre ellos. En algunos casos, las semejanzas pueden constar simplemente de datos nominales; por ejemplo, el hecho de que los objetos posean o no ciertas caractersticas. Teniendo presente esto, podemos agrupar a las personas segn el tipo de automvil que usen, la marca de su televisor o el hecho de que les guste o no un sabor a refresco.

    Por lo regular la formacin de conglomerados se inicia con un conjunto de semejanzas, o sea datos

    que son ms fuertes que la escala nominal y que reflejan las posiciones de los objetos en lo que es

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 142

    esencialmente un espacio multidimensional 'de escala de intervalo. La configuracin bsica de los objetos no pasa de ser el punto de arranque del anlisis de conglomerados. Mtodos de conglomerados Una vez conseguida una medida de las semejanzas entre dos objetos, se dispone de una amplia gama de mtodos de conglomerados que pueden emplearse en la seleccin de los conglomerados y objetos que se asignarn. Un grupo de tcnicas recibe el nombre de jerrquicas, pues requiere la formacin de conglomerados en distintos niveles de agregacin. En el primer nivel, cada objeto, se considera su propio "conglomerado". En la siguiente fase, los dos objetos ms parecidos se combinan para formar un nuevo conglomerado, el cual es descrito por su centroide. En los niveles siguientes, un punto se une a otro punto o bien a un conglomerado. Y as prosigue el proceso hasta que se haya formado el nmero deseado de conglomerados. Si el proceso prosigue hasta su terminacin, cada objeto quedar incluido en un solo conglomerado, solucin que tendra escasa, utilidad prctica. Un ejemplo de este mtodo se aprecia en la figura 13-6; los pasos los explicamos a continuacin: Paso l. La distancia ms corta en la configuracin es. la que hay entre los' objetos A y B, por lo cual se unen para formar un conglomerado. Paso 2. La distancia ms corta en la configuracin es ahora la existente entre los objetos E y F, de modo que se unen y forman un conglomerado. Paso 3. La distancia ms corta en la configuracin es ahora la que existe entre el objeto e y el centroide del conglomerado AB, de manera que. el objeto e se une al conglomerado AB. Paso 4: La distancia ms corta en la configuracin es ahora la que hay entre el objeto D y el centroide del conglomerado ABC, por lo cual el objeto D se une al conglomerado ABC.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 143

    El mtodo jerrquico se aplica en la direccin contraria (la estrategia de "arriba hacia) abajo"), en la cual los objetos al inicio pertenecen slo a uno o dos conglomerados muy numerosos. En las fases posteriores; se extraen para formar otros conglomerados ms pequeos, hasta tener un nmero adecuado. Si el proceso prosiguiera hasta sus extremas consecuencias, cada objeto terminara siendo su propio "conglomerado", o sea el punto de partida del mtodo jerrquico en la. direccin contraria: Tambin, se cuenta con muchos otros algoritmos para formar conglomerados. Pero una explicacin ms pormenorizada rebasa el mbito de esta obra. . Un ejemplo

    En un estudio de las relaciones entre personalidad y uso del producto, Schaninger, Lessig y Panton

    se valieron del mtodo jerrquico' para realizar un anlisis de conglomerados con individuos que haban sido medidos por variables de uso de 31 productos.5 Luego de examinar las soluciones que contenan entre 2 y 12 conglomerados, descubrieron que la solucin de 3 conglomerados era la ms significativa para sus datos. En la tabla 13-3 se muestran las puntuaciones de la personalidad promedio y las del empleo del producto para los miembros de los tres grupos, as como el valor F que refleja la significancia de la diferencia de las medias de los grupos en cada variable individual. Segn se advierte en la tabla 13-3, los tres grupos difirieron de manera significativa en muchas de las variables medidas. Basndose en la interpretacin de los hallazgos, los investigadores sintetizaron as los tres conglomerados de personas:6 Grupo l. ". . .fuerte consumo de, productos centrados en la moda y en la sociedad y de todos los tipos de licor.. . . Significativamente menos sumisos y con mayor ascendiente y ms sociales que las personas de los conglomerados 2 y 6, y tambin ms responsables, ms vigorosos y menos indiferentes que los del conglo-merado 3." Grupo 2. ". . .poco consumo de la mayor parte de los tipos de alcohol y cigarrillos y bajo ndice de lectura de Playboy y Penthouse, altas puntuaciones en obediencia, responsabilidad y vigor, y calificaciones ms bajas en ascendiente y sociabilidad que en los grupos 1 y 3." Grupo 3. ... mostr un gran uso de todos los tipos de drogas ilegales, alcohol y otros productos relacionados con las sustancias txicas, puntuaciones ms bajas en responsabilidad y vigor y mas alta en la indiferencia. Eran mas sumisos y tenan menor ascendiente que las personas del conglomerado 1, tendiendo adems (no significativa) a ser menos agresivo, a mostrar menos estabilidad emocional y ms cautela que los miembros de los conglomerados 1 y 2

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 144

    Adems, el anlisis de conglomerados es til en muchas otras actividades" mercadolgicas; por ejemplo, sirve para identificar ciudades similares para efectuar las pruebas de mercado, para agrupar revistas y programas de televisin, para posicionar en categoras las marcas de productos. OTRAS TCNICAS MULTIVARIADAS Anlisis multivariado de variancia

    A diferencia del anlisis univariado de variancia, en el cual las medias de varios grupos son significativamente diferentes entre s, la versin multivariada que se ocupa de las diferencias entre los centroides. (Como recordar el lector, un centroide no es mas que un punto que representa la combinacin de dos o ms medidas y es el equivalente multivariado de la media.) Los grupos comparados pueden ser: a) conglomerados resultantes del anlisis de conglomerados hechos, con un conjunto de datos, b) grupos demogrficos o de otra ndole identificados en mediciones previas o c) grupos de tratamiento en un experimento.

    Si bien los procedimientos de clculo son mucho ms complejos en el anlisis multivariado de variancia, el principio fundamental es eI mismo que l del anlisis univariado. La hiptesis que se prueban en

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 145

    ambos son: Anlisis univariado de variancia

    H0 = los grupos de la misma poblacin (o de poblaciones que tienen el mismo valor de la media univariada). Anlisis multivariado de variancia

    H0 = los grupos proceden de la misma poblacin (o de poblacin que tienen el mismo centroide multivariado)

    Para dar un ejemplo de la diferencia entre ambos procedimientos, examinaremos detenidamente las dos partes de la figura 13-7. En la parte A, tres grupos han sido medidos en una sola variable, mientras que en la parte B esos tres grupos han sido medidos a partir de dos variables. Ntese que, en la parte A, la variabilidad entre los grupos es relativamente grande en comparacin con la variabilidad dentro de los grupos. Ello tender a proporcionar una gran razn F h hacernos rechazar la posibilidad de que los grupos realmente provengan de la misma poblacin.

    En la parte B de la figura 13-7 la variacin entre grupos es tambin bastante grande su se compara con al variabilidad dentro de los grupos. Esto tender a darnos una gran razn F multivariada, hacindonos adems rechazar la posibilidad de que los grupos procedan de la misma poblacin.

    En comparacin con el anlisis univariado, el multivariado ofrece la ventaja de permitirnos comparar los grupos considerando simultneamente dos o ms mediciones. Ello resulta de gran utilidad en los estudios experimentales en los cuales queremos medir mas de un efecto de los tratamientos administrativos a diversos grupos. Adems, no perdemos la capacidad del anlisis univariado para comparar los grupos en una sola variable a la vez.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 146

    Detector automtico de interaccin

    El detector automtico de interaccin es un mtodo computarizado que divide en forma secuencial una muestra global en grupos ms pequeos, a fin de explicar las puntuaciones de sus miembros en determinada variable dependiente. En cada paso, se identifica la variable independiente restante que mejor divide las puntuaciones altas y bajas en la variable dependiente.

    El resultado principal de esta modalidad de anlisis es el "rbol", un ejemplo del cual viene en la figura 13-8. Este diagrama fue el resultado de un estudio en el cual los investigadores examinaron, el. comportamiento de la mercadotecnia de exportacin en firmas de negocios y los factores que parecan tener influencia en el hecho de que se dedicaran o no a esas actividades.7 La primera "divisin" en el procedimien-to ge detector automtico de interaccin se haca segn la posesin de un producto "nico" 120r por parte de la empresa. Obsrvese que las que lo tenan mostraron un porcentaje de exportacin mucho mayor (50.8UJo de exportacin frente a 27.6%).

    Las compaas que caen en la categora de "poseen un producto nico", se subdividen despus en dos grupos, a partir. de la variable predictora que separa el porcentaje de poca y mucha exportacin. En este caso, la distincin se hace atendiendo a la intensidad de la tecnologa en la industria de la empresa. Tambin aqu vemos que un grupo es muy superior (70.0% frente a 39.7% de exportacin) que otro en cuanto al porcentaje de exportacin.

    El detector automtico de interaccin sigue dividiendo en subgrupos cada grupo, conforme a las

    variables que expliquen mejor las mediciones altas y bajas de la variable dependiente (porcentaje de exportacin). El proceso cesa cuando el tamao del grupo se torna demasiado pequeo o cuando el hecho de hacer otra divisin no explicara una cantidad suficiente de la diferencia en la variable dependiente. Aunque el detector automtico de interaccin es muy til para explicar la variacin de la variable dependiente, lo hace a condicin de que el tamao de la muestra sea muy grande. Ello se necesita para mantener tamaos adecuados de los grupos al irse haciendo particiones sucesivas con la muestra original. Sin embargo, sigue siendo un instrumento muy usado en la identificacin de los segmentos del mercado y en la explicacin del comportamiento del mercado, a partir de variables demogrficas y de otras variables predictoras. Anlisis conjunto

    El anlisis conjunto principia con un orden por rangos de las preferencias de productos y luego calcula los valores de utilidad para las caractersticas centrales que describen el tipo de producto. Lo que se pretende es encontrar un conjunto de utilidades que expliquen en orden en que se clasificaron los productos. Por ejemplo, una raqueta de squash puede considerarse provista de dos caractersticas primarias: precio ($10, $30 $50) y material de construccin (grafito, fibra de vidrio, aluminio o hierro forjado). Esto nos da 3 x 4, o sea 12 combinaciones de ambas variables. Obsrvese que en el mercado no necesariamente existe una combinacin particular si se quiere se requiere presentar al respondiente su conjunto de caractersticas.,

    Los datos del programa de anlisis conjunto incluirn un orden por rangos de las combinaciones preferidas por el respondiente; por ejemplo, un sujeto hipottico podra damos las preferencias contenidas en la tabla 13-4. La salida (informacin recabada) la constituyen los valores de cada nivel del precio y el material de construccin. El procedimiento supone que la preferencia global (utilidad) de una raqueta en particular ser la suma de los valores de utilidad de las caractersticas que posee.

    Los valores de utilidad de la figura 13-9 podran ser el resultado del anlisis conjunto aplicado a las preferencias que manifest ,nuestro hipottico cliente. Cuando esos valores de las caractersticas se suman, nos dan el mism orden de preferencias que l indic. Por ejemplo, su primera preferencia fue la raqueta de grafito de $10 (utilidad total = .90 para el precio $10 ms .85 para el grafito, o sea 1.75). Su segunda eleccin fue la raqueta de fibra de vidrio de $10 (utilidad total = 1.50) y su ltima eleccin fue e caro pero durable raqueta de hierro forjado de $50 (utilidad total = .13)

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 147

    En este ejemplo, el orden por tangos de los totales de utilidad es exactamente el mismo que el orden de preferencias del cliente, grado de precisin que en la prctica rara vez se logra y que no se necesita. El anlisis conjunto suele proporcionarnos los valores de utilidad subyacentes que se aproximan lo mas posible a la meta de reconstruir el orden por rangos de las preferencias.

    Esta tcnica tiene por objeto servirte de esas utilidades para describir el nivel probable de las preferencias tanto en los productos actuales como en los que se planean, dndose mayor importancia hoy a la segunda aplicacin. El anlisis conjunto ya se ha utilizado con muchos productos, que incluyen desde champs y pantimedias hasta cmaras fotogrficas y agencias de alquiler de. automviles.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 148

    RESUMEN

    Los mtodos multivariados son aquellos que incluyen ms de dos variables a la vez. Una de esas tcnicas, la escala multidimensional, fue explicada en el captulo 9. Esos procedimientos son tiles porque muchos problemas de mercadotecnia y preguntas de investigacin exigen que ms de una o dos variables sean examinadas. Las tcnicas multivariadas pueden clasificarse segn las respuestas a tres preguntas: 1) dependen de otras algunas variables? 2) hay ms de una variable dependiente? 3) cul es la, escala de medicin de las variables? El anlisis de regresin mltiple es una extensin de la regresin de dos variables, y suele emplearse para: 1) describir la naturaleza de la relacin lineal entre una variable dependiente y varias variables independientes y 2) a partir de los valores conocidos de las variables independientes, predecir el valor de la variable dependiente. El anlisis multivariado de correlacin determina la fuerza de las relaciones lineales existentes entre la variable dependiente y el conjunto de variables independientes.

    El anlisis discriminatorio es un mtodo que, a semejanza de la regresin mltiple, tiene una

    variable dependiente y un conjunto de variables independientes. Sin embargo, en l la variable dependiente siempre pertenece a la escala nominal y representa la pertenencia al grupo. Se emplea para clasificar los objetos en grupos e identificar las variables descriptivas que mejor determinan la pertenencia al grupo.

    El anlisis factorial no supone que algunas variables pudieran depender del valor de otras y las trata a todas como "iguales". Una importante aplicacin de esta tcnica consiste en simplificar un conjunto de datos reduciendo el nmero de variables a un nivel ms fcil de manipular, pero sin perder la mayor parte de la informacin presente en el conjunto originario. Otra aplicacin es identificar la estructura subyacente, o dimensionalidad de los datos. Por ejemplo, aunque tengamos 50 variables diferentes, stas pueden medir tan slo cinco caractersticas bsicas de la muestra.

    El anlisis de conglomerados es una tcnica multivariada que pone variables u objetos en grupos, o

    conglomerados, de modo que las que se hallan dentro de , cada grupo se parecen ms entre s que las que son miembros de otros grupos.

    Es una tcnica que desempea un papel central en la segmentacin del mercado: divide el mercado global en grupos de consumidores que son diferentes entre s, pero los miembros de cada grupo tienden a parecerse.

    El anlisis multivariado de variancia es una extensin del anlisis univariado, pero se ocupa de comparar los centroides (un centroide representa la combinacin de dos o ms medias, y es el equivalente multivariado de la media). El detector automtico de interaccin (Al O) es un procedimiento computarizado que divide de manera secuencial una muestra global en grupos ms pequeos para explicar mejor las puntuaciones de los miembros de una muestra en determinada variable dependiente. En cada paso, es una tcnica que identifica la variable dependiente restante que mejor divide las puntuaciones altas y bajas en la Variable dependiente.

    El anlisis conjunto comienza con un orden por rangos de las preferencias por el producto y despus calcula los valores de utilidad de las caractersticas fundamentales que describen el tipo de producto. El resultado es un conjunto de utilidades que tratan de explicar el orden en que se clasifican los productos. Una combinacin propuesta de atributo puede pues, evaluarse aun cuando ningn producto actual tenga el conjunto especfico de caractersticas.

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 149

    REGUNTAS PARA REPASO

    1. En la regresin mltiple, cul es el problema llamado "multicolinealidad y cmo puede resolverse? 2. Qu es una variable nominal y cmo puede aplicarse en el anlisis de regresin mltiple?

    3. D un ejemplo real o hipottico en el cual el anlisis discriminatorio pudiera ser til en el anlisis de

    los datos de mercadotecnia.

    4. Cules variables descriptivas piensa que pudieran ser tiles para separar a los amantes de las caminatas y a los que no practican este deporte? Escoja dos variables cualesquiera de stas y construya un diagrama de dispersin hipottico (utilice su imaginacin) en un espacio bidimensional. Incluya una lnea discriminatoria.

    5. Explique qu se entiende por cada uno de los siguientes conceptos: funcin discriminatoria,

    centroide clasificacin errnea.

    6. En la. siguiente ilustracin grfica de un anlisis discriminatorio de dos grupos:

    7. Cules lneas describen las dos dimensiones en que los. miembros del grupo han sido medidos?.

    8. lo largo eje cul lnea est maximizada la variabilidad entre grupos, dividida por la variabilidad dentro de grupo?

    9. Cul lnea representa el eje discriminatorio?

    10. Suponiendo que queremos clasificar a los consumidores en los grupos respectivos de modo que

    haya un mnimo costo conexo con el error de clasificar a una persona en el grupo B cuando en realidad pertenece al grupo A, qu lnea quisiramos utilizar como base de la clasificacin?

    11. Cuando se realiza, el anlisis discriminatorio en dos dimensiones, una lnea discriminatoria sirve de

    lmite al hacer las clasificaciones. Qu forma de "divisor" geomtrico habr en un espacio de una variable? En un espacio de tres variables? Y en un espacio de cuatro variables?

    12. Despus de usar los datos procedentes de 100 personas para construir una funcin discriminatoria,

    un investigador prueba la funcin al determinar cuntos de esos 100 sujetos estn clasificados correctamente. Qu debilidad conlleva este procedimiento?

    13. Qu es el anlisis factorial y por qu es til en el anlisis de los datos de la investigacin de

    mercados?

    14. En el anlisis factorial, cul es la diferencia existente entre un factor y una carga de factores? Qu se entiende por valor caracterstico (propio) asociado a cada factor?.

    15. Qu es el anlisis de conglomerados y en qu aplicaciones de mercadotecnia puede emplearse?

    16. Un socio desea realizar un estudio de anlisis de conglomerados sobre los automviles disponibles

    en el mercado en su pas. Qu variables asociadas con los automviles le recomendara usted que midiera?

    17. Cul es la diferencia entre el procedimiento "de arriba hacia abajo" y "de abajo hacia arriba" en el

    anlisis de conglomerados?

    18. Suponga que un fabricante de artculos deportivos ha reunido informacin sobre los gastos que 100

  • UNIVERSIDAD JOSE CARLOS MARIATEGUI

    Pg. 150

    consumidores hicieron en equipo para pesca. Los miembros de esa muestra tambin han llenado cuestionarios que miden 20 diferentes variables psicolgicas y 15 variables demogrficas. Explique cmo cada uno de los siguientes mtodos ayudara a analizar los datos: a) anlisis de conglomerados, b) anlisis discriminatorio y c) anlisis factorial.

    19. Explique brevemente cmo se efecta el anlisis conjunto y describa un conjunto hipottico de las

    curvas subyacentes para una categora de productos de su eleccin.