3º estadistica descriptiva 1

83
FACULTAD DE CIENCIAS DE LA COMUNICACIÓN, TURISMO Y DE PSICOLOGÍA ESCUELA PROFESIONAL DE PSICOLOGÍA MANUAL DEL CURSO ESTADISTICA DESCRIPTIVA III CICLO SEMESTRE 2005-II ELABORADO POR: EULALIA CALVO BUSTAMANTE 1

Upload: psicoccff

Post on 12-Jun-2015

4.958 views

Category:

Documents


2 download

TRANSCRIPT

FACULTAD DE CIENCIAS DE LA COMUNICACIÓN, TURISMO Y DE PSICOLOGÍA

ESCUELA PROFESIONAL DE PSICOLOGÍA

MANUAL DEL CURSO

ESTADISTICA DESCRIPTIVA

III CICLO SEMESTRE 2005-II

ELABORADO POR:EULALIA CALVO BUSTAMANTE

Centro de Producción de Material didáctico para usoDocumentos de la Universidad Particular exclusivo en clasede San Martín de Porres

1

Fuente: FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.

Prentice-Hall

Lectura 01: Introducción a la Estadística, pp. 2-5

La materia de la estadística puede presentarse en diferentes niveles de la dificultad matemática y puede estar dirigida hacia aplicaciones en distintos campos de la investigación. De acuerdo con esto, se han escrito muchos libros de texto sobre estadística empresarial, estadística educativa, estadística médica, estadística psicológica, e inclusive sobre estadística para historiadores. Si bien los problemas que surgen en estas distintas disciplinas en ocasiones requerirán de técnicas estadísticas especiales, ninguno de los métodos básicos que se analizan en este libro está limitado a un campo de aplicación en particular. De la misma forma en que 2 + 2 = 4 sin importar si lo que sumamos son dólares, caballos o árboles, los métodos que presentaremos proporcionan modelos estadísticos que se aplican sin importar si los datos coeficientes intelectuales, pagos de impuestos, tiempos de reacción, lecturas de la humedad, evaluación de pruebas.

La recopilación, el proceso, la interpretación y la presentación de los datos numéricos pertenece al dominio de la estadística. Estas tareas comprenden el cálculo de los promedios de bateo de béisbol, la recopilación de los datos sobre nacimientos y muertes, la evaluación de la efectividad de productos comerciales y el pronóstico del tiempo. La información estadística se nos presenta constantemente en el radio y la televisión. Nuestro entusiasmo por los hechos estadísticos se ve alentado por diarios nacionales, tales como The Wall Street Journal y USA Today.

La palabra "estadística" se usa de varias maneras. Se puede referir no sólo a la simple tabulación de información numérica, como en los informes de las transacciones bursátiles, sino también al conjunto de técnicas que se utilizan en el procesamiento o el análisis de datos.

También el término "estadística" se usa de varias maneras. El términos se puede aplicar a quienes simplemente recopilan información, así como a aquellos que elaboran análisis o interpretaciones y también a los académicos que desarrollan la teoría matemática sobre la cual se basa la estadística.

En las secciones 1.1 y 1.2 estudiamos el crecimiento reciente de la estadística y su campo de aplicaciones siempre creciente. En la sección 1.3 explicamos la diferencia entre las dos ramas principales de la estadística, la estadística descriptiva y la inferencia estadística y en la sección 1.4, que es opcional, analizamos la naturaleza de las diversas clases de datos y en relación con esto, advertimos al lector acerca del uso del tratamiento matemático indiscriminado de los datos estadísticos.

1.1. EL CRECIMIENTO DE LA ESTADÍSTICA MODERNA

Hay varias razones por las que el alcance de la estadística y la necesidad de estudiar la estadística han crecido de manera considerable en los últimos quince años o algo así. Una razón es el planteamiento cuantitativo que se usa en forma creciente en todas las ciencias, así como en los negocios y muchas otras actividades que afectan nuestras vida de modo directo. Esto incluye el uso de técnicas matemáticas en la evaluación de sistemas de control de emisión de contaminantes, la planificación de las existencias, el análisis de los patrones del tránsito, el estudio de los efectos de varias clases de medicamentos, la evaluación de técnicas de enseñanza, el análisis del comportamiento competitivo de empresarios y gobiernos, el estudio de la dieta y la longevidad y demás actividades pertinente. La disponibilidad de computadoras poderosas ha incrementado en gran medida nuestra capacidad para manejar información numérica. El costo de muchas computadoras también es accesible, de modo que pequeñas empresas, estudiantes universitarios y aun bachilleres puedan efectuar un trabajo estadístico sofisticado.

2

La otra razón es que la cantidad de datos que se recopila, procesa y difunde al público por algún motivo se ha incrementado casi más allá de la comprensión y cada quien debe determinar la parte "buena" y la parte "mala" de la estadística. Para actuar como vigilantes, se requiere que cada vez más personas con cierto conocimiento estadístico participen en forma activa en la recopilación y el análisis de los datos y lo que es de igual importancia, en toda la planificación preliminar. Sin haber participado en esta última actividad, es aterrador pensar en todos los aspectos que pueden presentar problemas en la recopilación de datos estadísticos. Los resultados de costosas encuestas pueden se inútiles si las preguntas son ambiguas o se formulan erróneamente, si se formulan a las personas equivocadas, en el lugar o el momento equivocado. Como lo ilustran los ejemplos siguientes, gran parte de esto consiste tan sólo en el sentido común:

EJEMPLO

Para determinar la opinión del público acerca de la continuación de cierto programa gubernamental, un entrevistador pregunta: "¿Piensa que este programa derrochador se debería detener?" Explique por qué esta pregunta quizá no obtendrá la información deseada.

Solución

De hecho, el entrevistador está "rogando por la pregunta" a sugerir que el programa incurre en el dispendio.

EJEMPLO

Para estudiar la reacción de los consumidores en relación con un nuevo producto alimenticio, se realiza una encuesta casa por casa todos los días durante las mañanas, sin repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto puede generar información equivocada.

Solución

Esta encuesta no llegará a aquellas personas que es más probable usen el producto: solteros y parejas de casados en las que ambos trabajan.

1.2. ESTADÍSTICA DESCRIPTIVA E INFERENCIA ESTADÍSTICA

El origen de la estadística moderna se puede rastrear en dos áreas de interés que, superficialmente, tienen muy poco en común: gobierno (ciencia política) y juegos de azar.

Los gobiernos han hecho gran uso de los censos para contar personas y propiedad, y el problema de describir, resumir y analizar los datos de los centros ha llevado al desarrollo de los métodos que hasta hace poco constituían casi todo el material disponible de la materia de estadística. Esto métodos, que en un principio consistía sobre todo en la presentación de datos en forma de tablas y gráficas, constituyen lo que ahora llamamos estadística descriptiva. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales. Por ejemplo, si las pruebas practicadas en seis automóviles compactos, demostraran que pueden acelerar de 0 a 100 k/h en 18.7, 19.2, 16.2, 12.3, 17.5 y 13.9 segundos y reportáramos que la mitad de éstos aceleró de 0 a 100 k/h en menos de 17.0 segundos.

3

Fuente:AVILA R. (1998) Estadística Elemental Lima Estudios y

Ediciones RA.

Lectura 02: Técnicas de recolección de Datos, pp. 43-49

1.3. TÉCNICA DE RECOLECCIÓN DE DATOS

Las técnicas de recolección son diversas y dependen de: la naturaleza del objeto de estudio, de las posibilidades de acceso o contacto con los elementos investigados, del tamaño de la población o muestra, de los recursos y de la oportunidad de obtener los datos. La técnica también está asociada al tipo y naturaleza de la fuente de datos.

Entre las técnicas mas frecuentes se tiene:

1. La observación. 2. Técnica documental.3. La entrevista. 4. El cuestionario.5. La encuesta.

2.1.1. LA OBSERVACIÓN

La observación en el proceso de investigación es la acción de mirar con rigor, en forma sistemática y profunda, con el interés de descubrir la importancia de aquello que se observa. La observación es el método básico que se utiliza para adquirir información acerca del mundo que nos rodea, y por lo tanto, constituye la técnica primordial de la investigación científica. La observación puede tener lugar en situaciones auténticas de la vida ordinaria o también en el laboratorio.

Tipos de Observación

a. Según el lugar o ámbito donde se encuentran los datos, se tienen:

a.1. Observación documental, cuando los datos son recogidos en manuscritos o impresos.

a.2. Observación de campo, que puede ser observación de monumentos de campo y observación de conductas.

b. Según como se relaciona el investigador con el objeto de estudio; como:

b.1. Observación directa, cuando el investigador puede recoger y observar datos mediante su propia observación, obtener información del comportamiento tal como ocurre.

b.2. Observación indirecta, cuando el investigador verifica los datos que ha tomado de otros, aquí el investigador no está presente en el momento de la ocurrencia del fenómeno.

b.3. Observación no participante, cuando el investigador extrae sus datos, pero sin una participación en los acontecimientos de la vida del grupo que estudia.

b.4. Observación participante o activa, cuando el investigador, de una u otra manera, se introduce y actúa en el grupo observado, de modo que se le acepta como miembro, y es identificado como observador.

4

c. Según los medios utilizados, se tienen:

c.1. La observación no estructurada, asistemática y libre; aquí los hechos se observan al natural, en forma espontánea, en el momento mismo, que en muchas de las veces puede sorprender al observador.

c.2. La observación estructurada, sistemática o regulada, aquí se tiene un plan específico para la realización de las observaciones, para lo cual se recurre al empleo de instrumentos o guías para la recopilación de datos.

2.1.2. LA TÉCNICA DOCUMENTAL

La técnica documental es un tipo de observación que recopila o busca sus datos en documentos, fuentes escritas o gráficas de todo tipo. En los documentos se tienen:

a. Documentos académicos, constituidos por la bibliografía más importante para conocer el estado del conocimiento de una ciencia.

b. Actas e informes, donde las actas son documentos que recogen lo ocurrido en el momento mismo en que está pasando; en tanto que los informes son documentos escritos después de ocurrido el acontecimiento.

c. Documentos personales, como las autobiografías, diarios, cartas, historias de vidas y estudios de casos.

d. Fotografías, planos, vídeos, etc.

2.1.3. LA ENTREVISTA

La entrevista es una situación de interrelación o diálogo entre personas, es una técnica donde una persona llamada entrevistador, encuestador o empadronador solicita al entrevistador, le proporciona algunos datos o información. La entrevista es un diálogo intencionado entre personas. El éxito de la entrevista como técnica de recolección, depende de la eficiencia del trabajo del entrevistador.

La entrevista como técnica de recolección, presenta diversas modalidades, como:

La entrevista asistemática o libre. Entrevista estructurada, en la cual se precisa previamente los

puntos a interrogar, existe un libreto o cuestionario. Entrevista focalizada, donde la interrogación se centra

alrededor de un solo tema específico. Entrevista simultánea, cuando los entrevistados son varios al

mismo tiempo. Entrevista sucesiva, cuando son varias entrevistas, pero en

diversos momentos.

2.1.4. EL CUESTIONARIO

El cuestionario es un instrumento constituido por un conjunto de preguntas sistemáticamente elaboradas, que se formulan al encuestado o entrevistado, con el propósito de obtener los datos de las variables

5

consideradas en el estudio. Cuando las preguntas se organizan y se imprimen, se obtiene en formulario o cédula, que es el instrumento que se utiliza para registrar las respuestas o datos.

La elaboración del cuestionario requiere de un conocimiento previo del fenómeno, tener precisado cuáles son las unidades de análisis y qué aspectos interesa estudiar. El cuestionario debe ser adaptado a las necesidades de la investigación y a las características del grupo que se estudia. De aquí que su estructura y su forma deben estar cuidadosamente elaboradas, la redacción de las preguntas requiere de una experiencia y para comprobar su comprensión, es recomendable someter a prueba todo tipo de cuestionario.

2.1.5. PREPARACIÓN DEL CUESTIONARIO Y FORMULARIO

La preparación y presentación del cuestionario suponer elaborar el formulario, que es el diseño del documento donde se registran los datos referentes a la unidad de investigación, permite obtener los datos para llenar los cuadros estadísticos establecidos. Su preparación se efectúa durante la fase del planeamiento de la encuesta, después de que están definidos aquellos aspectos que son fundamentales para conseguir información de buena calidad y fácil de procesar.

A. Criterios para preparar el cuestionario y el formularioa. Objetivos de la investigación.b. Sistemas de variables.c. Características del informante.d. Tiempo disponible para efectuar la recolección.e. Técnica de recolección.f. Procedimiento de elaboración.

B. Características formales del cuestionario y del formularioa. Forma y tamaño del formulario.b. Calidad del papel del formulario.c. Tipo y color de impresión.d. Tipo y archivo.

C. Formas y clases de preguntasVemos algunas clases de preguntas que se utilizan con mayor frecuencia en la construcción de cuestionarios.a. Preguntas abiertas, llamadas también ilimitadas, son aquellas

que el investigador responde con su propio vocabulario, sin que se le ponga alguna alternativa, conjunto de palabras o frases.

Ejemplo 2.1

Describa brevemente las tareas que realiza en el cargo que ocupa.

Anote la temática de las revistas especializadas que usted conoce.

b. Preguntas cerradas dicotómicas, aquellas que sólo pueden responderse por un SI o NO, o simplemente cuando sólo tienen dos alternativas.

Ejemplo 2.2

¿Sabe leer? SI ( )1 NO ( )2 Sexo: Masculino ( )1 Femenino ( )2

6

¿Trabaja actualmente SI ( )1 NO ( )2 ¿Está Ud. de acuerdo con el aborto? SI ( )1 NO ( )2

c. Preguntas cerradas de elección múltiple, son aquellos que proponen un conjunto de alternativas en la respuesta.

Ejemplo 2.3

Categoría Docente: Principal ( )1 Auxiliar ( )3Asociado ( )2 Jefe de Práctica ( )4

Edad: Menores de 20 años ( )1 De 40 a 49 años ( )4De 20 a 29 años ( )2 De 50 años y más ( )5De 30 a 39 años ( )3

¿A que se debe que seamos un país poco desarrollado?1 ( ) Poco esfuerzo de sus habitantes.2 ( ) Dominio de los países desarrollados.3 ( ) Falta de conocimientos y tecnología.4 ( ) Errores de los gobernantes.5 ( ) Herencia colonial.6 ( ) Otros.

¿Qué cosa buena para el país quisieras que ocurra en el siguiente año?1 ( ) Más inversión y trabajo2 ( ) Menos pobreza3 ( ) Menos corrupción y delincuencia.4 ( ) Aumento de salarios.5 ( ) Mejora de la Educación

d. Preguntas literales, son preguntas abiertas cuyas respuestas se expresan con una palabra o cantidad.

Ejemplo 2.4

¿Cuál es su estado civil? ¿Cuál es su ocupación actual? ¿Cuál es su ingreso total? Lugar de nacimiento.

e. Preguntas con respuesta en grados de intensidad, cuyas respuestas indican un grado de intensidad dentro de una escala creciente o decreciente, ascendente o descendente. Hay un abanico cerrado, donde el encuestado tiene que elegir una de las posibilidades.

Ejemplo 2.5

La gestión del Rector de la Universidad, es:Muy Buena ( ) Buena ( ) Regular ( )Mala ( ) No Opina ( )

¿Está Ud. de acuerdo con la política económica del gobierno?Muy de acuerdo ( ) De acuerdo ( )En desacuerdo ( ) No responde ( )

D. Pautas para la redacción y el contenido de las preguntas

a. Incluir preguntas estrictamente necesarias para:- Satisfacer los objetivos.

7

- Establecer controles de consistencia en las respuestas.- Individualizar al informante.

b. Incluir preguntas para que el informante recuerde.c. Evitar las preguntas que obliguen al informante a hacer

cálculos y pueda cometer errores.d. Evitar palabras que provoquen diferentes interpretaciones. e. Redactar en forma clara y directa.f. La pregunta no debe sugerir respuestas.g. Colocar primer las preguntas más simples y menos

confidenciales.

EJEMPLO DE UN FORMULARIO

Estudio: "PERFIL SOCIO ECONÓMICO Y ACADÉMICO DEL ESTUDIANTE UNIVERSITARIO"

Esta encuesta es ESTRICTAMENTE CONFIDENCIAL, tiene como finalidad recolectar datos sobre aspectos socio económicos, familiares y académicos del estudiante a fin de disponer de un marco de referencia, por tanto, agradecemos responder con la mayor sinceridad y seriedad, COLOQUE UNA X EN EL PARÉNTESIS DE SU RESPUESTA.

CÓDIGO o MATRICULA: AÑO O CICLO:Especialidad:

I. DATOS GENERALES2.1. SEXO:

Hombre ( )1Mujer ( )2

2.2. EDAD en años:Fecha de nacimiento:

2.3. En qué distrito vive o reside actualmente?

2.4. LUGAR DE NACIMIENTO:Provincia:Departamento:

2.5. ESTADO CIVIL:Soltero ( ) 1 Casado ( )2Viudo ( )3 Divorciado ( )4Conviviente ( )5 Separado ( )6

II. ANTECEDENTES EDUCATIVOS DE LA SECUNDARIA2.1.En que colegio terminó la Educación

Secundaria?Estatal ( )1 No Estatal ( )2

2.2.Donde está ubicado su Colegio?Distrito:Provincia:

2.3.Cuándo (fecha) terminó la Educación Secundaria?

2.4. Que año repitió alguna vez?(1) (2) (3) (4) (5)

2.5.Qué asignaturas le agradaban o tenían más éxito en la Secundaria?1.2.3.4.5.

2.6. Qué asignaturas le desaprobó alguna vez en la Secundaria?1.2. 3.4.5.

2.7. Está Ud. siguiendo la PROFESIÓN que pensó estudiar? SI ( )1 NO ( )2Qué carrera profesional le gustaría seguir? ....................................................................

III. ANTECEDENTES ECONÓMICOS DEL ESTUDIANTE3.1. Trabaja actualmente en algo?

SI ( )Dónde? ..................................................

3.2. Qué hace o qué cargo desempeña? 3.4.SI NO TRABAJA, de quién depende

económicamente?3.3. SI TRABAJA en algo ¿En cuánto estima

sus ingresos mensuales? (US $)

8

( ) 1 Menos de 50( ) 2 de 51 a 100( ) 3 de 101 a 150

( ) 4 de 151 a 200 ( ) 5 de 201 a 300 ( ) 6 Más de 300

3.5. Cuándo (año) empezó a trabajar por primera vez?

2.1.6. LA ENCUESTA

La encuesta o investigación estadística es una técnica de recolección de datos, donde se obtiene la información tal como se necesita, preparada exprofesamente y con objetivo estadístico. Permite observar y registrar características en las unidades de análisis de una determinada población o muestra, delimitada en el tiempo y en el espacio. En toda encuesta se hace uso de un cuestionario, cuyas respuestas se registran en el formulario o cédula.

Cuando una encuesta está dirigida a la totalidad de elementos de una población, se llama Censo; en tanto, cuando está dirigida a una parte representativa; muestra de una población, se llama Encuesta por muestreo. La selección de la muestra requiere de técnicas especiales que se analizan en los cursos de muestreo.

Hay cuatro maneras de obtener los datos y la información con la Técnica de la Encuesta:

a. Con una entrevista o diálogo con el encuestado basado en un cuestionario, cuyos datos terminada la entrevista se registran en una libreta de notas.

b. Por empadronamiento, donde el empadronador pregunta o encuesta al empadronado y registra los datos en el formulario.

c. Por correo, cuando se envían los formularios por correo al domicilio del empadronado o unidad de análisis.

d. Por teléfono o fax, cuando las preguntas se formulan telefónicamente.

Nota 1. La redacción de preguntas deben ser claras, sencillas y comprensibles, diseñadas para obtener el dato o respuesta esperada a las variables consideradas en la investigación. Sólo debe incluirse preguntas que están asociadas a los objetivos y propósitos del estudio.

Nota 2. Las variables, el cuestionario y el formulario deben ser evaluados antes de su aplicación. Por ejemplo trabajar con una Matriz de Formulación y Evaluación del Cuestionario, así como en la Encuesta Experimental.

9

Fuente:AVILA, R. (1998) Estadística Elemental. Lima Estudios y

Ediciones R.A.

Lectura 03: Estadígrafos de Posición, pp. 96-98, 118-119

2.2. ESTADÍGRAFOS DE POSICIÓN

Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa una distribución de frecuencia alrededor de un valor de la variable.

Supongamos que se elige tres conjuntos de estudiantes de primaria, secundaria y superior, cuya distribución por edades ha permitido obtener los histogramas del Gráfico No. 4.2. Como se observa en los Gráficos 4.2.(a), 4.2.(b) y 4.2.(c) hay un desplazamiento de las distribuciones hacia la derecha a medida que avanza el nivel educativo de cada grupo; la diferencia entre los tres histogramas es sólo el cambio de posición o localización a lo largo del eje horizontal o valor de la variable (edad).

En cada uno de los tres casos se advierte que los valores observados se agrupan alrededor de cierto "valor central" o "valor medio". Estos valores centrales, por su desplazamiento en el mismo sentido y magnitud, se considera como números que describen la posición de la distribución de frecuencias, y se definen como estadígrafos de posición o de tendencia central.

Los estadígrafos, son valores que de manera condensada representan en un solo valor, a una serie de datos y además describen resumidamente al conjunto de observaciones. Los estadígrafos de posición de uso más frecuente son: la media aritmética, la mediana, las cuartilas, las decilas, los percentiles y la moda; existen además la media geométrica, la media armónica, etc.

2.3. LA MEDIA ARITMÉTICA

Es el estadígrafo de posición más importante. La media aritmética se denomina simplemente MEDIA y comúnmente se le conoce como promedio.

La media aritmética se define y calcula dividiendo la suma de los valores de la variable entre el número de observaciones o valores.

Media = Suma de valores de la variableNúmero de valores

Para una variable Xi la media se puede simbolizar como:

X; M(X) ; ax

a. La media que se obtiene a partir de "n" datos originales X i se denomina Media Aritmética Simple.

M(X) = X = entonces M(x) =

También X = o X = Xihi

Ejemplo 1. Supongamos que los puntajes obtenidos en 5 exámenes parciales de Estadística son:

10

x1 = 13; x2 = 10; x3 = 14; x4 = 11; x5 = 10

la nota promedio o media aritmética de las notas es:

X =

X = = 116 o sea X = 12 puntos.

b. La media obtenida a partir de los datos agrupados en tablas de frecuencia se denomina Media Aritmética Ponderada, definida como:

M(Y) = Y =

Y =

Los puntos medios yi de cada intervalo se ponderan por las frecuencias ni.

¿Cuál será el ingreso mediano o la mediana?

Aquí n/2 = 60/2 = 30 que comparado con los valores de Ni resulta que coincide con N2

= 30, este valor es entonces Nj-1 = 30. como Nj = 42 resulta que IMe = 180 - 240 cuyo extremo interior Lj-1 = 180; por tanto Me = Li = 180, es decir que Me = 180 dólares.

Interpretando, significa que 30 trabajadores tienen sueldos iguales o inferiores a 180 dólares, y los 30 trabajadores restantes (el otro 50%) tienen sueldos superiores a 180 dólares.

2.3.1. VENTAJAS DE LA MEDIANA

Como estadígrafo de posición, la mediana es mas recomendable que la media aritmética, cuando:

a. Existan valores extremos excepcionalmente grandes o muy pequeños, puesto que la mediana no está afectada por los valores extremos como sucede con la media.

b. Se trabaja con tablas de frecuencia con intervalos en donde no se indica el extremo inferior del primer intervalo o no se indica el extremo superior del último intervalo, o ambos casos. Esto no niega que exista la media, ella existe y siempre se puede calcular.

c. Se tiene datos cualitativos, susceptibles de ordenarse de acuerdo a rangos, calificaciones o categorías.

Ejemplo 2.1. En el Cuadro No. 4.8, se presenta un conjunto de estudiantes clasificados por su rendimiento en cinco categorías. ¿Cuál será la mediana?

El valor de n/2 = 20 no coincide con algún Nj, porque 11 < 20 < 23 o sea:

11

Nj-1 < n/2 = Nj Luego Me = Yj que corresponde a la categoría REGULAR, es decir que la Mediana corresponde a la categoría Regular, o sea que la mitad de los estudiantes tienen un rendimiento igual o menor que regular.

Cuadro No. 4.08

CLASIFICACIÓN DE 40 ALUMNOS SEGÚN RENDIMIENTO ACADÉMICO. 1987

CATEGORÍAS (Y) ni = fi hi Ni = Fi

PésimoMaloMe RegularBuenoExcelente

4 71210 7

0,1000,1750,3000,2500,175

411 Nj-1

23 Nj

3340

n = 40 1,000

Nota 1La mediana no es afectada por los valores extremos como la media aritmética, puesto que la Me no es calculada con todos los valores.

Nota 2Existen otras expresiones para calcular la Mediana, la definición no cambia, las diferencias con la fórmula propuesta en este libro sólo es de notación o simbología, el resultado será el mismo. Entre las expresiones se tiene:

Me = L + C

L = Li = Límite inferior del intervalo mediano.n = número total de observaciones.f = Nj-1 = frecuencia acumulada hasta el intervalo anterior al intervalo mediano.f = Nj - Nj-1 = frecuencia del intervalo mediano.c = amplitud del intervalo mediano.

Otra expresión:

Me = L + i

cuyos elementos tienen el mismo significado de las expresiones anteriores.

12

Fuente:AVILA, R. (1998) Estadística Elemental Lima. Estudios y

Ediciones R.A.

Lectura 04: Estadígrafos de Dispersión, pp. 139 - 156.

2.4. ESTADÍGRAFOS DE DISPERSIÓN

El estadígrafo de posición, es un valor que representa un conjunto de valores de una población o muestra, es un punto de referencia alrededor del cual se distribuyen los valores X i. Habrá valores de Xi mayores, iguales o menores de un estadígrafo de posición (media, mediana, moda), pero ¿cuál es la distancia, diferencia o dispersión de los valores de Xi respecto a un punto de referencia?. Precisamente ese es el problema que se pretende estudiar, definiendo un conjunto de indicadores, llamados los Estadígrafos de Dispersión.

En la descripción de un conjunto de datos ordenados no basta conocer sólo sus estadígrafos de posición, para completar el análisis es necesario tener una idea del grado de concentración o dispersión de las observaciones alrededor de un valor central o de posición.

Existen distribuciones que siendo diferentes, tienen valores iguales para algunos de sus estadígrafos de posición, por ejemplo:

A) 3, 7, 46, 67, 81 X = 40,8 ; Me = 46B) 15, 38, 46, 52, 53 X = 40,8 ; Me = 46

los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a conclusiones equivocadas cuando se está comparando distribuciones o poblaciones. Para superar esta limitación se propone construir otros estadígrafos que permitan analizar otras características, como la dispersión o desviación de los datos respecto a un valor central.

Observando los Gráficos No. 4.4.(a), (b), (c) del Ejemplo 4.24, se nota que las tres distribuciones que tienen el mismo promedio, pero es evidente que el Gráfico 4.4. (c) representa una distribución con datos más "concentrados" alrededor del promedio que los otros dos gráficos. Dicho de otro modo, 4.4. (c) corresponde a una distribución con menos dispersión que las otras dos; de la misma manera se observa que 4.4. (a) es una distribución menos concentrada o más dispersa. Esta característica se mide mediante los Estadígrafos de Dispersión.

Los Estadígrafos de Dispersión de mayor uso son:

a. Recorrido o rango (R)b. Desviación media (D.M.)c. Recorrido Semi- Intercuartil (Q)d. Varianza (s²)e. Desviación Estándar o Típica (s)f. Coeficiente de Variación (C.V.)

2.5. APLICACIÓN DE LA DESVIACIÓN ESTÁNDAR

La varianza y la desviación estándar son estadígrafos muy utilizados, sin embargo no tienen una interpretación muy clara cuando se refiere a una sola distribución; por ejemplo, si la desviación estándar de los presupuestos familiares es 50 soles mensuales, no se puede deducir si este valor significa que la desviación es alta o baja. Estos estadígrafos tienen mayor significación cuando se realiza comparaciones de distribuciones. Pero hay que subrayar, que la media aritmética y la varianza constituyen los pilares que sustentan todo el edificio estadístico.

Una de las aplicaciones que supera la limitación anotada, es analizar la dispersión a partir de una distribución teórica, llamada la Curva Normal.

13

Frecuentemente, cuando "n" es grande (n 30), la distribución de las n observaciones es aproximadamente simétrica o tiene la forma de una curva normal (Gráfico No. 4.5.). De acuerdo a las áreas bajo la curva normal, indicados en tablas se puede sostener que:

i) El 68.3% de las observaciones estarán comprendidas dentro del intervalo (Y - s, Y + s)

ii) El 95.5% de las observaciones estarán comprendidas dentro del intervalo (Y - 2s; Y + 2s)

iii) El 99.7% de las observaciones estarán comprendidas dentro del intervalo (Y - 3s; Y + 3s).

14

Fuente:AVILA, R. (1998) Estadística Elemental Lima. Estudios y

Ediciones R.A.

Lectura 05: Estadígrafos de Deformación, 157-159

2.6. ESTADÍGRAFOS DE DEFORMACIÓN

La deformación consiste en analizar la simetría do asimetría (no simetría) de las distribuciones. Por ejemplo, el Gráfico No. 4.6.(b) representa una distribución SIMÉTRICA, en tanto que 4.6.(a) y 4.6.(c) corresponde a distribuciones asimétricas o deformes.

El gráfico 4.6.(a) presenta una deformación hacia la izquierda, que corresponde a la cola o rama más larga de la distribución, es decir tiene asimetría por la izquierda o asimetría negativa. En tanto que 4.6.(c) corresponde a una distribución como asimetría por la derecha o de asimetría positiva.

La deformación o asimetría estadística se deduce comparando la distribución con la forma de la "curva normal" que corresponde a una distribución simétrica.

En general, toda distribución que tiene Y = Me = Mo se dice que es SIMÉTRICA, en otro caso será asimétrica.

Entre los estadígrafos de asimetría o deformación se tiene, los propuestos por Karl Perason.

AS1 = Media - Moda = Y - Mo Desviación estándar s

AS2 = 3(Media - Mediana) = 3(Y - Me) Desviación estándar s

que constituyen respectivamente, el primer y segundo coeficiente de asimetría de Pearson.

También existe el estadígrafo propuesto por Arthur Boeley:

AS = (Q3 - Q2) - (Q2 - Q1) = Q3 - 2Q3 + Q1

Q3 - Q1 Q3 - Q1

que se le llama el "coeficiente cuartil de deformación".

De acuerdo al valor de AS, se tiene:

a. Si AS > 0. Tiene asimetría positiva. La distribución extiende la cola hacia los valores grandes de la variable.

b. Si AS < 0. Tiene asimetría negativa. La distribución extiende la cola hacia los valores pequeños de la variable.

Por otra parte, también se deduce que hay asimetría cuando:

Mo < Me < Y Asimetría Positiva.Y < Me < Mo Asimetría Negativa.

Ejemplo 1En la distribución de los sueldos de los 80 trabajadores, se conoce:

Y = 174,40 Me = 174 Mo = 167Q1 = 140,80 Q3 = 208,20 s = 43,60

15

¿Cuál es la asimetría?Con fines ilustrativos, vamos calcular todas las fórmulas de asimetría. Como el

resultado será el mismo, entonces trabajar con una sola fórmula será suficiente.

AS1 = Y - Mo = 174,40 - 167 = 0,170 > 0 s 43,60

AS2 = 3(Y - Me) = 3(174,40 - 174) = 0,028 > 0 s 43,60

AS = Q3 - 2Q2 + Q1 = 208,20 - 2(174) + 140,80 Q3 - Q1 280,20 - 140,80

= 0,00015 > 0

en cualquiera de las fórmulas AS es positivo, por tanto tiene Asimetría Positiva, es decir hay un ligero predominio de sueldos menores. Frecuentemente, la distribución de los salarios tiene asimetría positiva, porque existen muchos trabajadores que ganan poco y pocos trabajadores que ganan bien.

2.7. ESTADÍGRAFOS DE APUNTAMIENTO O KURTOSIS

Entendemos como kurtosis al grado de apuntamiento de una distribución. La Kurtosis se analiza comparando la distribución con forma de una curva normal o simétrica, con igual media aritmética y desviación estándar que la distribución que se estudia.

Si una distribución tiene relativamente un elevado pico o apuntamiento, se llama distribución leptokurtica, mientras si es achatada se denomina platikurtica. La distribución normal constituye una distribución mesokurtica.

Los estadígrafos para analizar el apuntamiento son:

Coeficiente de Kurtosis: a4 =

Donde: s4 = (s²)² s² = varianza.

m4 =

que se llama "el cuarto momento respecto a la media".a = 0.3 Mesokútica (normal)a > 0.3 Leptokútica (apuntada)a < 0.3 Platikúrtica (achatada)

Otro estadígrafo de kurtosis es:

K = = Coeficiente Percentil de kurtosis.

Donde Q es el recorrido semi intercuartil, P10 y P90 son los percentiles 10 y 90. para la curva resulta K = 0,263.

16

Fuente:AVILA, R. (1998) Estadística Elemental Lima. Estudios y

Ediciones R.A.

Lectura 06: Propiedades de la Media y la Varianza, pp. 103-109 y 149-155.

2.8. PROPIEDADES DE LA MEDIA

a. "La media aritmética de una constante es igual a la misma constante".

M(K) = k k = constante

M(K) =

b. "La media del producto de una constante por una variable, es igual al producto de la constante por la media de la variable".

M(k.x) = k.M(x) k = constante

M(k.x) =

= = k.M(x)

c. "La media de la suma de dos o más variables, es igual a la suma de las medias de cada una de dichas variables".

M(X + Y) = M(X) + M(Y)

M(X + Y) = (x i + yi) = (x1 + y1)+(x2 + y2) +...+ (x n + yn) n n

= (x1 + x2 +...+ xn) + (y1 + y2 +...+ yn) n n

M(X + Y) = x i + y i = M(X) + M(Y) n n

Para tres variables:

M(X + Y - Z) = M(X) + M(Y) - M(Z)

d. "La media de una variable más una constante, es igual a la media de la variable más la constante".

M(X + k) = M(X) + k

M(X + k) = (X + k) = x i + k = M(X) + k n n n

e. "Si una muestra se divide en r submuestras, entonces la media total de la muestra, es igual a la suma de las medias de las submuestras ponderadas por sus respectivos tamaños, dividido entre el tamaño de la muestra total".

17

Sea una muestra de tamaño con media Y, consideremos dos sumuestras de tamaño n1 y n2, con sus respectivas medias Y1 y Y2, con n = n1 + n2.

Entonces: Y =

Generalizando para r submuestras, se tendría:

Y =

O sea:

Y = ; con n =

Ejemplo 1En una empresa la edad promedio de los 17 trabajadoras mujeres es de 31,2 años, y la edad promedios de los 23 trabajadores hombres es de 38 años. ¿Cuál es la edad promedio del total de trabajadores? Aquí se tiene:

Nº Trabajadores Edad promedioMujeresHombres

n1 = 17n2 = 23

Y1 = 31.2 añosY2 = 38.0 años

Total N = 40

De acuerdo a la propiedad (e), la media aritmética total:

Y =

Y = = 35,1 años.

2.9. PROPIEDADES DE LA VARIANZA

Por definición:

s² = V(Y) = M {[Yi - M(Y)]²}

de donde se deduce las siguientes propiedades:

a. "Para cualquier distribución la varianza es siempre una cantidad no negativa".

s² 0

esto es evidente, puesto que todas las desviaciones positivas o negativas, al elevarse al cuadrado se hacen positivas.

b. "Si el valor de las observaciones son todas iguales, entonces la varianza es CERO".En este caso, las observaciones se confunden en un punto, la media es el mismo punto y la desviación es cero.

s² = 0/n = 0

18

c. "La varianza de una constante es cero".

V(K) = 0 K = constanteV(K) = M {[K - M(K)]²} = M{[K - K]²} M(0) = 0V(K) = 0 c.q.d.

d. "La varianza del producto de una constante por una variable, es igual al cuadrado de la constante por la varianza de la variable".

V(K.Y) = K²V(Y)V(K.Y) = M{[KY - M(KY)]²} = M{[KY - KM(Y)]²}

= M {K² [Y - M(Y)]²} = K² {Y - M(Y)]²}V(K.Y) = K²V(Y)

e. "La varianza de la suma de una variable más una constante, es igual a la varianza de la variable".

V(Y + K) = V(Y)V(Y + K) = M{[(Y + K) - Y(Y + K)]²}

= M{[Y + K - M(Y) - K)]²}= M{[Y - M(Y)]²} = V(Y)

Ejemplo 1Supongamos que se duplica los sueldos de los 80 trabajadores. ¿Cuál es ahora la varianza y el nuevo sueldo promedio?

Sabemos que: M(Y) = 174,40; V(Y) = 1903,40Al duplicarse los sueldos K = 2V(2Y) = 2²V(Y) = 4(1903,40) = 7613,60 dólares al cuadrado, que es la nueva varianza después del reajuste.

El nuevo sueldo promedio, al duplicarse los sueldos es:

M(2Y) = 2 M(Y) = 2(174.40)M(2Y) = 348.80 dólares.

Ejemplo 2Si a cada uno de los 80 trabajadores, se incrementa su sueldo en 60 dólares mensuales. ¿Cuál será la nueva varianza y el sueldo promedio?

Aquí K=60 entonces V(Y + 60) = V(Y) = 1903,40 es decir un incremento constante a cada elemento no altera la dispersión de la distribución. Por su parte el nuevo sueldo promedio quedaría incrementado en 60 dólares.

M(Y + 60) = M(Y) + 60= 174,40 + 60= 234,40 dólares.

2.10. COMPONENTES DE LA VARIANZA

Si un conjunto de datos se divide en subconjuntos, categorías o estratos, es posible descomponer la varianza en dos componentes.

Supongamos que un conjunto de datos ha sido dividido en L estratos o subconjuntos, cada estrato tendrá un tamaño (nr), su respectiva media aritmética (Yr) y varianza (sr²), valores que expresan la importancia de cada uno de los estratos en el total del conjunto.

19

Fuente:AVILA, R. (1998) Estadística Elemental Lima. Estudios y

Ediciones R.A.

Lectura 07: La Distribución Normal, pp. 388-398.

2.11. LA DISTRIBUCIÓN NORMAL

2.11.1. Generalidades

La distribución normal es el modelo de la probabilidad de mayor uso, es una distribución teórica de variable aleatoria continua, que puede expresarse en la forma general o estandarizada. Tiene simetría perfecta, en forma de una campana unimodal, la media y la moda son iguales. En la práctica, es frecuente que la mayoría de las distribuciones, para un número grande de casos se distribuyen como una "curva normal" o curva de Gauss; precisamente este comportamiento permitió incorporar esta función a la Estadística como la Distribución Normal cuya función de densidad o de distribución esta dada por la expresión:

N(,) = e-(x-)²/2²

Donde: - X +

Como función de probabilidad, se asume que el área encerrada por la curva y el eje X, es igual a uno. Además se puede determinar áreas bajo la curva, comprendida entre dos ordenadas levantadas por ejemplo en los puntos a y b. esta área estaría definiendo la probabilidad de la variable comprendida entre los extremos a y b; es decir:

P (a X b) = Área entre a y b.

No se requiere hacer ningún esfuerzo extraordinario para calcular estas áreas en la curva normal, puesto que para valores determinados y con ayuda del Cálculo Integral se han calculado diversas áreas y construido Tablas de Áreas bajo la Curva Normal (Tabla II) que vamos a utilizar permanentemente.

2.11.2. Curva Normal Estandarizada

La forma general de la distribución normal:

N (, ) = e-(x-)²/2²

se puede simplificar cuando se hace un cambio de variable, es decir, transformar la variable original X en una nueva variable z, mediante la relación:

zi =

en estas condiciones:

N(,) ----------- N(0,1)

20

X z = z

0 = 0 > 0 = 1

esta transformación constituye la Estandarización de la Curva Normal, por tanto da origen a lo que se denomina la CURVA NORMAL ESTANDARIZADA O TIPIFICADA, cuya expresión ahora es:

N(0,1) = e-1/2 z² , - Z +

en esta curva, las áreas comprendidas entre dos puntos cualesquiera (z1, z2) también se encuentran tabulados en las Tablas de Áreas bajo la Curva Normal Tipificada o Estándar de 0 a z (Tabla II). Por ejemplo, considerando los valores de z (-1,1), (-2,2), (-3,3) se tiene las siguientes áreas:

P(-1 z 1) = 0.6827P(-2 z 2) = 0.9545P(-3 z 3) = 0.9973

ESTANDARIZACIÓN DE X:

Para utilizar las Tablas de la Curva Normal Estandarizada o Tipificada (Tabla II) se requiere transformar o estandarizar los valores originales de X en valores de Z donde:

z = puntaje estandarizado

z = con: Xi = valor de la variable

= media de los valores de Xi (media poblacional)

= desviación estándar deXi (desviación estándar)

Nota: Cuando se trabaja con muestras, la relación de estandarización será:

X = media muestral.

z = donde

s = desviación estándar muestral

En el siguiente ejemplo, vamos a ilustrar cómo se estandariza los valores de X:

Ejemplo 1.La media de las notas de los alumnos de Estadística es 12,4 puntos y la desviación estándar es 2,6; ¿Cuál es el valor estándar (z) de los siguientes puntajes: 10,5; 13; 16; 08; 12,4; 17?

X1 = 10,5 X2 = 13 X3 = 16 X4 = 08 X5 = 12,4 X6 = 17

Además = 12,4 = 2,6

z1 = X1- = 10,5-12,4 = -0,73 z4 = 8-12,4 = -1,6 2,6 2,6

z2 = X2- = 13 - 12,4 = 0,23 z5 = 12,4-12,4 =

21

2,6 2,6

z3 = X3- = 16 - 12,4 = 1,38 z6 = 1,769 2,6

2.11.3. Uso de la Tabla de Áreas de la Curva Normal Estandarizada

La Tabla II que corresponde a las áreas bajo la curva normal tipificada o estandarizada, presenta áreas correspondientes de 0 a Z, es decir son áreas para la mitad positiva de la curva entre 0 y un valor dado de Z. Como es una curva simétrica, fácilmente se puede obtener áreas o probabilidades para valores negativos de Z, tomando el valor simétrico positivo de Z, las áreas como la probabilidad siempre es positiva. La tabla considera para Z dos decimales y para las probabilidades (áreas) cuatro decimales. En la primera columna está Z con un decimal, el segundo decimal se indica en la primera fila, por ejemplo para Z = 2,76 le corresponde 0,4971, para Z = 1,08 le corresponde 0,3599; a Z = -0,85 por simetría será el valor de Z = 0,85 que es 0,3023. Trate de ubicar estos valores en la Tabla II.

En el trabajo de probabilidades con la curva normal, es recomendable graficar en la curva el área que interesa determinar. A continuación vamos a ilustrar los diversos casos que se presentan:

Ejemplo 1A partir de la Distribución Normal, calcular la probabilidad de un suceso, cuya variable estandarizada (z) está comprendida entre los siguientes valores:

(En todos los casos se ha sombreado el área que corresponde a la probabilidad que se desea determinar).

PRIMER CASO:Entre z = 0 y z = 1,3P (0 z 1,3) = 0,4032

Este valor se busca en la Tabla II para el valor de Z = 1,3.

SEGUNDO CASO:Entre z = -0,72 y z = 0

z está a la izquierda de 0 y su área o probabilidad se halla por simetría.

P(-0,72 z 0) = P(0 z 0,72) = 0,2642

TERCER CASO:Entre z = -0,48 y z = 2,15

Como se aprecia en la figura, se trata de la suma de dos áreas:

A(0; 0,8) y A(0; 2,15)P(-0,48 z 2,15) = P(-0,48 z 0) + P(0 z 2,15) = 0,1844 + 0,4842 = 0,6686

CUARTO CASO:Entre z = 0,80 y z = 1,94

Aquí el área a(0; 1,94) se le resta el área (0; 0,80)

P(0,80 z 1,94) = P(0 z 1,94) - P(0 z 0,80) = 0,4738 + 0,2881 = 0,1857

22

QUINTO CASO:Entre z = -2,30 y z = -0,82

Es un caso similar al interior, se calcula las áreas por simetría.

P(-2,30 z -0,82) = P(0 z 2,30) - P(0 z 0,82) = 0,4893 - 0,2939 = 0,1954

SEXTO CASO:A la izquierda o menores de z = -0,90

P(- z -0,90) = P(z -0,90) = 0,5000 - 0,3159 = 0,1841

SÉTIMO CASO:A la derecha o mayor de z = 1,72

P(1,72 z +) = P(z 1,72) = 0,500 - P(0 z 1,72) = 0,500 - 0,4573 = 0,0427

OCTAVO CASO:A la derecha de z = -1,25 o mayor de z = -1,25

P(z -1,25) = 0,5000 + P(z > 1,25) = 0,5000 + 0,3044 = 0,8944

NOVENO CASO:Que z sea menor que -1,96 o mayor que 1,96P(z < -1,96 o z > 1,96) = P(z < -1,96) = 0,5 - P(0 z 1,96) = 0,5000 - 0,4750 = 0,0250 P(z < - 1,96) = 0,5 - P(0 < z < 1,96) = 0,5000 - 0,4750 = 0,0250

P(z < -1,96 o z > 1,96) = Pz < -1,96) + P(z > 1,96) = 0,0250 + 0,0250 = 0,050

También puede resolverse así:P(z < -1,96 o z > 1,96) = 1 - [P(z > 1,96) + P(z > 1,96)] = 1 - (0,4750 + 0,4750) = 0,05

DÉCIMO CASO:A la derecha de z = 2,06 y a la izquierda de z = -1,48

También significa que: z = 2,06 o z < -1,48

P(z > 2,06 o z < -1,48) = P(z > 2,06 o z > 1,48) = 1 - [P(z > 1,48) + P(z > 2,06)] = 1 - (0,4306 + 0,4803) = 1 - 0,9109 = 0,0891 P(z > 2,06 o z < -1,48) = 0,0891

Ejemplo 2En una muestra de estudiantes de Ingeniería, se encuentra que la nota promedio en Economía fue 12 puntos, con una desviación estándar igual a 2. ¿Cuál es la probabilidad de que un alumno elegido al azar tenga nota entre 11 y 14?

Supongamos que las notas se distribuyen como una normal.

Datos:

23

X = 12 s = 12X1 = 11 X2 = 14

Estandarizando X

z1 = 11 - 12 = -0.52

z2 = 14 - 12 = 1.02

P(11 X 14) = P(-0,5 z 1,0) =P(0 z 0,5) = P(0 z 1,0) = 0,1915 + 0,3413 = 0,5328P(11 X 14) = 0,5328 = 53,28%

Ejemplo 3La media de los sueldos de 600 empleados de una empresa es de 430 dólares y la desviación estándar o típica 40 dólares. Suponiendo que los sueldos se distribuyen normalmente, hallar cuántos empleados tienen sueldos:a. Entre 350 y 450 dólares.b. De 500 y más dólares.c. Más de 500 dólares.

Solución

= 430 = 40

a. Luego: z1 = 350 - 430 = -2,0 40

z2 = 450 - 430 = 0,50 40

P(350 X 450) = P(-2,00 z 0,50) = 0,4772 + 0,1915 = 0,6687

Número de empleados con sueldos entre 350 y 450 dólares es: Nº empleados = 600 (0,6687) = 401 empleados.

b. P(X 500) z = 500 - 430 = 1,75 4

P(X 500) = P(z 1,75)= 0,5000 - 0,4599 = 0,0401

Luego el Número de empleados con 500 dólares y más:Nº empleados = 600 (0,0401) = 24 empleados.

c. Con más de 500 dólares, se puede representar con X = 501 dólares

z = 501 - 430 = 1,77 4

(X > 500) = P(X 501) = P(z 1,77) = 0,5000 - P(0 z 1,77) = 0,5000 - 0,4616 = 0,0384

Número de empleados con más de 500 dólaresNº empleados = 600 (0,0384) = 23 empleados.

Ejemplo 4

24

En la fabricación de cierto tipo de navajas se ha encontrado un espesor medio de 2.20 milímetros y una desviación estándar de 0.15 milímetros. Se decide que todas las navajas exceden un espesor de 2.5 milímetros sean rechazados.

¿Qué porcentaje se espera que sean rechazados?

= 2,20 = 0,15 X = 2,5

z = 2,50 - 2,20 = 2,000,15

P(X > 2,5) = P(z > 2,00) = 0,5000 - P(0 < z < 2,00) = 0,5000 - 0,4772 = 0,0228

Entonces, deben ser rechazados, aproximadamente el 2,3% de la producción.

Ejemplo 5Los puntajes en un examen de selección para seguir estudios superiores están distribuidos normalmente con media 76 y desviación estándar 15. Se ha establecido que el 15% de los concursantes, que son los mejores recibirán una beca integral de estudios, en tanto el 10% que se supone que son los peores, definitivamente no podrán seguir estudios superiores.

Hallar:a. El puntaje mínimo para ganar la beca.b. El puntaje mínimo para seguir estudios superiores.

Sean:

X1 : puntaje mínimo para ganar la beca.X2 : puntaje mínimo para seguir estudios.

= 76 = 15

25

Fuente:AVILA R. (1998) Estadística Elemental Lima Estudios y

Ediciones RA.

Lectura 08: Una Comprobación a la Normalidad, pp. 226-227

2.12. UNA COMPROBACIÓN DE LA "NORMALIDAD"

Hay varias maneras en que podemos probar si una distribución observada tiene aproximadamente la forma de una distribución normal. La manera que aquí presentaremos es cruda y en gran medida subjetiva, pero definitivamente tiene la ventaja de que es muy fácil de llevarse a cabo.

Para ilustrar esta técnica, refirámonos de nuevo a los datos de la emisión de óxidos de azufre que se usaron en los primeros capítulos del libro. Primero convertimos las frecuencias acumulativas de la tabla en porcentajes acumulativos dividiendo cada una entre 80, la frecuencia total, y multiplicando después por 100. Esto nos da donde presentamos las fronteras de clase en vez de los límites de la clase, aunque esto en realidad no tiene importancia a menos que continuemos con el análisis como en el ejercicio 9.27.

Toneladas de óxidos de azufre

Porcentaje acumulativo

Menos de 4.95Menos de 8.95Menos de 12.95Menos de 16.95Menos de 20.95Menos de 24.95Menos de 28.95Menos de 32.95

0.00 3.75 16.25 33.75 65.00 86.25 97.50100.00

Antes de trazar esta distribución porcentual acumulativa en el papel gráfico especial de la figura 9.16, examinemos brevemente sus escalas. Cuando se compra dicho papel de gráfica en forma comercial, la escala porcentual acumulativa ya está impresa en la manera especial que la hace ideal para nuestros propósitos. La otra escala consiste en subdivisiones iguales. Esta clase de gráfica se conoce como papel de probabilidad normal o papel de probabilidad aritmética, y se tiene acceso a éste en la mayoría de las librerías de escuelas o universidades.

Una vez que hemos trazado los porcentajes acumulativos de "menos de" como en la figura 9.16, usamos el criterio siguiente:

Si los puntos siguen en gran medida el patrón de una línea recta, consideramos que ésta es una evidencia positiva de que la distribución tiene aproximadamente la forma de una distribución normal.

Es evidente que "en gran medida" y "aproximadamente" no son términos muy precisos pero al principio señalamos que ésta es una técnica cruda y en gran medida subjetiva, aunque fácil de realizarse. El patrón más común en que la distribución se consideraría como "anormal" es el patrón en que los puntos de la extrema derecha caen por debajo de la línea recta determinada por el equilibrio de los puntos. En el ejercicio 13.88 se explica una manera más rigurosa de verificar la "normalidad" de una distribución de datos observados.

Regresando a la figura 9.16, encontramos que todos los puntos están cerca de la línea punteada y concluimos que la distribución de los datos de la emisión de óxidos de azufre tiene aproximadamente la forma de una distribución normal. Nótese que en la figura 9.16 no trazamos porcentajes acumulativos correspondientes a 4.95 y 32.95. Como lo indicamos, nunca llegamos en realidad a 0 o 100% del área bajo una curva normal, no importa cuánto nos retiremos de la media de cualquier dirección.

26

EJERCICIOS Use un papel de probabilidad normal para verificar si la distribución del ejercicio 2.25 que

trata sobre los números de clientes a los que un restaurante sirve de almorzar en 120 días laborales, tiene aproximadamente la forma de una distribución normal.

Use un papel de probabilidad normal para verificar si la distribución del ejercicio 4.33, que trata sobre la extensión de los períodos de descompostura de cierta máquina, aproximadamente tiene la forma de una distribución normal.

La siguiente es la distribución de las cantidades de tiempo que 200 personas requirieron para llenar cierta solicitud de trabajo:

Tiempo (minutos)

Número de personas

24 o menos25 - 2930 - 3435 - 3940 - 4445 o más

1550754015 5

Use un papel de probabilidad anormal para verificar si esta distribución tiene aproximadamente la forma de una distribución normal.

27

Fuente: FREUND J. & SIMON G. (1994) Estadística Elemental México D.F.

Prentice-Hall

Lectura 09: Correlación, pp. 459-465

2.13. EL COEFICIENTE DE CORRELACIÓN

En relación con la pregunta que hicimos al inicio de este capítulo, aquí enfrentamos un análisis de la varianza. La figura 16.1 ilustra lo que queremos decir. Como se puede apreciar a partir del diagrama, la desviación de un valor observado de y de la media de todas las y's, y - y, se puede expresar como una suma de dos partes. La primera parte es la desviación de y (el valor de la línea correspondiente a un valor observado de x) de la media de todas las y's, y - y; la segunda parte es la desviación del valor observado de y del valor correspondiente de la línea, y - y. simbólicamente, expresamos que

y - y = (y - y) + (y - y)

para cualquier valor observado y, y si elevamos al cuadrado las expresiones de ambos lados de esta igualdad y sumamos el total de n valores de y, encontramos que las simplificaciones algebraicas llevan a

(y - y)² = (y - y)² + (y - y)²

La cantidad del lado izquierdo mide la variación total de las y's y la conocemos como la suma total de cuadrados; nótese que (y - y)² es sólo la varianza de las y's multiplicada por n-1. La primera de las dos sumas de la derecha, (y - y)², se conoce como la suma de cuadrados de regresión y mide la parte de la variación total de las y's que se puede atribuir a la relación entre la dos variables x e y; de hecho, si todos los puntos caen en la línea de mínimos cuadrados, entonces y = y la suma de cuadrados de regresión equivale a la suma de cuadrados. En la práctica, ésta es difícilmente la situación, si acaso se da, y el hecho de que todos los puntos no caigan en la línea de mínimos cuadrados es un indicio de que existen otros factores distintos que las diferencias entre las x's que afectan los valores de y. Se acostumbra combinar todos estos factores bajo el término general de "probabilidad". Así, la variación de la probabilidad se mide por medio de las cantidades por las que los puntos se desvían de la línea; específicamente, ésta se mide mediante (y - )², conocida como la suma residual de cuadrados, que es el segundo de los componentes en que dividimos la suma total de cuadrados.

Para determinar estas sumas de cuadrados para el ejemplo del examen de dominio del idioma de ciertos solicitantes de trabajo en el servicio exterior, podríamos sustituir los valores de y, y, y los valores de sustituyendo las x's en = 31.55 + 10.90x, pero existen simplificaciones. Primero, para (y - y)² tenemos la fórmula de cálculo

Syy = y² - 1/n ( y)²

y en la página 437 demostramos que equivale a 1,504.1 para nuestro ejemplo. En segundo lugar, (y - )² es la cantidad que redujimos al mínimo por medio del método de los mínimos cuadrados y la cual aparece en el numerador de la fórmula para se. Copiando el numerador de su fórmula de cálculo de la página 436, obtenemos

( - y)² ]= Syy -

y para nuestro ejemplo, 1,504.1 -(114.5)²/10.5 = 255.50. (Los valores de Sxx y Sxy se determinaron en la página 429). Por último, sustrayendo, la suma de cuadrados de regresión se determina mediante

( - y)² = (y - y)² - (y - )²

28

= Syy -

=

y en nuestro ejemplo obtenemos (114.5)²/10.5 = 1,248.59

Es interesante observar que todas las cantidades que hemos calculado aquí se podrían haber obtenido directamente de la impresión por computadora de la figura 15.5 de la página 430. Bajo ANÁLISIS DE LA VARIANZA, en la columna clasificada como suma de cuadrados, encontramos que la suma total de cuadrados es 1,504.1, la suma residual de cuadrados es 255.5 y la suma de cuadrados de regresión es 1,248.6. Las diferencias entre estos valores y los anteriores evidentemente son consecuencia del redondeo.

Ahora podemos analizar las sumas de cuadrados y comparando la suma de cuadrados de regresión con la< suma total de cuadrados, encontramos que

( - y)² = 1,248.59 = 0.83 (y - y)² 1,504.1

es la proporción de la variación total de las clasificaciones que se puede atribuir a la relación con x, es decir, a las diferencias del número de años que los solicitantes habían estudiado alemán en la preparatoria o la universidad. Esta cantidad se conoce como el coeficiente de determinación y se expresa como r². Nótese que el coeficiente de determinación aparece también en la impresión de la figura 15.5 de la página 430; cerca de la parte central dice "R CUADRADA = 83.0 POR CIENTO".

Si sacamos la raíz cuadrada del coeficiente de determinación, obtenemos el coeficiente de correlación, que se representa por medio de la letra r. Su signo se relaciona de modo que sea como el del coeficiente de regresión estimada, b, y para nuestro ejemplo, donde b es positivo, tenemos

r = = 0.91

redondeando a dos decimales.

De ahí que el coeficiente de correlación es positivo cuando la línea de mínimos cuadrados tiene una pendiente hacia arriba, específicamente, cuando la relación entre x e y es tal que los valores bajos de y tienden a ir con valores bajos de x y los valores altos de y tienden a ir con valores altos de x. Así mismo, el coeficiente de correlación es negativo cuando la línea de mínimos cuadrados tiene una pendiente hacia abajo, esto es, cuando los valores altos de y tienden a ir con los valores bajos de x y los valores bajos de y tienden a ir con los valores altos de x. En los dos primeros diagramas que presentamos a continuación ilustramos ejemplos de una correlación positiva y una correlación negativa.

Dado que parte de la variación de las y's no puede exceder su variación total, (y - )² no puede ser mayor que (y - y)², y a partir de la fórmula que define r se deriva que los coeficientes de correlación deben caer en el intervalo de -1 a +1. Si todos los puntos en realidad caen en una línea recta, la suma residual de cuadrados, (y - )², es cero, ( - y)² = (y - y)², y el valor resultante de r, -1 o +1, es un indicio de un ajuste perfecto. No obstante, si la dispersión de los puntos es tal que la línea de mínimos cuadrados es una línea horizontal que coincide con y (es decir, una línea con una pendiente 0 que intersecta el eje de las y's en a = y), entonces (y - )² equivale a (y - y)² y r = 0. En ese caso, la variación de las y's no se puede atribuir en lo absoluto a su relación con x, y el ajuste es tan deficiente que el

29

conocimiento de x no es útil para pronosticar y. El valor pronosticado de y es y sin considerar x. Un ejemplo de esto aparece en el tercer diagrama de la figura 16.2.

Calcule r.

SoluciónCalculando primero las sumas necesarias, obtenemos x = 850, x² = 65,230 y =

927, y² = 74,883 y xy = 69,453. Entonces, sustituyendo estos valores junto con n = 12 en las formulas para Sxx, Syy, Sxy y finalmente r, encontramos que

Sxx = 65,230 - 1/12 (850)² = 5,021.67Syy = 74,883 - 1/12 (927)² = 3,272.25Sxy = 69,453 - 1/12 (850)(927) = 3,790.5

y

r = = 0.935

2.14. LA INTERPRETACIÓN DE r

Cuando r equivale a +1, -1 o 0, no hay ningún problema en cuanto a la interpretación del coeficiente de correlación. Como ya hemos indicado, es +1 o -1 cundo todos los puntos caen en realidad en una línea recta y es cero cuando el ajuste de la línea de mínimos cuadrados es tan deficiente que el conocimiento de x no es útil para el propósito de y. En general, la definición de r nos indica que 100r² es el porcentaje de la variación total de las y's que se explica por medio de la relación con x o es consecuencia de ésta.

La fórmula que define r demuestra claramente la naturaleza o la esencia del coeficiente de correlación, pero en la práctica real rara vez se usa para determinar su valor. Para derivar una fórmula de cálculo para r, primero sustituimos.

(y - y)² = Syy y ( - y)² = (Sxy)²/Sxx

de la página 461 en la fórmula para r², obteniendo

r² =

y por tanto que

Fórmula de cálculo para el coeficiente de correlación

Para tener una referencia fácil, recordemos al lector que

Sxx = x² - 1/n ( x)²

Syy = y² - 1/n ( y)²

ySxy = xy - 1/n ( x)( y)

30

EJEMPLO

Las siguientes son las calificaciones que 12 estudiantes obtuvieron en los exámenes finales de economía y antropología:

Economía Antropología516872975573957420917580

747088936773997333918086

Por sí misma, ésta es una importante medida de la relación entre dos variables. Por otro lado, permite comparaciones válidas de las fuerzas de varias relaciones. Por ejemplo si r = 0.80 es un estudio y r = 0.40 en otro estudio, sería incorrecto señalar que la correlación 0.80 es "dos veces tan buena" o "dos veces tan fuerte" como la correlación 0.40. Cuando r = 0.80, entonces 100(0.80)² = 64% de la variación de las y se atribuye a la relación con x y cuando r = 0.40, sólo 100(0.40)² = 16% de la variación de las y se atribuye a la relación con x. Por tanto, en el sentido del "porcentaje de variación que se atribuye a" podemos decir que la correlación 0.80 es cuatro veces tan fuerte como la correlación 0.40. Del mismo modo, decimos que una relación para la cual r = 0.60 es nueve veces tan fuerte como una relación para la que r = 0.20.

La interpretación del coeficiente de correlación presenta varios riesgos. Primero, a menudo se considera que r mide sólo la fuerza de relaciones lineales; por otro lado, se debe recordar que una correlación fuerte (un valor de r cercano a +1 o -1) no implica necesariamente una relación causa-efecto.

Si se calcular r en forma indiscriminada, por ejemplo, para los tres conjuntos de datos de la figura 16.3, obtenemos r = 0.75 en cada caso, pero ésta es una medida significativa de la fuerza de la relación sólo en el primer caso. En el segundo caso hay una relación curvilínea muy fuerte entre las dos variables y en el tercer caso seis de los siete puntos en realidad caen en la línea recta, pero el séptimo punto está tan alejado, que sugiere la posibilidad de un grave error de cálculo o un error en el registro de los datos. Así, antes de calcular r debemos ilustrar los datos para verificar si hay algún motivo para pensar que la relación es, de hecho, lineal.

El error de interpretar un valor alto de r( es decir, un valor cercano a +1 o -1, como un indicio de una relación causa-efecto, se explica mejor con algunos ejemplos. Un caso que se utiliza con frecuencia como una ilustración, es la alta correlación positiva entre las ventas anuales de goma de mascar y el índice de criminalidad en Estados Unidos. Es obvio que no podemos concluir que se pueden reducir los crímenes prohibiendo la venta de goma de mascar; ambas variables dependen del tamaño de la población y es esta relación mutua con una tercera variable (del tamaño de la población) la que genera una correlación positiva.

31

Fuente:AVILA R. (1998) Estadística Elemental Lima Estudios y

Ediciones RA.

Lectura 10: Correlación de Rangos, pp. 269-277

2.15. CORRELACIÓN DE RANGOS: COEFICIENTE DE CORRELACIÓN POR RANGOS

La correlación por rangos o de ordenamiento es un caso particular de la correlación rectilínea simple. El coeficiente de CORRELACIÓN POR RANGOS () se aplica para analizar la relación o afinidad de dos variables cuando sus valores, están expresados en números ordinales, representados por los números naturales 1,2,3,...,n.

Frecuentemente, se representan por tres tipos de problemas en los cuales es recomendable aplicar la correlación por rangos:

i) Cuando es imposible establecer una calificación mediante valores numéricos objetivos. Por ejemplo, en la calificación de una entrevista personal o un examen oral, donde la calificación varía según quien sea el examinador; si el mismo examinador hace dos pruebas o existen dos examinadores, es probable observar variaciones en los resultados. Otros ejemplos serían las calificaciones o puntajes otorgados por los jueces de un concurso de belleza; los puntajes obtenidos en una demostración de gimnasia, o de un concurso de baile, etc.

En la comparación de los rangos u ordenamientos establecidos por dos personas o jueces diferentes, encargados de ordenar o clasificar individuos o objetos según alguna característica, se trata de establecer en qué medida dos ordenaciones son parecidas, concordantes o contradictorias.

ii) Cuando se tiene datos observados en dos características que se pueden contar o medir objetivamente, cuyos valores se expresan en números naturales racionales y en sus propias unidades, pero se advierte o se deduce que entre las dos variables hay una relación de orden. Entonces, de acuerdo a la magnitud o valor es posible pasar de los datos originales (números cardinales) a valores ordinales o rangos 1,2,3,...,n. Por ejemplo, si los datos observados para 5 regiones son el porcentaje de población rural (X) y el nivel de educativo promedio (Y) que se expresan en números cardinales, entonces según sus valores es posible ordenarlos, como se indican a continuación:

Valores Originales Valores OrdinalesXi Yi ui vi

35.168.147.675.216.9

5.13.54.02.66.1

42315

24351

aquí interesa analizar si existe relación entre la proporción de población rural y el nivel educativo; por lógica se esperaría una relación inversa, como podría comprobarse cuando el lector calcule el coeficiente de correlación por rangos, puesto que los niveles educativos son más bajos en poblaciones rurales.

iii) Para analizar el grado de habilidad de una persona, para determinar la ordenación correcta de "n" individuos u objetos de acuerdo a la intensidad de una característica. Por ejemplo, presentar 6 objetos de la misma forma y de pesos ligeramente diferentes, luego someter a una persona a la prueba de ordenar en dos oportunidades los objetos según sus pesos, de mayor a menor peso, al final es probable que las dos ordenaciones tengan alguna variación, que se analiza por el Coeficiente de correlación por rangos (), cuyo valor indicará la habilidad de la persona para este trabajo de ordenación.

32

A. FORMULA PARA CALCULAR :

El análisis de la correlación por rangos determina si dos ordenamientos guardan relación o son coincidentes, o simplemente son discrepantes. Para determinar la magnitud de esta relación, se utiliza el COEFICIENTE DE CORRELACIÓN POR RANGOS () definido por:

= 1 -

fórmula deducida por C. Spearman (1904), donde:

di = ui - vi; la diferencia entre los rangos u ordenes de las variables X e Y.ui = orden asignado a la primera variable X.vi = orden asignado a la segunda variable Y.n = número de pares de valores ordenados.

El coeficiente por rangos () es una medida de la asociación de variables expresadas en es cala de tipo ordinal, de modo que entre los objetos o individuos estudiados puede establecerse un orden jerárquico para la series. Por ejemplo podemos ordenar n individuos según sus prejuicios de clase social (X) y según una escala de ingresos (Y), en este caso se ordenarían los valores de 1 a n.

B. PROPIEDADES DE :

1. Como los ordenamientos ui, vi son números enteros y positivos (números naturales), distintos, cuyos valores están comprendidos desde 1 a "n", ordenados de dos maneras, se tiene que:

M(ui) = M(vi); V(ui) = V(vi)

2. El coeficiente de correlación por rangos, también cumple la condición:

-1 + 1

de donde:Si = +1, entonces ambas ordenaciones o calificaciones son

coincidentes.Si = -1, entonces ambas ordenaciones o calificaciones son

perfectamente contrarias, discrepantes o de ordenación inversa.

Si = 0, significa que ambas correlaciones no tienen ninguna relación.

3. La relación o validez de las calificaciones u ordenaciones realizadas por dos jurados, en dos pruebas, etc., será más significativa en la medida que se acerca a 1.

33

Fuente:CORTADA, N. & CARRO, M. (1978) Estadística Aplicada. Buenos Aires. EUDEBA

Lectura 11: Otras Pruebas de Asociación, pp. 262-267

2.16. CORRELACIÓN BISERIAL POR PUNTOS

Proporciona una medida de la relación que puede haber entre una variable continua y una varia dicotomizada que se supone discreta o discontinua. Los datos se ordenan en una distribución de frecuencia y toman la forman de una tabla de R hileras y 2 columna. Por ejemplo las variables pueden ser puntajes en un test cualquiera y la variable dicotómica puede ser hombres, mujeres, estudiantes secundarios universitarios, niños que miren o no televisión, argentinos - extranjeros, etc. En la práctica la correlación biserial por puntos también se usa mucho cuando la variable subyacente a la dicotomía es también una variable continua de alguna aptitud, dicotomizada arbitrariamente. Este es el caso por ejemplo del coeficiente biserial por puntos usado en el análisis de ítem de un test cuando se interpreta que la aptitud para resolver un ítem es una variable continua pero se establece la dicotomía convencional de "acierto" o "desacierto". También así pueden considerarse el éxito o fracaso de una ocupación, es decir como la dicotomía de una variable continua que se extiende desde un logro acabado hasta un fracaso rotundo.

La correlación biserial por puntos (o puntual como algunos dicen) es una correlación por el producto de los momentos para un caso particular en que asignamos a los individuos un 1 en una categoría y un 0 en la otra. También podríamos darle otros valores que no fueran 1 y 0 es decir le podríamos asignar otros pesos a estos valores, pero el coeficiente no depende de los pesos asignados.

La fórmula es:

rpbi = Xp - Xq st

en donde,

st = desviación estándar de todos los puntajes de la variable continua.p y q = proporciones de los individuos en las dos categorías de la variable discontinua

o dicotomizada.

Otras pruebas de asociación

Xp y Xq = medias de los puntajes de la variable continua en las dos categorías.

Cuando los datos están agrupados en una distribución de frecuencias, es más útil la fórmula siguiente:

rpbi = Xp - Xt

st

en donde,

Xt = media de todos los puntajes de la variable continua. Sea por ejemplo el cuadro 10.16, en cuyos datos se estudian la correlación entre los puntajes totales de un test y el "éxito" o "fracaso" en resolver un ítem particular (situación muy común en el análisis de los ítem).

34

CUADRO 10.16

Puntaje en el testÍtem A Cálculo Xp Cálculo st

Fracasofp

Éxito fp

Total ft

X' fpx' ftx' ft x'²0-9

10-1920-2930-3940-4950-5960-6970-7980-89

90-

2 8 917 3 1

- - 3 3 91817 1 2 1

- 81220152118 1 21

-5-4-3-2-1 0 1 2 3 4

- --9-6-9 017 2 6 4

-10-32-36-40-15 018 2 6 4

50128108 80 15 018 4 18 16

46 54 100 5 -103 437

Otras pruebas de asociación en que la variable continua discrimina o diferencia entre las dos categorías de la variable dicotómica. (Ver Guilford, pág. 510 para demostración de que rpbi es una forma de r de Pearson).

2.16.1. Correlación tetracóricaEn esta correlación los datos se ordenan en una tabla de doble entrada de dos o sea de 4 celdas. Supone que ambas variables dicotomizadas son en realidad normales en su distribución, de tipo continuo y que están relacionadas en forma lineal. Es una estimación de correlación de Pearson por el producto de los momentos. El cálculo directo de la correlación tetracórica es complejo desde el punto de vista algebraico y trabajoso en cuanto a sus cómputos aritméticos. La ecuación completa para la r tetracórica (rt) es una serie que incluye varias potencias de r. Los primeros términos son:

rt + r²t zz' + r3t (z²-1)(z'²-1) +...+ ab-bc

2 6 y.y'N²

en donde a, b, c, d se refieren a las frecuencias de la tabla de doble entrada rt = correlación tetracórica.

z y z' son los valores en puntajes z correspondientes a la abscisa para los puntos correspondientes a p y q; y e y' son los valores correspondientes a la ordenada de la curva normal (tabla XII, apéndice B).

Para estimar aproximadamente los valores de rt no puede usar la fórmula anterior pues es muy complicado; por esto se han buscado diversos métodos y procedimientos aproximados. Uno de estos métodos es la fórmula del coseno de que en su forma matemática es:

rcos = cos

Como a los fines del cálculo puede considerarse igual a 180 grados, la forma de la ecuación es:

rcos = cos

Dividiendo el numerador por bc tenemos una fórmula más conveniente a los fines que es la siguiente:

35

p = 46/100 . 0,46q = 54/100 = 0,54Xt = Z + ftx' i = 54,5 + -103 10 = 44,20 N 100

Xp = 54,5 + 5/54 10 = 55,43

st = 10 = 18,19

rpbi = 55,43 - 44,20 . = 0,667

18,19

El coeficiente de correlación biserial por puntos no es independiente de las proporciones de las dos categorías. Cuando p = q = 0,50 sus valores máximo y mínimo diferirán de los mismos cuando p = 0,20 y q = 0,80. El valor máximo de rpbi nunca alcanza +1 ni -1. Al predecir una variable dicotomizada de una variable continua, la predicción es posible y se da cuando las dos distribuciones de frecuencia no se superponen. La predicción perfecta de una variable continua a partir de una variable dicotomizada en dos categorías es obviamente imposible. Siempre existe algún error en la predicción de una variable que puede tomar una gran gama de valores cuando se hace a partir de una variable que solo puede tener dos valores. La correlación biserial por puntos refleja este fenómeno. Vale la pena observar que la recta de regresión obtenida se calcula para las medias de dos columnas, por lo tanto debe forzosamente ser una recta, pues solo tenemos dos puntos.

La recta de regresión obtenida calculando las medias de las hileras no puede ser lineal excepto bajo ciertas circunstancias muy especiales. Para probar la significación de rpbi podemos considerar la situación como si quisiéramos comparar las dos medias Xp y Xq. El valor de t sería:

t = rpbi

Los grados de libertad son N - 2. Para los valores grandes de N podemos usar 1/ como error estándar de rpbi para probar la significación de su diferencia de 0. El coeficiente de correlación biserial por puntos puede interpretarse siempre como una medida del grado.

Recordemos que el coseno de un ángulo es la relación entre el catedo adyacente y la hipotenusa, es decir si el ángulo es POQ (ver figura 10.6) el coseno es igual a

cos = OQ OP

Así para un ángulo cuyos catedos miden 4m y 4m y la hipotenusa vale 5,6 m el coseno es igual a 4/5,6 = 0,71 que buscando en las tablas de los cosenos vemos que corresponde a un ángulo de 45° (ver tablas de un texto de trigonometría).

Por este método siempre que el ángulo resultante varía entre 90° y 180° la correlación es negativa. Como los ángulos mayores de 90 grados no suelen hallarse en las tablas trigonométricas comunes para los ángulos mayores de

36

90° se resta el valor hallado de 180°, se halla el coseno de la diferencia y se le coloca signo negativo. Existen ábacos muy útiles para hallar los coeficientes tetracóricos que son los de Thurstone (Chresire, Saffir and Thurstone, Computing Diagrams for the Tetrachoric Correlation Coefficient, Chicago University Press 1938).

Un substituto aproximado para éstos es la tabla IX del apéndice B, para la que solo se necesita conocer la relación ad/bc (o su valor recíproco bc/ad). Siempre hay que calcular la relación que da un valor mayor que 1, pero si se ha tenido que buscar bc/ad hay que darle al resultado un signo negativo.

2.16.2. Significación de la rt

La correlación tetracórica es menos segura que la correlación de Pearson, pues es por lo menos el 50 por ciento menos variable. La correlación tetracórica es más confiable cuando N es grande como sucede con casi todos los valores estadísticos y también cuando la división en dos categorías en cada variable es cercana a las medianas. La fórmula para estimar el error estándar de la correlación tetracórica es muy complicada pero cuando la rt = 0 la fórmula es:

srt =

para los datos del cuadro 10.17 sería

srt = = 0,053

rcos = = cos

Por ejemplo supongamos que tenemos que correlacionar los resultados de dos preguntas de un cuestionario de personalidad. Pregunta 1: ¿Le gusta a usted estar con mucha gente? Sí, No. Pregunta 2: ¿Le gusta a usted más trabajar con otras personas que solo? Sí, No. Supongamos que los resultados son los del cuadro 10.17.

CUADRO 10.17

Pregunta 1Si No Tot. Prop.

P Síreg. No

Tot.2Prop.

374(a)

169(b)

541 .582 (p)

186(c)

203(d)

389 .418 (q)

Pre

guta

2

560 370 930 1.000

.602(p')

.398(q')

1.000

Aplicando la fórmula (10.44) tenemos:

rcos = cos = cos 70,24° = 0,343

37

En este método es bueno recordar que b y c representan los casos de signo contrario, y a y d los casos de igual signo. Cuando se substituye por los números nos hallamos con una expresión que es un valor de un ángulo en términos de grados de la circunferencia. El coseno de este ángulo es la estimación de rt. El ángulo variará entre 0 y 180 grados. En el primer caso (0°) la correlación es de +1; en el segundo caso, cuando el ángulo valga 180°, rt = -1. Cuando el producto bc = ad el ángulo es de 90° cuyo coseno es 0.

38

Fuente: ALARCON, R. (1991). Métodos y Diseños de Investigación del

Comportamiento. Lima. Fondo Editorial. Universidad Peruana Cayetano Heredia.

Lectura 12: Validez, 288-298

2.17. VALIDEZ

¿Hasta qué punto podemos tener seguridad que hemos medido el atributo que pretendíamos medir? Si nuestro propósito fue determinar el peso de un objeto y llevado a la balanza arroja 10 kg., podemos afirmar que el objeto pesa 10 kg. La misma afirmación plena podemos hacer cuando medimos algún atributo físico de los individuos. No habrá reparos sobre las medidas tomadas de la talla, el peso y la temperatura de una persona. Los instrumentos de medición que se utilizan (metro, balanza y termómetro) guardan íntima relación con el atributo que se mide; es decir, son apropiados para medir aquellas dimensiones.

Empero, si el propósito fue medir alguna variable psicológica, v.g., neuroticismo y para ello utilizamos el test "N" de neuroticismo, la seguridad respecto del resultado no es tan plena como en el caso de la medición de las propiedades físicas, no obstante que el test lleva el nombre del rasgo por medir. La denominación de un test no es una razón suficiente de seguridad. El problema es de congruencia entre el instrumento de medida y la propiedad medible, vale decir, que el test mida realmente la conducta que se propone medir. El concepto de validez conlleva, en efecto, la idea de correspondencia entre el instrumento de medida y la propiedad que se mide. De manera que, un test será válido si mide el atributo para el cual fue construido. El test de "neuroticismo", que nos sirve de ejemplo, será válido si mide la conducta neurótica, y no otra. Obsérvese que la validez es un concepto específico, en el sentido de que un test que presenta esta cualidad puede ser altamente válido como instrumento de medición de una determinada conducta y solamente de ella.

39

Fuente: HERNANDEZ R. (1991) Metodología de la Investigación. México

D.F. McGRAW-HILLLectura 13: Qué requisitos debe cubrir un instrumento de medición? (Debate en clase) pp. 242-263

2.18. ¿QUÉ REQUISITOS DEBE CUBRIR UN INSTRUMENTO DE MEDICIÓN?

Toda medición o instrumento de recolección de los datos debe reunir dos requisitos esenciales: confiabilidad y validez. La confiabilidad de un instrumento de medición se refiere al grado en que su aplicación repetida al mismo sujeto u objeto, produce iguales resultados. Por ejemplo, si yo midiera en este momento la temperatura ambiental mediante un termómetro y me indicara que hay 22°C. Un minuto más tarde consultara otra vez y el termómetro me indicara que hay 5°C. Tres minutos después observara el termómetro y ahora me indicara que hay 40°C. Este termómetro no sería confiable (su aplicación repetida produce resultados distintos). Igualmente, si una prueba de inteligencia la aplico hoy a un grupo de personas y me proporciona ciertos valores de inteligencia; la aplico un mes después y me proporciona valores diferentes, al igual que en subsecuentes mediciones. Esa prueba no es confiable (analícense los valores de la figura 9.1 suponiendo que los coeficientes de inteligencia puedan oscilar entre 95 y 150). Los resultados no son consistentes, no se puede "confiar" en ellos.

Figura 91.

EJEMPLO DE RESULTADOS PROGRAMADOS PORUN INSTRUMENTO DE MEDICIÓN SIN CONFIABILIDAD

PRIMERA APLICACIÓN

SEGUNDAAPLICACIÓN

TERCERAAPLICACIÓN

MarthaLauraArturoLuisMarcoRosa MaríaChesterTeresa

130125118112110110108107

LauraLuisMarcoArturoChesterTeresaMarthaRosa María

131130127120118118115107

LuisTeresaMarthaRosa MaríaLauraChesterArturoMarco

140129124120109108103101

La confiabilidad de un instrumento de medición se determina mediante diversas técnicas, las cuales se comentarán brevemente después de revisar el concepto de validez.

La validez, en términos generales, se refiere al grado en que un instrumento realmente mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia válido debe medir la inteligencia y no la memoria. Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de Literatura histórica. Aparentemente es sencillo lograr la validez. Después de todo - como dijo un estudiante - "pensamos en la variable y vemos cómo hacer preguntas sobre esa variable". Esto sería factible en unos cuantos casos (como lo sería el "sexo" de una persona). Sin embargo, la situación no es tan simple cuando se trata de variables como la motivación, la calidad de servicio a los clientes, así como diversas variables con las que trabajamos en ciencias sociales. La validez es una cuestión más compleja que debe alcanzarse en todo instrumento de medición que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la validez: ¿Está usted midiendo lo que usted cree que está midiendo? Si es así, su medida es válida; si no, no lo es.

La validez es un concepto del cual pueden tenerse diferentes tipos de evidencia (Wiersma, 1986; Gronfund, 1985): 1)evidencia relacionada con el contenido, 2)evidencia relacionada con el criterio y 3)evidencia relacionada con el constructo. Hablemos de cada una de ellas.

40

1. Evidencia relacionada con el contenidoLa validez de contenido se refiere al grado en que un instrumento refleja un dominio específico de contenido de lo que se mide. Es el grado en que la medición representa al concepto medido (Bohrnstedt, 1976). Por ejemplo, una prueba de operaciones aritméticas no tendrá validez de contenido si incluye solo problemas de resta y excluye problemas de suma, multiplicación o división (Carmines y Zeklter, 1979). O bien, una prueba de conocimientos sobre las canciones de "Los Beatles" no deberá basarse solamente en sus álbumes "Let it Be" y "Abbey Road", sino que debe incluir canciones de todos sus discos.

Un instrumento de medición debe contener representados a todos los items del dominio de contenido de las variables a medir. Este hecho se ilustra en la figura 9.2.

2. Evidencia relacionada con el criterio

La validez de criterio establece la validez de un instrumento de medición comparándola con algún criterio externo. Este criterio es un estándar con el que se juzga la validez del instrumento (Wiersma, 1986). Entre los resultados del instrumento de medición se relacionen más el criterio, la validez del criterio será mayor. Por ejemplo, un investigador valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen predice qué tan bien un grupo de pilotos puede operar un aeroplano.

Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos partidos contendientes, puede validarse aplicando tres o cuatro días antes de la elección y sus resultados compararlos con los resultados finales de la elección (si no hay fraude - desde luego).

Si el criterio se fija en el futuro, se habla de validez predictiva. Por ejemplo, un prueba para determinar la capacidad administrativa de altos ejecutivos se puede validar comparando sus resultados con el futuro desempeño de los ejecutivos medidos.

3. Evidencia relacionada con el constructo

La validez de constructo es probablemente la más importante sobre todo desde una perspectiva científica y se refiere al grado en que una medición se relaciona consistentemente con otras mediciones de acuerdo con hipótesis derivadas teóricamente que conciernen a los conceptos (o constructos) que están siendo medidos. Un constructo es una variable medida y que tiene lugar dentro de una teoría o esquema teórico.

Por ejemplo, supongamos que un investigador desea evaluar la validez del constructo de una medición particular, digamos una escala de motivación intrínseca "el Cuestionario de Reacción a Tareas", versión mexicana (Hernández - Sampieri Cortés, 1982). Estos autores sostienen que el nivel de motivación intrínseca hacia una tarea está relacionado positivamente con el grado de persistencia adicional en el desarrollo de la tarea (v.g., los empleados con mayor motivación intrínseca son los que suelen quedarse más tiempo adicional una vez que concluye su jornada). Consecuentemente, la predicción teórica es que a mayor motivación intrínseca, mayor persistencia adicional en la tarea. El investigador administra dicho cuestionario de motivación intrínseca a un grupo de trabajadores y también determina su persistencia en el trabajo. ambas mediciones son correlacionadas. Si la correlación o positiva y sustancia, se aporta evidencia para la validez de constructo del Cuestionario de Reacción a Tareas, versión mexicana (a la validez para medir la motivación intrínseca).

La validez de constructo incluye tres etapas:

a. Se establece y específica la relación teórica entre los conceptos (sobre la base del marco teórico).

b. Se correlacionan ambos conceptos y se analiza cuidadosamente la correlación.

41

c. Se interpreta la evidencia empírica de acuerdo a qué tanto clarifica la validez de constructo de una medición en particular.

El proceso de validación de un constructo está vinculado con la teoría. No es posible llevar a cabo la validación de constructo, a menos que exista un marco teórico que soporte a la variable en relación con otras variables. Desde luego, no es necesario una teoría sumamente desarrollada, pero si investigaciones que hayan demostrado que los conceptos están relacionados. Entre más elaborado y comprobado se encuentre el marco teórico que apoya la hipótesis, la validación de constructo puede arrojar mayor luz sobre la validez de un instrumento de medición. Y mayor confianza tenemos en la validez de constructo de una medición, cuando sus resultados se correlacionan significativamente con un mayor número de mediciones de variables que teóricamente y de acuerdo con estudios antecedentes están relacionadas.

Para analizar las posibles interpretaciones de evidencia negativa en la validez de constructo, se sugiere consultar a Cronbach y Meehl (1955) y Cronbach (1984).

VALIDEZ TOTAL = VALIDEZ DE CONTENIDO + VALIDEZ DE CRITERIO + VALIDEZ DE CONSTRUCTO

Así, la validez de un instrumento de medición se evalúa sobre la base de tres tipos de evidencia. Entre mayor evidencia de validez de contenido, validez de criterio y validez de constructo tenga un instrumento de medición, éste se acerca más a representar la variable o variables que pretende medir.

Cabe agregar que un instrumento de medición puede ser confiable pero no necesariamente válido (un aparato - por ejemplo - puede ser consistente en los resultados que produce, pero no medir lo que pretende). Por ello es requisito que el instrumento de medición demuestre ser confiable y válido. De no ser así, los resultados de la investigación no los podemos tomar en serio.

FACTORES QUE PUEDEN AFECTAR LA CONFIABILIDAD Y VALIDEZ

Hay diversos factores que pueden afectar la confiabilidad y la validez de los instrumentos de medición.

El primero de ellos es la improvisación. Algunas personas creen que elegir un instrumento de medición a desarrollar uno es algo que puede tomarse a la ligera. Incluso algunos profesores piden a los alumnos que construyan instrumentos de medición de un día para otro, o lo que es casi lo mismo, de una semana a otra. Lo cual habla del poco o nulo conocimiento del proceso de elaboración de instrumentos de medición. Esta improvisación genera - casi siempre - instrumentos poco válidos o confiables y no debe existir en la investigación social (menos aún en ambientes académicos). Aún o los investigadores experimentados les toma tiempo desarrollar un instrumento de medición. Es por ello que los construyen con cuidado y frecuentemente están desarrollándolos, para que cuando lo necesiten con premura se encuentren preparados para aplicarlos, pero no los improvisan. Además, para poder construir un instrumento de medición se requiere conocer muy bien a la variable que se pretende medir y la teoría que lo sustenta. Por ejemplo, generar - o simplemente seleccionar - un instrumento que mida la inteligencia, la personalidad o los usos y gratificaciones de la televisión para el niño, requiere amplios conocimientos en la materia, estar actualizados al respecto y revisar cuidadosamente la literatura correspondiente.

El segundo factor es que a veces se utilizan instrumentos desarrollados en el extranjero que no han sido validados a nuestro contexto cultura y tiempo. Traducir un instrumento - aun cuando adaptemos los términos a nuestro lenguaje y los contextualicemos - no es de ninguna manera (ni remotamente) validarlo. Es un primero y necesario paso, pero sólo es el principio. Por otra parte, hay instrumentos que fueron validados en nuestro contexto pero hace mucho tiempo. Hay instrumentos que hasta el lenguaje nos suena "arcaico". Las culturas, los grupos y las personas cambian; y esto debemos tomarlo en cuenta al elegir o desarrollar un instrumento de medición.

42

Un tercer factor es que en ocasiones el instrumento resulta inadecuado para las personas a las que se les aplica: no es empático. Utilizar un lenguje muy elevado para el respondiente, no tomar en cuenta diferencias en cuanto a sexo, edad, conocimientos, capacidad de respuesta, memoria, nivel ocupacional y educativo, motivación para responder y otras diferencias en los respondientes, son errores que pueden afectar la validez y confiabilidad del instrumento de medición.

Un cuarto factor que puede influir está constituido por las condiciones en las que se aplica el instrumento de medición. Si hay ruido, hace mucho frío (por ejemplo en una encuesta de casa en casa), el instrumento es demasiado largo o tedioso, son cuestiones que pueden afectar negativamente la validez y la confiabilidad. Normalmente en los experimentos se puede contar con instrumentos de medición más largos y complejos que en los diseños no experimentales. Por ejemplo, en una encuesta pública sería muy difícil poder aplicar una prueba largo o compleja.

Por otra parte, aspectos mecánicos tales como que si el instrumento es escrito, no se lean bien las instrucciones, falten páginas, no haya espacio adecuado par contestar, no se comprendan las instrucciones, también pueden influir de manera negativa.

2.19. ¿CÓMO SE SABE SI UN INSTRUMENTO DE MEDICIÓN ES CONFIABLE Y VÁLIDO?

En la práctica imposible que una medición sea perfecta. Generalmente se tiene un grado de error. Desde luego, se trata de que este error sea el número posible. Es por eso que la medición de cualquier fenómeno se conceptualiza con la siguiente fórmula básica:

X = t + e

Donde "X" representa los valores observados (resultados disponibles), "t" son los valores verdaderos y "e" es el grado de error en la medición. Si no hay error de medición ("e" es igual a cero), el valor observado y el verdadero son equivalentes. Esto puede verse claramente así:

X = t + 0X = t

Esta situación representa el ideal de la medición. Entre mayor sea el error al medir, el valor que observamos (y que es en el que nos basamos) se aleja más el valor real o verdadero. Por ejemplo, si medimos la motivación de un individuo y esta medición está contaminada por un grado de error considerable, la motivación registrada por el instrumento será bastante diferente de la motivación real que tiene ese individuo. Por ello es importante que el error sea reducido lo más posible. Pero, ¿cómo sabemos el grado de error que tenemos en una medición? Calculando la confiabilidad y validez.

CALCULO DE LA CONFIABILIDAD

Existen diversos procedimientos para calcular la confiabilidad de un instrumento de medición. Todos utilizan fórmulas que producen coeficientes de confiabilidad. Estos coeficientes pueden oscilar entre 0 y 1. Donde un coeficiente de 0 significa nula confiabilidad y 1 representa un máximo de confiabilidad (confiabilidad total). Entre más se acerque el coeficiente a cero (0), hay mayor error en la medición. Esto se ilustra en la figura 9.4.

FIGURA 9.4.

43

INTERPRETACIÓN DE UN COEFICIENTE DE CONFIABILIDAD

CONFIABILIDAD

MUY BAJA BAJA REGULAR ACEPTABLE ELEVADA

00% de confiabilidad en la medición la medición (la medición está contaminada de error)

100% de confiabilidad en la medición (no hay error)

Los procedimientos más utilizados para determinar la confiabilidad mediante un coeficiente son:

1. Medida de estabilidad (confiabilidad por tes-retest). En este procedimiento un mismo instrumento de medición (o items o indicadores) es aplicado dos o más veces a un mismo grupo de personas, después de un período de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se trata de una especie de diseño panel. Desde luego, el período de tiempo entre las mediciones es un factor a considerar. Si el periodo es largo y la variable susceptible de cambios, ello puede confundir la interpretación del coeficiente de confiabilidad obtenido por este procedimiento. Y si el periodo es corto las personas pueden recordar cómo contestaron en la primera aplicación del instrumento, para aparecer como más consistentes de lo que son en realidad (Bohrnstedt, 1976).

2. Método de formas alternativas o paralelas. En este procedimiento no se administra el mismo instrumento de medición, sino dos o más versiones equivalentes de éste. Las versiones son similares en contenido, instrucciones, duración y otras características. Las versiones - generalmente dos - son administradas a un mismo grupo de personas dentro de un período de tiempo relativamente corto. El instrumento es confiable si la correlación entre los resultados de ambas administraciones es significativamente positiva. Los patrones de respuesta pueden variar poco entre las aplicaciones.

3. Método de mitades partidas (split-halves). Los procedimientos anteriores (medida de estabilidad y método de formas alternas), requieren cuando menos dos administraciones de la medición en el mismo grupo de individuos. En cambio, el método de mitades-partidas requiere sólo una aplicación de la medición.

Específicamente, el conjunto total de items (o componentes) es dividido en dos mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un individuo con baja puntuación es una mitad, tenderá a tener también una baja puntuación en la otra mitad. El procedimiento se diagrama en la figura 9.5.

La confiabilidad varía de acuerdo al número de items que incluya el instrumento de medición. Cuantos más items la confiabilidad aumenta (desde luego, que se refieran a la misma variable). Esto resulta lógico, veámoslo con un ejemplo cotidiano: Si se desea probar qué tan confiable o consistente es la lealtad de un amigo hacia nuestra persona, cuantas más pruebas le pongamos, su confiabilidad será mayor. Claro está que demasiados items provocarán cansancio en el respondiente.

4. Coeficiente alfa de Cronbach. Este coeficiente desarrollado por J.L. Cronbach requiere una sola administración del instrumento de medición y produce valores que oscilan entre 0 y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los items del instrumento de medición, simplemente se aplica la medición y se calcula el coeficiente.

44

5. Coeficiente KR-20. Kuder y Richardson (1973) desarrollaron un coeficiente para estimar la confiabilidad de una medición, su interpretación es la misma que la del coeficiente alfa.

CALCULO DE LA VALIDEZ

La validez de contenido es compleja de obtener. Primero, es necesario revisar cómo ha sido utilizada la variable por otros investigadores. Y en base a dicha revisión elaborar un universo de items posibles para medir la variable y sus dimensiones (el universo tiene que ser lo más exhaustivo que sea factible). Posteriormente, se consulta con investigadores familiarizados con la variable para ver si el universo es exhaustivo. Se seleccionan los items bajo una cuidadosa evaluación. Y si la variable tiene diversas dimensiones o facetas que la componen, se extrae una muestra probabilística de items (ya sea al azar o estratificada - cada dimensión constituiría un estrato -). Se administran los items, se correlacionan las puntuaciones de los items entre si (debe haber correlaciones altas, especialmente entre items que miden una misma dimensión) (Bohrnstedt, 1976), y se hacen estimaciones estadísticas para ver si la muestra es representativa. Para calcular la validez de contenido son necesarios varios coeficientes.

La validez de criterio es más sencilla de estimar, lo único que hace el investigador es correlacionar su medición con el criterio, y este coeficiente es el que se toma como coeficiente de validez (Bohrnstedt, 1976). Esto podría representarse así:

MediciónCorrelación

La validez de constructo se suele determinar mediante un procedimiento denominado "Análisis de Factores". Su aplicación requiere de sólidos conocimientos estadísticos y del uso de un programa estadístico apropiado en computadora. Para quien desee compenetrarse con esta técnica recomendamos consultar a Harman (1967), Gorsuch (1974), Nie et al. (1975), On-Kim y Mueller (178a y 1976b) y Hunter (1980). Asimismo, para aplicarlos se sugiere revisar a Nie et al. (1975), Cooper y Curtis (1976) y - en español - Padua (1979). Aunque es requisito conocer el programa estadístico para computadora.

45

Criterio

Fuente:ALARCON, R. (1991) Métodos y Diseños de Investigación del

Comportamiento. Lima. Fondo Editorial. Universidad Peruana Cayetano Heredia

Lectura 14: Confiabilidad, pp. 300-301

2.20. CONFIABILIDAD

El concepto de "confiabilidad de un test hace referencia a la consistencia de los puntajes obtenidos por un mismo grupo de sujetos en una serie de mediciones tomadas con el mismo test. Según esta idea, la "confiabilidad" denota estabilidad y constancia de los puntajes, esperándose que no presenten variaciones significativas en el curso de una serie de aplicaciones del test. Desde otro punto de vista, la confiabilidad se refiere al grado de varianza de las mediciones atribuible a fuentes de error. Se puede preguntar, ¿hasta qué punto los puntajes obtenidos están libres de error de medición? De acuerdo con estos enfoques, la confiabilidad de un test puede expresarse en términos de "coeficientes de confiabilidad", esto es, la correlación entre dos mediciones obtenidas de la misma manera, y en términos del "error estándar de la medición" (Cronbach, 1960; "Standars", 1974). Ambos enfoques serán examinados en esta exposición.

La confiabilidad definida en términos de la "constancia" temporal de las puntuaciones de un test, se basa en la idea que algunas características psicológicas, p.e., habilidades y rasgos de personalidad, son relativamente estables en el tiempo; no experimentan variaciones significativas en tiempos más o menos breves, requeridos para observar la consistencia de una serie de mediciones con el mismo test. La constancia de las puntuaciones se puede observar mediante: (a)el "coeficiente de estabilidad", que conlleva tomar medidas de la misma conducta con el mismo instrumento; y (b)el "coeficiente de equivalencia", que mide la constancia de los puntajes utilizando en la segunda aplicación una forma paralela al test original. La estrategia de las pruebas paralelas o equivalentes, supera los problemas que surgen de la primera aplicación, como el aprendizaje residual que favorece el rendimiento en la segunda medición. Un tercer grupo (c) de coeficientes de confiabilidad, denominados "coeficientes de consistencia interna", están orientados a estimar el grado en que los reactivos de un test están interrelacionados y miden una misma característica. Suele utilizarse el término "homogeneidad" para referirse a las estimaciones de consistencia que se ocupan principalmente de la estructura interna de un test (Brown, 1980). Sumarizando, los coeficientes (a) y (b) enfocan la confiabilidad por la consistencia de las puntuaciones, en tanto que los índices de homogeneidad (c) se refieren a la estructura interna del test. En este sentido, una prueba psicológica será más homogénea cuando la correlación promedio entre los reactivos es alta, anunciando que los reactivos tienden a medir el mismo rasgo. En tanto que, la confiabilidad de un reactivo puede expresarse en función de la interrelación promedio entre ese reactivo y todos los demás del dominio (Brown, 1980, p.104).

2.21. ¿QUÉ PROCEDIMIENTO SE PARA CONSTRUIR UN INSTRUMENTO DE MEDICIÓN?

Existen diversos tipos de instrumentos de medición, cada uno con características diferentes. Sin embargo, el procedimiento general para construirlos es semejante. Antes de comentar este procedimiento, es necesario aclarar que en una investigación hay dos opciones respecto al instrumento de medición:

1. Elegir un instrumento ya desarrollado y disponible, el cual se adapta a los requerimientos del estudio en particular.

2. Construir un nuevo instrumento de medición de acuerdo con la técnica apropiada para ello.

En ambos casos es importante tener evidencia sobre la confiabilidad y validez del instrumento de medición.

46

El procedimiento que sugerimos para construir un instrumento de medición es el siguiente, especialmente para quien se inicia en esta materia.

PASOS

a. LISTAR LAS VARIABLES que se pretende medir u observar.b. REVISAR SU DEFINICIÓN CONCEPTUAL Y COMPRENDER SU SIGNIFICADO. Por

ejemplo, comprender bien qué es la motivación intrínseca y qué dimensiones la integran.c. REVISAR COMO HAN SIDO DEFINIDAS OPERACIONALMENTE LAS VARIABLES,

esto es, cómo se ha medido cada variable. Ello implica comparar los distintos instrumentos o maneras utilizadas para medir las variables (comparar su confiabilidad, validez, sujetos a las cuales se les aplicó, facilidad de administración, veces que las mediciones han resultado exitosas y posibilidad de uso en el contexto de la investigación).

d. ELEGIR EL INSTRUMENTO O LOS INSTRUMENTOS (YA DESARROLLADOS) QUE HAYAN SIDO FAVORECIDOS POR LA COMPARACIÓN Y ADAPTARLOS AL CONTEXTO DE LA INVESTIGACIÓN. En este caso sólo deben seleccionarse instrumentos cuya confiabilidad y validez se reporte. No se puede uno fiar de una manera de medir que carezca de evidencia clara y precisa de confiabilidad y validez. Cualquier investigación sería reportada la confiabilidad y validez de su instrumento de medición. Recuérdese que la primera varía de 0 a 1 y para la segunda se debe mencionar el método utilizado de validación y su interpretación. De no ser así no podemos asegurar que el instrumento sea el adecuado. Si se selecciona un instrumento desarrollado en otro país, deben hacerse pruebas piloto más extensas (véase el paso G). También, no debe olvidarse que traducir no es validar un instrumento, por muy buena que sea la traducción.

El concepto de validez avanza hacia problemas mayores. El propósito del constructor del test "N" fue medir neuroticismo y para ello desarrolló un conjunto bien logrado de reactivos de acuerdo a procedimientos técnicos. Ahora bien, ¿habrá aún reparos que impidan afirmar que dicho test es válido para medir el atributo propuesto? Naturalmente, resulta lícito preguntar por la construcción teórica acerca de la conducta neurótica que ha utilizado el constructor, sobre la que se apoya el test. Esta cuestión nos lleva a examinar el alcance de la propuesta teórica acerca de la naturaleza del atributo por medir. El problema es de fondo, ya se dijo en otro lugar, que uno de los problemas de la unidad de la medición psicológica es que existen diferentes formulaciones teóricas sobre una misma conducta.

En suma: el concepto de validez comprende dos problemas sustantivos: (a)el de la congruencia entre el instrumento de medida y el atributo por medir; y (b)la postulación de un concepto teórico, expresado en términos operacionales, que condensen la composición intrínseca del atributo. Los procedimientos para establecer la validez son numerosos y a menudo han recibido variadas denominaciones. Según los "Standards for Educational and Psychological Testing" (1985), se distinguen tres clases de validez: validez de contenido, validez relacionada con criterios (empírica) y validez de constructo. Cada una de estas clases de validez serán examinadas en las páginas que siguen.

Validez de contenido

Una prueba posee "validez de contenido" cuando los items que la integran constituyen una muestra representativa de los indicadores de la propiedad que se mide. Dicho en otros términos, que el test sea un adecuado muestreo del contenido que se examina. Por ejemplo, la validez de contenido de un test de rendimiento escolar podrá determinarse analizando la correspondencia de sus items guardan con los temas que cubre la asignación. La prueba deberá reflejar el énfasis que el programa escolar otorga a ciertos temas, así como a los objetivos instrumentales que el currículum persigue. Obviamente, la prueba carecerá de validez de contenido si excluye algunos puntos programáticos o sus items reflejan un muestreo inadecuado de los conocimientos y destrezas que se han propuesto como objetivos.

Para asegurar que un test constituye un buen muestreo del universo de asuntos que se pretende examinar, los constructores de tests educacionales utilizan tablas de especificaciones,

47

en las cuales se indican expresamente el número de items que se tendrá que elaborar para examinar los "contenidos" de la asignatura y los "objetivos" de aprendizaje que se persiguen. Estas especificaciones son precedidas por un estudio minucioso del universo del contenido y de las conductas que el proceso de enseñaza-aprendizaje se ha propuesto desarrollar. Un test educacional evalúa ambos objetivos.

La verificación de la validez de contenido de una prueba educacional no encierra dificultades, sobre todo porque se dispone de fuentes empíricas (programa escolar, textos utilizados en la enseñanza, objetivos de instrucción expresos), que facilitan la validación de contenido del test. Empero, en pruebas que miden variables psicológicas, la validez de contenido afronta serios problemas. Anastasi observa que "el contenido de los tests de aptitud y de personalidad apenas sirve más que para revelar la hipótesis que llevó a elaborador del test a escoger un determinado contenido para medir un rasgo específico. Hay que confirmar empíricamente estas hipótesis para establecer la validez del test" (Anastasi, 1974, p.107). Puesto que la validez de contenido resulta intrínseca a la teoría que sobre el atributo postula el constructor, es probable, y de hecho se dan casos notorios, que distintos expertos no estén de acuerdo con la hipótesis en que se basa un test, ni con las posibles características que se señalan como indicadores relevantes de la conducta por medir. En estas circunstancias, no es posible afirmar acerca de la validez de contenido de un test psicológico como se hace con los tests educacionales.

Para establecer la validez de contenido se requiere, en suma, que se defina con precisión el comportamiento que se trata de medir y que se incluya en el test una muestra representativa de los indicadores relevantes del comportamiento. En la práctica, anota Kerlinger (1975), la validación de contenido es básicamente cuestión de "juicio"; efectivamente, a diferencia de otros tipos de validez que son determinados por coeficientes de correlación, la validez de contenido es verificada por jueces expertos quienes evalúan la representatividad de los indicadores de la conducta que se mide, buscando establecer si representan el universo del contenido de esa conducta y la relevancia de los items para medir tales indicadores. El constructor del test ofrecerá a los jueces claras especificaciones acerca de lo que juzgarán. No es, pues, tarea fácil satisfacer el concepto de validez de contenido tratándose de tests psicológico.

Validez relacionada con criterios

La "validez relacionada con criterio" se define por la eficacia de un test para predecir una conducta en situaciones específicas. Para determinar este tipo de validez se requiere comparar los puntajes obtenidos en el test con un "criterio externo", que evalúe por otros medios el rasgo que el test pretende medir. El grado de relación entre el test y el criterio se determina mediante el cálculo de coeficientes de correlación. Una alta correlación anunciará una elevada correspondencia entre el test y el criterio y, por tanto, una significativa validez del instrumento; mutatis mutandis, la baja correlación indicará pobre validez del test. Lo que busca la validez de criterio es probar la eficacia del test confrontando sus resultados con la actuación del sujeto en la experiencia real. Un tests de aptitud académica posee validez cuando los postulantes que obtuvieron altos puntajes en el examen de selección, obtienen altas notas en sus estudios universitarios.

a. Validez predictiva. De acuerdo con nuestro ejemplo, la decisión acerca de la validez de un test se juzga por la calidad del rendimiento obtenido por el sujeto examinando en un tiempo posterior al que fue aplicado el test. Se asume que si la predicción enunciada por el test corresponde a lo esperado, el test es válido. El conocimiento de la validez por este procedimiento requiere de un estudio de seguimiento puesto que el valor del test se comprueba en el futuro. Los criterios externos usuales para determinar la capacidad predictiva de los test son los siguientes:

i) Comparación con el rendimiento en un entrenamiento especializado

La validez de los test de aptitudes especiales frecuentemente se basa en el rendimiento del sujeto en una asignatura o entrenamiento especializado. Un test de aptitud mecánica suele validarse por el rendimiento alcanzado por los

48

estudiantes en un curso de taller. Muchos tests de aptitudes profesionales han sido validados por la comparación entre los puntajes obtenidos en el test y el aprovechamiento en las facultades de ingeniería, educación, odontología. El éxito o el fracaso en el aprendizaje especializado se toman como índices de la validez del tes.

ii) Comparación con el rendimiento en el ejercicio de un trabajo

En muchos casos el tipo más satisfactorio de criterio de evaluación se basa en el rendimiento logrado en el ejercicio del trabajo, puesto que la situación de aprendizaje no es siempre igual que la ejecución de la función misma. Este criterio ha sido utilizado en la validación de tests de inteligencia, personalidad y muy ampliamente en tests de aptitudes profesionales e inventarios vocacionales. Un amplio número de criterio pueden escogerse como medidas de rendimiento en el trabajo: cantidad y calidad de la ejecución, accidentes en el trabajo, ascensos, estabilidad y, en términos generales, éxito o fracaso. Obviamente, este criterio de validación requiere mucho tiempo para completar la información; se observa, asimismo, que tanto el éxito como el fracaso ocupacional dependen de otros factores que rebasan la conducta evaluada y que invalidan el criterio.

iii) Comparación con el aprovechamiento académico

Es un criterio de uso extendido en la validación de tests de inteligencia verbal y de aptitudes académicas. Estas pruebas ponen en actividad funciones intelectuales requeridas para el trabajo escolar o académico. Se considera que un test de este tipo es buen predictor si correlaciona alto con el rendimiento en los estudios. Suele utilizarse como criterio de rendimiento, las notas de aprovechamiento y los juicios de los maestros sobre el rendimiento intelectual de los estudiantes. Tales criterios no son siempre objetivos ni precisos y a menudo no revelan el rendimiento real. Para atribuir valor a las notas escolares será preciso conocer el tipo de evaluación que se utiliza para apreciar el rendimiento. Una buena práctica consiste en utilizar el promedio de rendimiento obtenido mediante exámenes objetivos.

La validez predictiva provee un modelo adecuado para la validación de tests utilizados en la selección de personal para puestos de trabajo, selección de estudiantes o estudios universitarios y para inventarios de intereses vocacionales. En todos estos casos el uso de tests implica algún grado de predicción. Regularmente, este tipo de validez lleva implicaciones prácticas. En efecto, un test con alta capacidad predictiva se utiliza para tomar decisiones, v.gr.: un postulante a estudios universitarios con bajo puntaje en la prueba de aptitud académica, no es admitido; lo mismo ocurre en la selección de personal en la industria. Cuando menos es un juicio importante.

b. Validez concurrente. La validez predictiva necesita un intervalo de tiempo para inferir la validez de un test. Empero, cuando se hace necesario, con alguna urgencia, disponer de información empírica sobre una prueba, la "validez concurrente" se presenta como un buen sustituto. Su determinación conlleva aplicar el test a un grupo de sujetos de quienes se tiene información relevante. Por ejemplo, la validez de un test de inteligencia verbal se puede establecer, comparando sus puntajes con las notas escolares disponibles, del grupo examinado.

La "validez concurrente" no es siempre una solución de compromiso, tiene valor por sí misma en la validación de tests utilizados en el diagnóstico. A menudo, los tests de diagnóstico clínico son comparados con los juicios hechos por el psiquiatra que trata al paciente. En este caso, la validez concurrente no se diferencia de la predictiva en razón al tiempo, sino por el objetivo que persigue. Según Anastasi la validez concurrente resulta apropiada en la validación de tests empleados para el diagnóstico de la situación actual, más que para la predicción de situaciones futuras (Anastasi, 1974, p. 110). Este tipo de comprobación empírica es denominada validación concurrente porque las dos

49

fuentes de información son obtenidas al mismo tiempo. Entre los criterios externos para determinar la validez concurrente se utilizan los procedimiento que más abajo se indican.

i) Validación por contrastación con grupos definidos

Esta técnica de validación asume que la propiedad medida por el test debe destacarse en un grupo característico de sujetos, para considerar válida la prueba. Los grupos que sirven para establecer las comparaciones son seleccionados en atención a diversos puntos de vista. Para determinar la validez de un test de aptitud para ingeniería, se administra a un grupo de estudiantes de esta carrera. Grupos ocupacionales definidos han servido de base para establecer la validez de pruebas de intereses vocacionales y de aptitudes específicas. Las pruebas de personalidad son a menudo validadas en instituciones para enfermos mentales, comparando los resultados obtenidos por sujetos normales y pacientes. Un test construido para medir rasgos neuróticos, al aplicarlo a un grupo de sujetos neuróticos, clínicamente diagnosticados, se espera que obtengan puntajes altos; al administrar el mismo test a sujetos sindicados normales, se esperará que las puntuaciones sean bajas. En el desarrollo de pruebas de personalidad el diagnóstico psiquiátrico es usado con frecuencia de base para la selección de los items del test y como una evidencia de su validez.

ii) Correlación con un test acreditado que explora la misma conducta

Este método de validación es utilizado cuando se dispone de un test altamente acreditado, que se toma como criterio de comparación. Por mucho tiempo la Escala Stanford-Binet ha servido de criterio para validar nuevos tests de inteligencia; lo mismo ha ocurrido con las escalas de Wechsler. Desde el punto de vista práctico, la comprobación de una nueva medida con otra acreditada ofrece seguridad y respaldo para las decisiones diagnósticas. Sin embargo, la estrecha relación entre un test de construcción reciente y otro antiguo acreditado plantea serias interrogantes. En efecto, una alta correlación indica el grado en que el nuevo test está de acuerdo a las ideas aceptadas sobre la conducta que se mide. Pero si esta conformidad no es muy alta, es probable que el test recientemente elaborado no mida los mismos indicadores de la conducta, considerados en el test que sirve de criterio, existiendo la posibilidad de la superioridad del nuevo instrumento. Por otra parte, la correlación entre las pruebas comparadas puede deberse a una fuerte semejanza entre los items que componen los tests. Ciertamente, cuando se analiza un buen número de pruebas de inteligencia, personalidad, vocacionales, etc., se puede advertir gran semejanza entre los items que los integran. Esta semejanza, en cierto modo, representa el desarrollo de formas paralelas de tests, que desde el punto de vista práctica es necesario, pero en cada contribuye al desarrollo teórico de nuevas hipótesis para la medición de una conducta, ni a la construcción de nuevos tests.

Un alto grado de correlación entre dos o más pruebas indican que el nuevo test está basado en la misma concepción teórica que su antecesor, la cual es comprobada por el nuevo instrumento. Pero si se desea mejorar y refinar las formulaciones teóricas sobre una conducta, la técnica de validación con un test acreditado, no ayuda en nada y más bien significa una limitación para el desarrollo de nuevos instrumentos. El procedimiento llevará a la uniformidad y seguridad del nuevo test, pero no al mejoramiento de los instrumentos de medida. Debido a estos reparos, cuando se emplea esta técnica de validación, se espera que la correlación entre el test nuevo y el test-criterio debe ser moderada. De obtenerse una correlación muy alta el nuevo test puede considerársele una duplicación del test antiguo.

50

Validez de constructo

La validez de constructo se define como el grado en que un test mide la construcción teórica elaborada respecto a la conducta que se mide. Todo test psicológico, en efecto, se basa en una idea que el autor desarrolla para explicar la organización y funcionamiento de un atributo psicológico. Se afirma que un test posee validez de constructo teórico, si el resultado obtenido es el esperado de acuerdo a la teoría formulada, esto significa que la validez de constructo lleva implícita la idea de predicción. Para Magnusson (1969) la validez de constructo se determina mostrando que las consecuencias que pueden predecirse sobre la base de la teoría con respecto a los datos del test pueden en lo fundamental confirmarse por una serie de pruebas. Los estudios de validez de constructo tratan de responder a estas preguntas: ¿qué construcción psicológica mide la prueba? ¿hasta qué punto mide bien el test esa construcción (Brown, 1980, p.159).

La comprobación de este tipo de validez no se estima en un solo estudio, como se hace en la validez predictiva. Requiere, más bien, de un proceso largo, siendo el procedimiento similar al curso que sigue el método hipotético deductivo, utilizando en la investigación científica. Se trata ciertamente, de verificar una hipótesis referida a la conducta que se intenta medir, basándose en un test. Para llevar a cabo el proceso será necesario definir operacionalmente la construcción teórica, a través de actividades atribuidas al atributo. Luego se desarrollarán y probarán items que presumiblemente miden las cualidades que presenta el atributo. Los items (reactivos) deben corresponder a la naturaleza de la función, tal como teóricamente fue concebida.

En el curso del proceso de validación, el investigador incrementa sus conocimientos acerca del test proyectado, lo revisa y progresivamente lo mejora para hacerlo un instrumento de medida del constructo. Pero también, puede introducir modificaciones acerca de la definición postulada para explicar la conducta. En buena cuenta, puede modificar sus conceptos teóricos y también el instrumento para medir esos conceptos. Todo ello lo realiza mediante información adquirida a través de estudios empíricos (véase "Standars", 1974).

La literatura respecto a las técnicas para establecer la validez de constructo muy a menudo reitera los procedimientos utilizados para determinar la validez de "criterio relacionado", y no pocas veces han surgido confusiones con la validez de contenido. Claro es que las técnicas son utilizadas con diferentes propósito. Al respecto, observa Kerlinger (1975) que, en cierto sentido, cualquier tipo de validación es validación de construcción, siempre que se prueben hipótesis; siempre que se estudien relaciones empíricamente, interviene la validez de construcción. He aquí las técnicas más utilizadas.

i) Correlación con tests acreditados que miden la misma conducta

Esta técnica de validación fue examinada páginas atrás, con la observación de que una alta correlación entre el test-criterio y el nuevo test significaba que los dos test medían lo mismo y que en nada contribuía al desarrollo de nuevos instrumentos para medir un atributo psicológico. Esta argumentación pierde valor cuando se utiliza dicho procedimiento para establecer la validez de constructo. En efecto, es altamente recomendable cuando se busca validar un test que se apoya en la misma formulación teórica del test-criterio. La validez de construcción del "Test de Dominós" de Anstey, se verificó correlacionándolo con el "Test de Matrices Progresivas" de Raven. Ambas pruebas fueron elaboradas para medir el factor "g", según la teoría bifactorial de Spearman. El test de Raven había logrado una alta saturación de "g" (0.82) y una mínima contaminación de factores específicos. Entre ambos tests se han encontrado correlaciones importantes (Baines, r = 0.70; Risso, r = 0.55). Las pruebas convergen hacia un mismo objetivo, medir el factor "g".

ii) Validación por grupos opuestos

Evidencias de la validez de construcción teórica se obtienen mediante el procedimiento de "grupos opuestos", que se utiliza también para establecer la validez concurrente. A dos grupos de personas, de características opuestas conocidas, se les administra el

51

test, hipotetizándose la dirección de la diferencia. Por ejemplo, para validar una prueba de "conservadurismo" político, podría escogerse un grupo de personas conocidas como conservadoras y otro grupo conocido como no conservadoras. Los puntajes obtenidos por los dos grupos deberán presentar diferencias altamente significativas, de acuerdo a las hipótesis sustentada.

iii) Correlación ítem-test

La correlación de cada ítem con el puntaje total del test y los diversos subtests con el puntaje total de la prueba, es un procedimiento que ofrece información respecto a la consistencia interna del test, por lo que su contribución es limitada respecto a la teoría en que se funda la prueba. De obtenerse correlaciones elevadas entre cada ítem y el puntal total se infiere que los reactivos miden el mismo atributo. En el proceso de validación se desechan los items que tienen bajas correlaciones con el test íntegro, puesto que indican que el ítem no mide algún indicador del atributo considerado.

Procedimientos más específicos se han desarrollado para la validación de constructo teórico, además de los arriba descritos. Vamos a revisarlos.

iv) Validación experimental

La validez de constructo puede acreditarse mediante el uso del diseño "antes y después". Un test construido para medir "ansiedad" puede validarse comparando los puntajes obtenidos de medidas tomadas "antes" y "después" de someter al grupo a una variable experimental generadora de ansiedad. Se espera que los puntajes "después" deban ser más elevados y difieran significativamente de los puntajes "antes" de introducir la variable experimental. Sach y Diesenhaus, citados por Díaz-Guerrero & Spielberger (1975) investigaron los efectos de la tensión de un examen, sobre los puntajes de las escalas del IDARE (Inventario de Ansiedad: rasgo-estado) en estudiantes universitarios. El IDARE se aplicó durante un periodo regular de clases (condición de no tensión) y posteriormente fue aplicado inmediatamente antes del examen final (condición de tensión). El promedio de calificación de "ansiedad-estado" en la condición de tensión (40.87) fue significativamente más alto, que en la condición de no tensión (38.98). La validación experimental de ser bien conducida sirve para demostrar que el instrumento es un buen medidor de una conducta, pero dice poco en cuanto a la teoría.

v) Validez convergente y validez discriminante. La matriz multirrasgo-multimétodo

El método de la "matriz multirrasgo-multimétodo" propuesta por Campbell y Fiske (1978), se basa en los conceptos de "validez convergente" y "validez discriminante". Mediciones de un mismo rasgo obtenidas con métodos independientes deben converger, indicando el mismo significado de la construcción. Así, un test destinado a medir un rasgo poseerá validez convergente si presenta coeficientes de correlación elevados con otros test y con mediciones tomadas por otros instrumentos que miden el mismo rasgo. Por otro lado, la construcción referente a un rasgo debe distinguirse muy claramente de otras. Según estas ideas, un test poseerá "validez discriminante" cuando muestra correlaciones muy bajas con otros test que miden rasgos que se estiman diferentes al rasgo que mide el test.

Campbell y Fiske proponen una técnica que denominan "matriz multirrasgo-multimétodo" para la valoración convergente y discriminante. El método requiere de la medición de dos o más rasgos por dos o más métodos. Sean, por ejemplo, tres variables de personalidad: A (ansiedad), B (depresión), y C (autoritarismo), y tres métodos diferentes de medición: 1 (inventario autodescriptivo), 2 (técnica proyectiva) y 3 (escala de valoración). Cada variable de personalidad es medida independientemente por cada método, obteniéndose para la variable "ansiedad" A1 (puntajes de la variable A obtenidos con el inventario autodescriptivo), A2 (puntajes de la variable A obtenidos con la técnica proyectiva), y A3 (puntajes de A obtenidos con la escala de valoración). La Tabla 12.2 es el ejemplo de una matriz multirrasgo-multimétdo, según Campbell y

52

Fiske. La matriz contienen las correlaciones hipotéticas obtenidas de medir tres rasgos diferentes (A, B y C), con tres métodos distintos (1, 2, 3). El cuadro se puede dividir en cuatro regiones de la matriz. Los coeficientes de confiabilidad (mismo método-mismo rasgo), figuran entre paréntesis en la diagonal principal. Los coeficientes de validez (mismo rasgo-métodos distintos) figuran en cursiva en las diagonales restantes. Los triángulos en línea continua contienen en su interior los coeficientes de correlación que corresponden al mismo método y a distintos rasgos. Los triángulos de guiones contienen los coeficientes de correlación que corresponden a métodos distintos-rasgos distintos.

53

Fuente:ALARCON, R. (1991) Métodos y Diseños de Investigación del

Comportamiento. Lima. Fondo Editorial. Universidad Peruana Cayetano Heredia.

Lectura 15: Coeficiente de estabilidad, de equivalente, de consistencia interna, pp. 301-305

2.22. COEFICIENTE DE EQUIVALENCIA

Este coeficiente se determina correlacionando los puntajes de dos formas paralelas de un mismo test, aplicadas sucesivamente a un mismo grupo de sujetos, siguiendo el mismo procedimiento de administración. El requisito esencial para determinar este tipo de confiabilidad, es disponer de dos formas paralelas de un test. La equivalencia significa que la forma paralela debe tener el mismo grado de dificultad, el mismo muestreo de contenido, similar número de items, la misma redacción de los reactivos, igual tiempo para resolver el test, similar formato y otras características presentes en el test original.

La correlación entre las dos formas de un test es el coeficiente de equivalencia; será elevado si las formas son tácitamente idénticas, que es lo que se busca. El establecimiento de formas equivalentes requiere que la segunda forma se administre con cierto intervalo (dos o cuatro semanas) después de aplicar la forma original, para debilitar la influencia de posibles aprendizajes. Este procedimiento tiene algunas ventajas sobre el "test-retest". Sin embargo, no podrán evitarse las facilidades adquiridas debido a la práctica previa con materiales similares.

El desarrollo de "formas paralelas" resulta apropiado en tanto se dispone de un test altamente válido, de lo contrario significaría duplicar los problemas intrínsecos a la primera forma. Por lo tanto, antes de elaborar un test equivalente, es conveniente preguntar por la validez del test original. Disponer de formas paralelas de un test ayuda mucho en investigaciones que utilizan diseños "antes y después" y en aquellas que requieren de medidas repetidas.

2.23. COEFICIENTES DE CONSISTENCIA INTERNA

Para estimar la consistencia interna de un test se dispone de varios procedimientos. Aquí se exponen los de uso más generalizado, como son, el método de mitades, el coeficiente Alpha y Cronbach y el coeficiente de Kuder-Richardson, Fórmula 20.

i) El método de mitades

Mediante este procedimiento el test es arbitrariamente dividido en dos partes equivalentes, con igual cantidad de items cada una. En una parte se agrupan los items que llevan números pares y en la otra los items impares. Luego se calcula el coeficiente de correlación (r) entre los dos conjuntos de puntajes. Si un test tiene 100 items, la correlación es computada entre las dos partes de 50 items cada una; en buena cuenta, se han organizado dos pequeños test paralelos y luego, se han correlacionado. El coeficiente obtenido indica el grado de confiabilidad ente las dos partes del test, pero no del test íntegro. Por ello, el coeficiente hallado se corrige por medio de la fórmula de Spearman-Brown, cuya expresión es la siguiente:

rtt =

En la fórmula, rtt es la confiabilidad estimada para el test completo y r es la

correlación entre las dos mitades del test. Si deseáramos determinar el coeficiente de

54

consistencia interna de un test cuyo coeficiente entre las dos mitades es de r = 0.80, el resultado aplicando la fórmula (12.1), será el siguiente:

rtt = = 0.89

El coeficiente de consistencia interna ofrece una medida de equivalencia de los items que integran el test, pero no ofrece informes sobre la estabilidad del instrumento. Una de sus mejores ventajas reside en que el índice de confiabilidad se obtiene en una sola aplicación, eliminándose los problemas que genera el retest. El método funciona bien en pruebas cuyos items están ordenados según su dificultad; en otros caso su uso es objetable.

ii) Coeficiente de Kuder-Richardson

Para estimar la consistencia interna de los itemas, Kuder & Richardson han elaborado varias formulas, de ellas la Fórmula 20 (KR 20) es la más utilizada. Su cálculo requiere de una sola administración del test; se basa en el examen de las respuestas correctas-fracasos para cada ítem (los items se clasifican con 1 y cero) y de la desviación estándar de los puntajes.

55

Fuente: AVILA, R. (1998) Estadística Elemental. Lima. Estudios y

Ediciones R.A.

Lectura 16: La Línea Recta de Regresión, pp. 243-252

2.24. LA LÍNEA RECTA DE REGRESIÓN

Consideremos la ecuación de la recta:

Y* = a + b X

que tiene dos parámetros "a" y "b"

aplicar el Método de los Mínimos Cuadrados, que significa minimizar la expresión:

=

donde:Yi : es un valor observado o dato (nube de puntos)Y*i : es un valor calculado por la ecuación de regresión Y* = a + bX, en este caso.n : es el número de observaciones (X,Y)

Reemplazamos la sumatoria Y* por a + bX se tiene:

= (Yi - a - bX)²

minimizar significa derivar M respecto a cada uno de los parámetros "a" y "b"; este es un caso de derivación parcial. Obtenidas de las derivadas parciales se igual a cero, es decir:

Min = (Yi - a - bX)²

= 0 y = 0 a b

significa entonces:

(1) = 2 (Y - a - bX) (-1) = 0 a

(2) = 2 (Y - a - bX) (-X) = 0 b

de donde:

(1) (Y - a - bX) = 0

(2) (Y - a - bX) (X) = 0

aplicando propiedades de sumatoria y transponiendo términos:

Y = an + b X

XY = a X + b X²

56

CÁLCULO DE LOS PARÁMETROS: a y b

Dada la ecuación de la recta:Y* = a + bX

los parámetros a y b se calculan a partir de las Ecuaciones Normales

Y = an + b X XY = a X + b X²

donde las sumatorias se obtienen a partir de los datos (X,Y).

Nota 1. Escribir y* = a + bx significa que y* es un valor estimado de Y. El error e estaría dado por: e = y - y*, entonces el valor real de Y es:

Y = a + bx + e

Ejemplo 1Supongamos que se quiere estimar la relación entre ingreso y consumo, para el efecto se eligió una muestra e 6 familias.

Dados los datos, se define la variable dependiente (Y = Consumo) y la variable independiente (X = Ingreso), luego se construye el Cuadro Nº 7.01, donde están los valores que participan en las ecuaciones normales.

Los valores de a y b pueden calcular utilizando cualquiera de los tres siguientes métodos.

1. Resolver las ecuaciones normales como un sistema de ecuaciones simultáneas, por el método de sumas y restas.

Y = an + b X XY = a X + b X²

Cuadro Nº 7.01INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS

INGRESOX

CONSUMOY

XY X² Y²

354038554260

303530503550

1 050 1 400 1 140 2 750 1 470 3 000

1 225 1 600 1 444 3 025 1 764 3 600

9001 225 9002 5001 2252 500

270 230 10 810 12 658 9 250X Y XY X² Y²

Reemplazando el valor de las sumatorias, se tiene:

230 = 6 a + 270 b b = 0,905510810 = 270 a + 12658 b a = 2.4142

Entonces, la recta de regresión es: y* = -2.4142 + 0,9055x

2. También la aplicación directa de fórmulas para a y b deducidas de las ecuaciones normales.

a = b =

57

reemplazando valores de las sumatorias:

a = (12658)(230) - (270)(10810) = -7360 = 2.41476(12658) - (270)² 3048

b = 6(10810) - (270)(230) = 2760 = 0.9055 6(12658) - (270)² 3048

58

Fuente:AVILA, R. (1998) Estadística Elemental. Lima. Estudios y

Ediciones R.A.

Lectura 17: Error Estimación y Coef. de Correlación, pp. 253-257

2.25. ERROR Estándar DE ESTIMACIÓN

El error estándar de estimación llamado también desviación estándar de regresión, es una medida de esparcimiento alrededor de una línea de regresión. Es la desviación estándar de los valores observado Y con respecto a los valores Y* estimados por la línea de regresión.

En general, entre el valor Y y el estimado Y* existe una diferencia o sesgo, que puede ser menor o mayor en el medida que los "n" puntos del diagrama de esparcimiento estén más o menos cerca de la línea de regresión.

Para la recta de regresión Y* = a + bX el ERROR ESTÁNDAR de Y sobre X será:

Syx = (Definición)

En tanto, para la recta de regresión X* = p + qX el Error Estándar de X sobre Y es:

Sxy =

En general, resulta que:

Syx Sxy

Calcular el error estándar Syx a partir de la definición resulta muy laboriosa puesto que se requiere conocer los valores estimados Y*, estos en la práctica no se calculan. Existe una fórmula alternativa a partir de la definición, donde se sustituye el valor Y* = a + bX; después de realizar las operaciones indicadas simplificaciones y factorizaciones, resulta:

Syx =

expresión que se utiliza para calcular Syx. Elevando al cuadrado se tiene:

Syx² =

que se denomina la VARIANZA RESIDUAL DE Y SOBRE X.

El error estándar de estimación o de regresión cumple las mismas propiedades de la desviación estándar, la diferencia está en que el error estándar de regresión mide la dispersión de los valores alrededor de la línea de regresión y la desviación estándar alrededor de la media aritmética. Ahora, suponiendo que Y se distribuye normalmente, al construir rectas paralelas a ambos lados de la línea de regresión a una distancia proporcional a Syx se definen franjas o intervalos, como se aprecia en el gráfico.

Según la distribución normal, en los intervalos:

Y* Syx, se encuentra el 68.3% de los valores reales YY* 2Syx, se encuentra el 95.5% de los valores reales YY* 3Syx, se encuentra el 99,7% de los valores reales Y

59

Ejemplo 1Calcular el error estándar de estimación, en el ejemplo referido a los 15 trabajadores. Aquí ya se ha construido la recta de regresión, además se conoce los valores de:

Y² = 3654 ; Y = 216 ; XY = 8658 ; n = 15a = -18.363 b = 0.876

sustituyendo los valores en:

Syx2 =

Syx² = 3654 - (-18.363)(216)-(0.876)(8658) = 2.415

Syx = luego, Syx = 1,55 años

Con este valor se puede construir intervalos de confianza para Y dado un valor de X. Por ejemplo el intervalo y* Syx = y* 1,55 donde los extremos son (Y* - 1,55; Y* + 1.55).

De acuerdo a la función Y* = -18,363 + 0,876X significaría, por ejemplo, que en la población el 68.3% de los trabajadores de 40 años de edad tendría un tiempo de servicios comprendido entre 15,15 y 18,25 años.

Nota 1. Considerando que las funciones de regresión son modelos que se obtienen a partir de la muestra representativa, entonces la función de regresión no es única para una determinada población.

En el caso de Y* = a + bX así como Y* está condicionado a valores X, se advierte también que los parámetros a y b estarán condicionados a los valores muestrales (X,Y); entonces como valores estimados, tienen un error estándar de estimación que se puede calcular por las expresiones:

S(b) = S(a) =

2.26. CORRELACIÓN LINEAL

La correlación expresa el grado de asociación o afinidad entre las variables consideradas; la correlación también explica el grado de la bondad del ajuste de las líneas de regresión. En su acepción más general, correlación denota la interdependencia entre datos cuantitativos o cualitativos. En este sentido incluiría la asociación de atributos clasificados dicotómicamente y la contingencia de atributos clasificados conforme a múltiples características.

Cuando se determina que las variables están íntimamente asociados, la ecuación de la función de regresión se utiliza para estimar o explicar el comportamiento de la variable dependiente (explicada) en términos de las variaciones que experimentan las variables independientes (explicativas). La interdependencia, además de los ejemplos anteriores, también se observa en el comportamiento de las ventas de ingresos, o por variación de los precios, o por modificaciones técnicas en el artículo, etc.

Recordando, llamaremos CORRELACIÓN SIMPLE cuando se trata de analizar la relación entre dos variables. Hablaremos de CORRELACIÓN RECTILÍNEA O LINEAL si la función es una recta, y de CORRELACIÓN NO LINEAL cuando la función es una curva o una función de grado superior. Por ahora estudiaremos la correlación simple rectilínea.

2.27. COEFICIENTE DE CORRELACIÓN RECTILÍNEA

60

El Coeficiente de correlación, es el estadígrafo que expresa o mide el grado de asociación o afinidad entre las variables relacionadas, se denota por "r" y se define como:

r =

donde:

S²y* = varianza explicada, o sea aquella parte de la varianza total de Y explicada por la línea de regresión.

S²y = varianza total, o sea aquella que corresponde a los valores observados de Y.

definidos como:

S²y* = (Y* - Y)² ; S²y = (Y* - Y)² n n

luego:

r = o simplemente r² =

así mismo se sabe que:

Varianza Total = Variación explicada + Variación no explicada

(Y - Y)² = (Y* - Y)² + (Y - Y*)² n n n

S²y = S²y* + S²yx

En términos generales, el coeficiente de correlación mide el grado de afinidad entre dos o más variables. En tanto que el COEFICIENTE DE CORRELACIÓN RECTILÍNEA (r), es el estadígrafo que expresa el grado de afinidad o asociación entre dos variables cuando ellas están relacionadas mediante una línea recta Y* = a + bX.

Considerando la definición de Coeficiente de Correlación:

r = como S²y* = S²y - S²yx

reemplazando: r =

que define la expresión para calcular el "coeficiente de correlación", en la fórmula se sabe que:

S²yx =

S²y =

que pueden calcularse de forma separada y luego reemplazarse en la fórmula.

61

Hay fórmulas más simples de calcular, como se indica en la página 260.

2.28. PROPIEDADES DE r:

Como r es siempre positivo, resulta que la propiedad fundamental del coeficiente de correlación es:

-1 r + 1

de donde se deduce que:

a) Si r > 0, entonces existe "correlación directa positiva".b) Si r < 0, se trata de una "correlación inversa negativa".c) Si r² = 1, los datos forman una línea recta, en el caso de correlación.

62