trabajo de estadistica 2

5/17/2018 TRABAJO DE ESTADISTICA 2 - slidepdf.com

http://slidepdf.com/reader/full/trabajo-de-estadistica-2 1/28

UNIVERSIDAD NACIONAL EXPERIMENTAL

DE LOS LLANOS OCCIDENTALES

“EZEQUIEL ZAMORA”

SAN CARLOS-COJEDES

SUBPROYECRO: ESTADISTICA DESCRIPTIVA (GLOBAL)

PROFESOR: BACHILLER:

LIC. ALBERTO GRANADOS DINORAH ROJAS CI: 20487078

SAN CARLOS, ABRIL 2012

INDICE pág.

Análisis de Regresión

Introducción…………………………………………………………………….……1

Análisis deregresión……………………………………………………………………………...2

Análisis de correlación…………………………………………………………........2

Análisis de regresión simple…………………………………………………………3

Varianza de regresión…………………………………………………………...…4,7

Desviación estándar de la regresión…………………………………………….7, 9

Coeficiente de determinación……………………………………………………9,11

Coeficiente de correlación de rangos de Spearman………………………..…11,18

Coeficiente de contingencia……………………………………………..……...18.23

Ejercicios…………………………………………………………………………...24

Conclusión…………………………………………………………………………2

Bibliografía……………………………………………………………………….2

INTRODUCCION

La regresión es una técnica estadística utilizada para simular la relación

existente entre dos o más variables. Por lo tanto se puede emplear para construir un

modelo que permita predecir el comportamiento de una variable dada.

La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se

hace de mala forma, por lo cual es necesario realizar una selección adecuada de las

variables que van a construir las ecuaciones de la regresión, ya que tomar variables que

no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir

ilógico.

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano,

pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial,

Cuadrática, entre otras.

Se entiende a un análisis de regresión cuando se trata de comprobar si

existe o no una relación independiente entre dos o más variables ej. x;y

ANÁLISIS DE REGRESION

Se define como un procedimiento mediante el cual se trata de determinar si

existe o no relación de dependencia entre dos o más variables. Es decir, conociendo los

valores de una variable independiente, se trata de estimar los valores, de una o más

variables dependientes. Es un procedimiento estadístico que estudia la relación

funcional entre variables. Con el objeto de predecir una en función de la/s otra/s.

La regresión en forma grafica, trata de lograr que una dispersión de las

frecuencias sea ajustada a una línea recta o curva. Es la técnica empleada para

desarrollar la ecuación y dar las estimaciones

Ecuación de Regresión: es una ecuación que define la relación lineal entre dosvariables.

Ecuación de regresión Lineal: Y’ = a + Bx

Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...

Principio de Mínimos Cuadrados: Es la técnica empleada para obtener la ecuación de

regresión, minimizando la suma de los cuadrados de las distancias verticales entre los

valores verdaderos de "Y" y los valores pronosticados "Y".

ANÁLISIS DE CORRELACIÓN:

Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la

asociación entre dos variables. El principal objetivo del análisis de correlación consiste

en determinar que tan intensa es la relación entre dos variables. Normalmente, el

primer paso es mostrar los datos en un diagrama de dispersión.

REGRESIÓN SIMPLE:

En general, nos permite obtener una función lineal de una o más variables

independientes o predictoras (X1, X2,... XK) a partir de la cual explicar o predecir el

valor de una variable dependiente o criterio (Y). La lección la hemos estructurado en

los siguientes puntos:

1. Exposición de los estadísticos que nos permiten valoración de la bondad de ajuste de

los datos al modelo de regresión lineal simple;

2. Si los estadísticos certifican que entre los datos se produce una asociación lineal,

podremos pasar a estimar los parámetros de la ecuación lineal (B0 y B1), a partir de los

cuales podremos efectuar predicciones de la variable dependiente. Cabe advertir que enel supuesto caso en el que los estadísticos rechazaran la asociación lineal entre los

datos, no significa que entre ellos se produzca otro tipo de relación (como la

curvilínea);

3. Por último, exponemos la secuencia de pasos que nos permiten determinar lo arriba

apuntado. En el análisis de regresión simple, y con la finalidad de obtener la mayor

información posible respecto a la relación y asociación entre las dos variables, vamos a

trabajar con tres Cuadros de Diálogos, a saber: Cuadro de Diálogo de Correlaciones Bi

variadas. Cuadro de Diálogo de Gráficos; y Cuadro de Diálogo del Análisis de

Regresión Lineal Múltiple.

Este tipo se presenta cuando una variable independiente ejerce influencia sobre

otra variable dependiente. Ejemplo: Y = f

VARIANZA DE LA REGRESIÓN

Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en

descomponer la variación de la variable Y de dos componentes: uno la variación de Y

alrededor de los valores predichos por la regresión y otro con la variación de los

valores predichos alrededor de la media. Si no existe correlación ambos estimadores

estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la

prueba de la F se contrasta la existencia de correlación.

Ejemplo:

Obsérvese que el valor de p es igual que antes (son contrastes equivalentes) y el valor

de F es el cuadrado del de t.

Ejemplo 4: Se quiere investigar el efecto de la ingestión masiva de vitamina C sobre el

hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra y al

otro no. Se sacrifica a los animales y se mide la concentración de lípidos en el hígado.

Grupo control

Tratado (=1)

23,8 13,815,4 9,321,7 17,2

18,0 15,1

¿Hay diferencia entre ambos grupos?

Se podría plantear un contraste sobre medias con la t de Student.

También se puede plantear un modelo de regresión entre la variable grupo (X=0 control

y X=1 tratado) y la variable lípido (Y)

LA DESVIACIÓN ESTÁNDAR DE LA REGRESION

(Denotada con el símbolo σ) es una medida de centralización o dispersión para

variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística

descriptiva. Se define como la raíz cuadrada de la varianza. Junto con este valor, la

desviación típica es una medida (cuadrática) que informa de la media de distancias que

tienen los datos respecto de su media aritmética, expresada en las mismas unidades quela variable.

Para conocer con detalle un conjunto de datos, no basta con conocer las

medidas de tendencia central, sino que necesitamos conocer también la desviación que

presentan los datos en su distribución respecto de la media aritmética de dicha

distribución, con objeto de tener una visión de los mismos más acorde con la realidad al

momento de describirlos e interpretarlos para la toma de decisiones.

Interpretación y aplicación: La desviación estándar es una medida del grado de

dispersión de los datos con respecto al valor promedio. Dicho de otra manera, la

desviación estándar es simplemente el "promedio" o variación esperada con respecto a

la media aritmética.

Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una

tiene una media de 7. Sus desviaciones estándar muéstrales son 8,08; 5,77 y 1,15

respectivamente. La tercera muestra tiene una desviación mucho menor que las otras

dos porque sus valores están más cerca de 7.

La desviación estándar puede ser interpretada como una medida de

incertidumbre. La desviación estándar de un grupo repetido de medidas nos da la

precisión de éstas. Cuando se va a determinar si un grupo de medidas está de acuerdo

con el modelo teórico, la desviación estándar de esas medidas es de vital importancia:

si la media de las medidas está demasiado alejada de la predicción (con la distancia

medida en desviaciones estándar), entonces consideramos que las medidas contradicen

la teoría. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el

cual sería razonable esperar que ocurrieran si el modelo teórico fuera correcto. La

desviación estándar es uno de tres parámetros de ubicación central; muestra la

agrupación de los datos alrededor de un valor central (la media o promedio).

Ejemplo: Aquí se muestra cómo calcular la desviación estándar de un conjunto de

datos. Los datos representan la edad de los miembros de un grupo de niños: { 4, 1, 11,13, 2, 7 }

1. Calcular el promedio o media aritmética.

En este caso, N = 6 porque hay seis datos:

i = número de datos para sacar desviación estándar

Sustituyendo N por 6

Este es el promedio.

2. Calcular la desviación estándar

Sustituyendo N - 1 por 5; (6 - 1)

Sustituyendo por 6,33

Éste es el valor de la desviación estándar.

Varianza:

La varianza (que es el cuadrado de la desviación estándar: σ2) se define así:

Es la media de las diferencias con la media elevadas al cuadrado.

COEFICIENTE DE DETERMINACIÓN.

En Estadística, se llama coeficiente de determinación a la proporción de la

varianza de la variable dependiente que está explicada por un modelo estadístico.

Un modelo estadístico se construye para explicar una variable aleatoria que

llamaremos dependiente a través de otras variables aleatorias a las que llamaremos

factores. Dado que podemos predecir una variable aleatoria mediante su media y que,

en este caso, el error cuadrático medio es su varianza, el máximo error cuadráticomedio que podemos aceptar en un modelo para una variable aleatoria que posea los dos

primeros momentos es la varianza. Para estimar el modelo haremos varias

observaciones de la variable a predecir y de los factores. A la diferencia entre el valor

observado de la variable y el valor predicho la llamaremos residuo. La media

cuadrática de los residuos es la varianza residual.

Si representamos por la varianza de la variable dependiente y la varianza residual

por , el coeficiente de determinación viene dado por la siguiente ecuación:

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100%

de valor de la variable; si coincide con la varianza de la variable dependiente, el

modelo no explica nada y el coeficiente de determinación es del 0%. En variables

económicas y financieras, suele ser difícil conseguir un coeficiente de determinación

mayor de un 30%.

Modelo lineal

En un modelo lineal, la variable dependiente se explica mediante la ecuación

. Si observamos veces tanto la variable aleatoria como los factores,

podemos ordenar nuestras observaciones de la variable dependiente en una matriz

mientras que colocaremos las de los factores en la matriz de regresión . Cada

observación corresponderá a una coordenada de y a una fila de . Cada columna de

la matriz de regresión corresponde a las observaciones de un factor. En cada

observación el modelo cometerá un error:

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

Es la parte de la variación de explicada por el modelo lineal.

Es la parte de la variación de que no explica el modelo lineal.

Sumando estas dos partes, obtenemos .

Problema: El valor del coeficiente de determinación siempre aumenta cuando

incluimos nuevas variables en el modelo, incluso cuando éstas son poco significativas o

tienen poca correlación con la variable dependiente. Para resolverlo tenemos el

coeficiente de determinación corregido

COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN

Este coeficiente se emplea cuando una o ambas escalas de medidas de las

variables son ordinales, es decir, cuando una o ambas escalas de medida son

posiciones. Ejemplo: Orden de llegada en una carrera y peso de los atletas.

Se calcula aplicando la siguiente ecuación:

Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes más

elevados le asignamos el rango 1 al siguiente el rango 2 y así sucesivamente. Si se

repiten dos puntajes o más se calculan las medias aritméticas.

Ejemplo ilustrativo N° 1: La siguiente tabla muestra el rango u orden obtenido en la

primera evaluación (X) y el rango o puesto obtenido en la segunda evaluación (Y) de 8

estudiantes universitarios en la asignatura de Estadística. Calcular el coeficiente de

correlación por rangos de Spearman.

Estudiante X Y

Dyana 1 3

Elizabeth 2 4

Mario 3 1

Orlando 4 5

Mathías 5 6

Josué 6 2

Anita 7 8

Lucía 8 7

Solución:

Para calcular el coeficiente de correlación por rangos de Spearman se llena la siguientetabla:

Se aplica la fórmula:

Por lo tanto existe una correlación positiva moderada entre la primera y segunda

evaluación de los 8 estudiantes.

En Excel se calcula de la siguiente manera:

a) Se inserta la función COEF.DE.CORREL y pulsar en Aceptar. En el cuadro de

argumentos de la función, en el recuadro de la Matriz 1 seleccionar las celdas de X, y

en el recuadro de la Matriz 2 seleccionar las celdas de Y. Pulsar en Aceptar.

Ejemplo ilustrativo N° 2

La siguiente tabla muestra las calificaciones de 8 estudiantes universitarios en las

asignaturas de Matemática y Estadística. Calcular el coeficiente de correlación por

rangos de Spearman y realizar el diagrama de dispersión.

N° Estudiante Matemática Estadística

1 Dyana 10 8

2 Elizabeth 9 6

3 Mario 8 10

4 Orlando 7 9

5 Mathías 7 8

6 Josué 6 7

7 Anita 6 6

8 Lucía 4 9

Solución:

Para calcular el coeficiente de correlación por rangos de Spearman se procede a

clasificar u ordenar los datos en rangos (X para Matemática y Y para Estadística)

tomando en cuenta las siguientes observaciones:

En la asignatura de Matemática se observa:

- Dyana tiene la más alta calificación, ocupando el primer puesto, por lo que su rango

- Elizabeth ocupa el segundo puesto, por lo que su rango es 2

- Mario se encuentra ubicado en el tercer lugar, por lo que su rango es 3

- Orlando y Mathías ocupan el cuarto y quinto puesto, por lo que su rango es la media

aritmética de 4 y 5 que da por resultado 4,5

- Josué y Anita ocupan el sexto y séptimo lugar, por lo que su rango es la media

- Lucía se encuentra ubicada en el octavo lugar, por lo que su rango es 8

En la asignatura de Estadística se observa:

- Mario tiene la más alta calificación, ocupando el primer puesto, por lo que su rango es1

- Orlando y Lucía ocupan el segundo y tercer puesto, por lo que su rango es la media

- Dyana y Mathías ocupan el cuarto y quinto puesto, por lo que su rango es la media

- Josué se encuentra ubicado en el sexto lugar, por lo que su rango es 6

- Elizabeth y Anita ocupan el séptimo y octavo lugar, por lo que su rango es la media

Los rangos X y Y se presentan en la siguiente tabla:

N° Estudiante Matemática Estadística X Y

1 Dyana 10 8 1 4,5

2 Elizabeth 9 6 2 7,5

3 Mario 8 10 3 1

4 Orlando 7 9 4,5 2,5

5 Mathías 7 8 4,5 4,5

6 Josué 6 7 6,5 6

7 Anita 6 6 6,5 7,5

8 Lucía 4 9 8 2,5

Aplicando la fórmula se obtiene:

Por lo tanto existe una correlación positiva muy baja

El diagrama de dispersión hecho en Graph se muestra en la siguiente figura:

EL COEFICIENTE DE CONTINGENCIA C (DE KARL PEARSON)

Es una medida de relación estadística. El coeficiente de contingencia de Pearson

expresa la intensidad de la relación entre dos (o más) variables nominales u ordinales.

Se basa en la comparación de las frecuencias efectivamente calculadas de dos

características con las frecuencias que se hubiesen esperado con independencia de estas

características

El coeficiente (coeficiente Chi-cuadrado)

El coeficiente (también llamado contingencia cuadrática),1 sobre el que se

basa el coeficiente de contingencia, es una medida de la "intensidad" de la relación

entre las características observadas:

El valor informativo del coeficiente es reducido debido a que su límite

superior, es decir, el valor que asume en el caso de la completa dependencia de las

características observadas es dependiente de la magnitud (dimensión) de la tabla de

contingencia (es decir de la cantidad de valores posibles de las variables) y del tamaño

del universo estudiado . No está dada entonces la factibilidad de la comparación de

valores del coeficiente sobre diferentes tablas de contingencia y tamaños

muestrales.1 2 En el caso de la completa independencia de las características, .

Rige que:3

Siendo el número de filas y el número de columnas de la tabla de contingencia.

El valor de se necesita para determinar el coeficiente de contingencia C. En

las pruebas de significación estadística también se utiliza el valor de (véase Prueba

de Chi cuadrado).

Ejemplo

Sea la siguiente una tabla de contingencia proveniente de una encuesta:

automóvil tipo sedán automóvil tipo familiar TotalesObreros 19 18 37Empleados 43 20 63Totales 62 38 100

Cálculo del coeficiente :

Contingencia cuadrática media

Otra medida para especificar la intensidad de la dependencia de las

características en una tabla de contingencia es la contingencia cuadrática media, que en

lo esencial representa una ampliación del coeficiente :

Cuanto mayor es esta medida, tanto más intensa es la relación entre las dos

características analizadas. Si ambas características (variables) son independientes,

entonces cada uno de los sumandos se hace 0, a consecuencia de que se hace 0 el

numerador de la fracción y con ello la medida misma también. En el caso de una tabla

de contingencia de 2x2 la medida está normada y asume valores en el intervalo [0,1].

Coeficiente de contingencia de Karl Pearson

Puede asumir valores en principio muy grandes y no está limitado al

intervalo . Para excluir la dependencia del coeficiente de contingencia del tamaño

de la muestra, se calcula en base a el coeficiente de contingencia C (también

denominado CC o K) de Karl Pearson:

Donde es el tamaño de la muestra.

Este puede asumir valores en el intervalo [0,1). Resulta problemático que el límite

superior del coeficiente de contingencia C sea dependiente del número de las

dimensiones observadas:4

Aquí rige , donde el mínimo de entre la

cantidad de formas posibles de la característica en las variables estudiadas.

Coeficiente de contingencia corregido

Para poder excluir, además de la influencia del tamaño de la muestra, también

la influencia de de la dimensión de las tablas de contingencia consideradas (el número

de formas de la característica) sobre el límite superior del coeficiente y asegurar así la

comparabilidad de los resultados, se utiliza con frecuencia el coeficiente de

contingencia corregido (también denominado ) para medir la relación:

Donde igual que más arriba.

Aquí rige: : Un cercano a 0 indica características

independientes. Cerca de 1 señala una mayor medida de dependencia entre las

características.

Para el ejemplo propuesto, resulta un coeficiente de contingencia corregido

En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una

medida de la correlación (la asociación o interdependencia) entre dos variables

aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su

respectivo orden.

El estadístico ρ viene dado por la expresión:

Donde D es la diferencia entre los correspondientes estadísticos de orden de x -

y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,

aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente

aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de

correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o

positivas respectivamente, 0 cero, significa no correlación pero no independencia. La

tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos

ordenaciones de una distribución normal bivariante

EJERCICIOS:

ENCONTRAR EL COEFICIENTE DE CORRELACIÓN LINEAL ENTRE (X y

Y). QUE SE PRESENTA:

X 1 3 4 6 8 9 11 14Y 1 2 4 4 5 7 8 9

xi yi Xi . yi xi² yi²1 1 1 1 13 2 6 9 4

4 4 16 16 166 4 24 36 168 5 40 64 259 7 63 81 4911 8 88 121 6414 9 126 196 8156 40 364 524 256

1) hallar la media aritmética:

x= sumatoria de xi/n x= 56/8 x= 7

y= sumatoria de yi/n y=4078 y= 5

2) calcular la covarianza

O xy=sumatoria xi.yi/n - x.y Oxy= 364/8 -7.5 Oxy = 10,5

3) calcular la desviación típica

Ox.= sumatoria de xi²/n - x

Ox= 524/8-7 Ox=7,65

Oy.= sumatoria de yi²/n - y Oy= 256/8-5

Oy= 5,20

4) aplicación de la formula de coeficiente de correlación lineal

r=Oxy/Ox.Oy r= 10.5/ 7.65*5.20

r=0.26

EN LA SIGUIENTE TABLA CALCULAR EL COEFICIENTE DECORRELACION ENTRE LOS SIGUIENTES INDICES DE PRECIO

AÑO 2002 2003 2004 2005 2006ALIMENTOS 167,8 173,1 176,2 180,0 188,2MEDICINAS 260,8 272,8 285,6 297,1 310,1

Año xi yi Xi*yixi²

2002 167.8 260,8 43762.24 28156.84 68016.642003 173.1 272,8 47221.68 29963.61 74419.842004 176.2 285.6 50322.72 31046.44 81567.362005 180.0 297.1 53478 32400 882688.412006 188.2 310.1 58360.82 35419.24 96162.01

885.3 1426.4 253145.46 156986.13 408434.26

1) hallar la media aritmética

x=885,3/5 x=177,06

y=1426.4/5 y= 285.28

2) calculo de la covarianza

O xy= 253145,46/5-177,06*285,28

O xy= 117,42

3) calculo de la desviación típica:

Ox= 156986.13/5-177.06

Ox= 176.64

Oy.= 408434,26/5-285.28

Oy.= 285,31

4) formula del coeficiente de correlación lineal

r= 117,42/176,69*285,31

r=0.002

CONCLUSION

Parte de la Estadística corresponde a la Estadística Inferencial y dentro de ella

los capítulos de correlación y regresión son muy usados en la Investigación Científica,

una herramienta muy útil cuando se trata de relacionar 2 o más variables, relacionadas

entre sí, como por ejemplo. nivel de hemoglobina y embarazo en el ámbito de las

Ciencias de la Salud, la Correlación implica el grado de dependencia de una variable

respecto a otra y la Regresión es otra técnica que ayuda en la investigación de la salud

Psicología costos de una Empresa etc.

La regresión como una técnica estadística, una de ellas la regresión lineal

simple y la regresión multifactorial, analiza la relación de dos o más variables

continuas, cuando analiza las dos variables a esta se le conoce como variable

bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite el

cambio en una de las variables llamadas respuesta y que corresponde a otra conocida

como variable explicativa, la regresión es una técnica utilizada para inferir datos a

partir de otros y hallar una respuesta de lo que puede suceder.

Siendo así la regresión una técnica estadística, por lo tanto para interpretar

situaciones reales, pero a veces se manipula de mala manera por lo que es necesario

realizar una selección adecuada de las variables que van a construir las formulas

matemática, que representen a la regresión.

BIBLIOGRAFIA

Torino H. Resumen del libro de Estadísticas de Berenson y Levine

Dirección: http:// www.mografias.com/trabajos13 /beren/beren.shtml)

RODRÍGUEZ JAUME, María José; MORA CATALÁ, Rafael. "Análisis de regresión

simple". En: Estadística informática: casos y ejemplos con el SPSS. Alicante:

Publicaciones de la Universidad de Alicante. ISBN 84-7908-638-6, pp. 3-17

trabajo de estadistica 2

Documents

act 2 trabajo colaborativo1-estadistica

trabajo estadistica terminado

trabajo colaborativo 2 estadistica

trabajo estadistica

trabajo estadistica

trabajo estadistica

trabajo seminario 2 de estadistica

trabajo 2 estadistica descriptiva unad 2014

trabajo colaborativo 2 estadistica descriptiva

trabajo final estadistica 2 (final)

trabajo colaborativo 2 estadistica descriptiva-100105-762

trabajo de estadistica 2 version final

trabajo estadistica belen

2 trabajo estadistica

trabajo estadistica 2

trabajo seminario 2 estadistica

estadistica descriptiva trabajo colaborativo 2

trabajo final estadistica 2

estadistica trabajo

trabajo estadistica inferencial 2