veter. 14 ava. regresión y correlación

37
Regresión y correlación FACULTAD DE CIENCIAS DE LA SALUD – ESCUELA ACADÉMICO PROFESIONAL DE MEDICINA VETERINARIA Y ZOOTECNIA ESTADÍSTICA Facultad de Ciencias de la Salud Dr. Mayhuasca Salgado Ronald Docente

Upload: univ-peruana-los-andes

Post on 23-Jan-2018

213 views

Category:

Education


8 download

TRANSCRIPT

Regresión y correlación

FACULTAD DE CIENCIAS DE LA SALUD – ESCUELA ACADÉMICO PROFESIONAL DE MEDICINA VETERINARIA Y ZOOTECNIA

ESTADÍSTICA

Facultad de Ciencias de la Salud

Dr. Mayhuasca Salgado RonaldDocente

Capítulo duro….!!!

Al término de la clase el estudiante será capaz de determinar el grado

de relación entre dos variables usando coeficientes y gráficos de

dispersion, contrastar si esa relación es significativa y predecir el

comportamiento de las mismas cuando varía una variable en función

de otra.

Propósito

Problema tipo

Un equipo de profesionales desea investigar el nivel de respuesta de 11canes mediante dos programa de adiestramiento: nueva prueba (X), contrala prueba estándar (Y) que están aplicando actualmente. Los resultadosfueron:

n = 11

𝑌 = 916

𝑋𝑌 = 71790

𝑋 = 825

𝑥2 = 64625

𝑦2 = 80076

1. Estime la recta deregresión lineal simple.

2. Determine e interprete elcoeficiente de correlacióny de determinación

Es una técnica que permite medir la fuerza o intensidad de larelación entre dos variables linealmente relacionadas, su gradode relación y su sentido

Correlación lineal simple

Se logra a través del Coeficiente de Correlación de Pearson: r

Para estimar el parámetro ρ (rho) se recurre a una

muestra aleatoria de “n” unidades

Las variables de preferencia deben ser cuantitativas y aleatorias.

Correlación lineal simple

r2: es el coeficiente de determinación y se suele expresar en porcentaje, indica en

qué porcentaje es explicada la variabilidad total de Y por la relación lineal entreambas variables.

El estimador del parámetro Rho está dado por

el coeficiente de correlación muestral “r”

Correlación lineal simple

r: Coeficiente de Correlación de Pearson

r =𝑛 ( 𝑥𝑦) −( 𝑥) ( 𝑦)

𝑛 ( 𝑥2) −( 𝑥)2 𝑛( 𝑦2)−( 𝑦)2

Coeficiente de correlación lineal simple

Guía para la interpretación de r

Valor de r Interpretación

0,00 Ausencia de correlación lineal

± 0,10 a ±0,19 Correlación lineal insignificante

± 0,20 a ±0,39 Correlación lineal baja-leve

± 0,40 a ±0,69 Correlación lineal moderada

± 0,70 a ±0,99 Correlación lineal alta a muy alta

± 1,00 Función lineal perfecta

El recorrido delcoeficiente decorrelación muestral

r está en el intervalo:

-1 ≤ r ≤ 1

Es la representación gráfica de larelación entre variablescuantitativas. Es el primer indicio dela forma o naturaleza de la relaciónentre variables .

Diagrama de dispersión de puntos

r=+0,96

r=- 0,96

r=+0,34

r=0Correlación alta (aceptable) e inversa

Se representan los datos en unagráfica para verificar la linealidad ydirección

Prueba de hipótesis sobre el parámetro ρ (rho)

Supuesto¿X e Y están correlacionadas lineal y significativamente?

Para determinar la significación estadística de r

Ho : ρ = 0 (X e Y no están ni lineal, ni significativamente correlacionadas)

H1 : ρ ≠ 0 (X e Y están lineal y significativamente correlacionadas)

Planteamiento de hipótesis

Prueba de hipótesis sobre el parámetro ρ (rho)

Prueba estadística

Para determinar la significación estadística de r

t n-2 = 𝑟.𝑛−2

1 −𝑟2

Grado de libertad (gl) de la distribución t = n-2

“t” sigue una distribución t deStudent con (n-2) grados delibertad si Ho es verdadera

Decisión estadística

Considerando el valor de “t” se calcula en la tabla la probabilidad decometer el error tipo I (denotado por p), estableciendo la regla de decisión:

Si, p < 0,05 se rechaza HoSi, p ≥ 0,05 NO se rechaza Ho

Correlación lineal simple

Se realizaron mediciones de la presión sanguínea sistólica (mmHg) mediante dosmétodos en 25 potros con hipertensión arterial. Se desea saber si existe relacióndirecta entre las medidas de presión obtenidas y los dos métodos de obtención.N.C: 99,95%

Paciente Método I Método II X2 Y2 XY

1234.

25

132138144146

220

130134132140

202

17424190442073621316

48400

16900179561742419600

40804

17160184921900820440

44440

Total 4440 4172 808408 710952 757276

Ejemplo

Primero calculemos el valor de r:

r =𝑛 ( 𝑥𝑦) −( 𝑥) ( 𝑦)

𝑛 ( 𝑥2) −( 𝑥)2 𝑛( 𝑦2)−( 𝑦)2

r =25 757276 −(4440)(4172)

25 808408 − 4440 2 25 710952 − 4172 2

r = 0,95

Correlación lineal alta a muy alta

Coeficiente de correlación lineal simple

Guía para la interpretación de r

Valor de r Interpretación

0,00 Ausencia de correlación lineal

± 0,10 a ±0,19 Correlación lineal insignificante

± 0,20 a ±0,39 Correlación lineal baja-leve

± 0,40 a ±0,69 Correlación lineal moderada

± 0,70 a ±0,99 Correlación lineal alta a muy alta

± 1,00 Función lineal perfecta

r = 0,95

Prueba de hipótesis sobre el parámetro ρ (rho)

Prueba estadística

Para determinar la significación estadística de r

t n-2 = 𝑟.𝑛−2

1 −𝑟2

Nivel de significación: 0,05

Planteamiento de hipótesis Ho : ρ = 0

H1 : ρ ≠ 0

t 25-2 = 𝑟.25−2

1 −(0,95)2

t 23= 14,41

Existe correlación lineal significativa entre lasmedidas de presión arterial obtenidas por los dosmétodos

No existe correlación significativa o es igual a 0

Prueba de hipótesis sobre el parámetro ρ (rho)

Para determinar la significación estadística de r

t 23= 14,41

Ubicamos el valor 14,41 dentro de la distribución T para determinar el valor de p

El valor p, se halla hacia la derechapor debajo de un nivel designificancia de 0,001.

O sea por encima de un N.C. deconfianza de 99,95%

Se rechaza

Ho

No se rechaza

Ho

Rechazar la Ho

Conclusión:

Decisión Valor de p: para una t de 14,41 con 23 g.l.:

p˂ 0,05

Existe alta correlación lineal y significativa entre las medidas depresión arterial obtenidas por los dos métodos (p˂ 0,05)

Correlación lineal simple

Pregunta tipo

Una empresa farmacéutica conduceun estudio para evaluar la relaciónentre tres dosis de un nuevo agentehipnótico y el tiempo de sueño.

Cuando la dosis del agentehipnótico se incrementa en 1mg/kg¿cuánto se incrementará la hora desueño inducido?

Análisis de regresión

Análisis de regresión

Es una técnica que trata de predecir, estimar y/oexplicar el valor de una variable (v. dependiente),cuando se tiene el valor de otras variables relacionadas(v. independientes)

Las variables X e Y deben ser de naturaleza cuantitativa y depreferencia continua.

Son estudios de la relación funcional entre dos variables relacionadas

Análisis de regresión

En otras palabras consiste en medir el grado de dependencia de unavariable dependiente denotada por (y) respecto a una variableindependiente (x) a través de una función matemática

En regresión lineal tenemos que ajustar una recta a los puntosobservados, a fin de usarla para predecir el valor de Y (variabledependiente) para un valor dado de X (variable independiente).

No todos los puntos se hallarán sobre la recta, pero la recta ajustada se suponeque pasa lo más cerca posible de todos los puntos

Regresión lineal simple

A la recta obtenida se le llamarecta de regresión cuya ecuaciónes la de la regresión lineal simple

Para cada valor de X prefijado, hay unasubpoblación de valores Y

Regresión lineal simple

Y = a + b . X

a: ordenada en el origen o intercepto, distancia entre el origen y el punto en que la recta

corta al eje Y, puede ser (+, -, 0)

b: Coeficiente de regresión, expresa la cantidad en la que varía Y cuando X aumenta en

una unidad, puede ser (+, -, 0)

Recta de regresión

Y = a + b.XVariable dependiente

Intersección en Y

Pendiente de la línea

Variable independiente

Regresión lineal simple

Estimadores mínimo-cuadráticos para hallar b

b= ( 𝑋.𝑌) − ( 𝑋)( 𝑌)

𝑛

( 𝑥2) − ( 𝑥)2𝑛

a = 𝒀

𝒏− 𝒃 𝑿

𝒏

a = 𝒚 − 𝐛 𝒙

𝒚 =a+ 𝐛 𝒙

Relación para hallar a en base a b

De esta relación lineal despejamos

la variable dependiente y

Supuestos para usar el modelo de regresión lineal simple

1. Intervienen dos variables cuantitativas continuas, una de ellas es la variableindependiente (x), a las que el investigador puede asignarle valores:investigaciones de tipo experimental). La otra variable es dependiente (y) porque puede ser influida por diversos determinantes o factores

2. Para cada valor de X hay una subpoblación de Y. Cada una de ellas debe estarnormalmente distribuida

3. Las medias de las subpoblaciones de Y se hallan sobre una línea recta(suposición de linealidad)

Regresión lineal simple

Una empresa farmacéutica conduce un estudio paraevaluar la relación entre tres dosis de un nuevoagente hipnótico y tiempo de sueño. Cuando la dosisdel agente hipnótico se incrementa en 1mg/kg¿cuánto se incrementará la hora de sueñoinducido?

Los resultados son presentados en la siguiente tabla:

Ejemplo

En el diagrama de puntos seaprecia una relación linealpositiva o directa entre ambasvariables

Diagrama de dispersión de puntos

Y = a + b.X

Dosis

Tiem

po

de

sueñ

o

Modelo de regresión linealsimple:

Primero verificamos si los datos se ajustan aun modelo de regresión lineal y evaluar sudirección

Regresión lineal simple

Cálculos previos

Prueba X Y X2 Y2 XY

123456789

333

101010151515

465987

13119

999

100100100225225225

163625816449

16912181

121815908070

195165135

Total 84 72 1002 642 780

Tiempo de sueñoen horas:

4 6 5 9 8 7 13 11 9

Dosis (mg/kg) 3 3 3 10 10 10 15 15 15

Obtención de la recta de regresión

Estimadores mínimo-cuadráticos

b= ( 𝑋.𝑌) − ( 𝑋)( 𝑌)

𝑛

( 𝑥2) − ( 𝑥)2𝑛

a = 𝒀

𝒏− 𝒃 𝑿

𝒏

a = 𝒚 − 𝐛 𝒙

b= 780 − (84)(72)

9

1002 − 842

9

= 0,5

a = 𝟕𝟐

𝟗− 𝟎, 𝟓

𝟖𝟒

𝟗= 𝟑, 𝟑𝟖

Obtención de la recta de regresión

Luego, el modelo de regresión lineal estimado es:

a = 𝒚 − 𝐛 𝒙

𝒚 =a+ 𝐛 𝒙

3,38 = 𝒚 − 𝟎, 𝟓 𝒙

𝒚 =3,38+ 𝟎, 𝟓 𝒙

Ecuación de la recta de regresión

Regresión lineal simple

Modelo de regresión lineal

𝒚 =3,38+ 𝟎, 𝟓 𝒙

Cuando la dosis del agente hipnótico seincrementa en 1mg/kg, el tiempo desueño se incrementa en 0,5 horas

X= 1 mg

Pero cuando:X=0 entonces y=3,38X=1 entonces y= 3,38 + (0,5 x 1)X=2 entonces y= 3,38 + (0,5 x 2)X=3 entonces y= 3,38 + (0,5 x 3)

Respuesta

Representa cuando:

Operacionalicemos

Coeficiente de regresión

Coeficiente de determinación (r2)

Este coeficiente nos indica el porcentaje de la variabilidad total de los valores de Y que están siendo explicadas por la regresión lineal simple

Toma valores entre 0 y 100%

Si por ejemplo el valor de r2= 78,39%

Se interpretará:

El 78,39% de la variabilidad existente …está siendo explicadapor la regresión

Conclusiones

- Los métodos de correlación permiten asignar un valor numérico alnivel de relación existente entre dos variables y además verificarsu significancia

- Los gráficos de dispersión nos orientan a decidir el uso de losmétodos de regresión y correlación lineal

Problema tipo

Un equipo de profesionales desea investigar el nivel de respuesta de 11canes mediante dos programa de adiestramiento: nueva prueba (X), contrala prueba estándar (Y) que están aplicando actualmente. Los resultadosfueron:

n = 11

𝑌 = 916

𝑋𝑌 = 71790

𝑋 = 825

𝑥2 = 64625

𝑦2 = 80076

1. Estime la recta deregresión lineal simple.

2. Determine e interprete elcoeficiente de correlacióny de determinación

Se llevó a cabo un experimento para estudiarel efecto de cierta droga en la disminución delritmo cardiaco en macacos. Los resultadosfueron:

Pregunta 02

Dosis (mg) X Reducción del ritmo cardiaco (lat/min) Y

0,50 10

0,75 8

1,00 12

1,25 12

1,50 14

1,75 12

2,00 16

2,25 18

1. Elabore un diagrama dedispersión de puntos

2. Realice valores predictivos (4) yrepreséntelos en la recta

3. Estime la recta de regresiónlineal simple. Interprete elcoeficiente de regresión

Pregunta 02