clases ana_lisis ii-2
TRANSCRIPT
-
8/18/2019 Clases Ana_lisis II-2
1/12
-
8/18/2019 Clases Ana_lisis II-2
2/12
- J es : variable independiente, variable e!plicativa, covariable,variable de control, regresor#
- G es: residual, t"rmino de error &actor no observado- Ho / H1: parámetros o coe&icientes a estimar#-
9)9*. GA$A*. *$)A$*.- ;a idea básica es estimar parámetros poblacionales a partir de una
muestra#- .ea !,/: i1,K#,n una muestra aleatoria de tamaLo de n de una
población#- ?ara cada observación en el muestral, tenemos: /iHo6H1!i6Ii
E.+9A) E H1 H2- Esto se puede evitar adoptando el criterio de mínimos cuadrados#- F*$9G;A. MGE E.+A) E) E; ?*NE$
1O de agosto de 2014- ?ara el trabajo tiene ue ser una variable de intervalo, /a ue el
modelo de regresión lineal solo se 'ace con esas variables#- Puscar tema / base de datos, / luego de ver las variables armas el
marco teórico#
P*)A E AQG.+E E; 9*E;* 3 .G?GE.+*. E E.+9A)R$2 :
- El r2 o coe8ciente de determinación da cuenta de la bondad de de
ajuste del modelo#- E!plica la variación total de / a partir de la variación de cada Si respecto a / promedio# Esto se llama sumatoria de los cuadradostotales# .##+#.+: T/i U/promedio2
- ;a .+ posee dos componentes: .E / .$#.Esuma de cuadrados e!plicados: T V/ i U / promedio2 .$ sumade cuadrados residuales: TV/i U /i 2
- .$: es lo ue no logro e!plicar con la regresión, el residuo# ;os&actores ue no se logra e!plicar, por ejemplo los &actores e!ternos ala asistencia en un ramo, ue e!plican el no sacarse una buena nota#
.e busca ue este valor sea lo más peueLo posible#- @aria entre 0 / 1#RPondad de ajuste
- Wómo saber ue tan bueno es el ajuste entre la línea de regresión /los datos de la muestraX
- .e busca indicar la reducción proporcional en el error de predicciónpor utili%ar la regresión en ve% del promedio#
- Esto es la llamada r-cuadrada de una regresión- $2 .E(.+ 1 U .$(.+
-
8/18/2019 Clases Ana_lisis II-2
3/12
• n&erencia:- 3iY6H!6Ii- .e puede 'acer in&erencia estadística, la di&erencia Wpermite 'acer
in&erencia estadísticaX ;a recta de regresión nunca escompletamente igual a la realidad#
- uando se estiman los modelos del parámetro el error esta dado apartir de la di&erencia entre lo ue pro/ectamos / observamos#
- ;os H son estadísticos- El componente aleatorio da el error#• +est de 'ipótesis: análisis in&erencial- omponente aleatorio el error entre lo ue observa / lo ue se estima- .e reali%an supuestos relacionados con la naturale%a de la
aleatoriedad ue permite estimar los beta de la regresión, cuando seestima con mico minimos cuiadrados ordinales necesito ue secumplan todos los supuestos para estimar / muc'os están
relacionados con el componente aleatorio del error#- PREGUNTA DE PRUEBA: CUAL ES LA DIFERENCIA ENTRE EL
COMPONENTE PROBABILISTICO Y EL COMPONENTE ALEATORIOEN UNA REGRESIÓN.
- omponente probabilístico: el beta estimado es e!trapolable a lapoblación porue sobre este se 'ace un test de 'ipótesis
- omponente aleatorio en una regresión: tiene ue ver con ladi&erencia entre lo observado en la realidad / lo predic'o# ((aleatorio:supuestos ue permiten estimar la regresión van del 7 al O
.G?GE.+*.
1# )o 'a/ error de especi8cación, es decir ue la relación entre lavariable independiente / dependiente sea lineal# .i la relación no eslineal el valor de beta no es constante, por lo ue necesita ue larelación sea lineal#
2# )o 'an sido incluidas variables irrelevantes ni e!cluidas variablesrelevantes# debido a ue si se 'ace esto se altera el modelo, elmodelo de regresión calcula el e&ecto de cada variable calculado porlas demás, se puede perder e8ciencia#
5# ;as variables están correctamente medidas, bajo este supuesto no'a/ errores de medición de la variable dependiente# .i los 'ubiera no'abría problemas de sesgo, sin embargo, las estimaciones serían
ine8cientes# problemas de varian%a las variables independientestampoco pueden tener problemas de medición# ?or ejemplo, ue lavariable de ingreso este altera debido a ue la gente miente con suingreso#
4# )o e!iste multicolinealidad per&ecta# onsiderando este supuesto, noe!iste relación per&ecta entre dos o más variables independientes#Esto no resulta tan probable# ;as variables de H se pueden volverimprecisas /a ue las variables pueden estar superpuestas#
SUPUESTOS SOBRE EL ERROR
7# El t"rmino de error es una variable aleatoria con medida poblacional#
+iene ue ser aleatorio con medida 0, se busca ue el error seaaleatorio# ;a suma de todas las desviaciones para un nivel
-
8/18/2019 Clases Ana_lisis II-2
4/12
determinado de ! es igual a 0# Esto implica ue los errores sonindependientes de las variables independientes incluidas en elmodelo#
Z# )o e!iste 'eterocedasticidad# Esto es ue el error tenga un patrón, siesto ocurre los estimadores ue se tiene estarán estimados, los H#
[# )o e!iste auto -correlación entre errores# .i se 'ace un análisis másdetenido de esta a8rmación, tiene ma/or "n&asis cuando se 'ace unanálisis longitudinal, /a ue en este escenario es donde los errorespodrían estar asociados: el error en t1 puede estar correlacionado conel error t0#
\# El termino de error es una variable ue se distribu/e normal, parapoder 'acer in&erencia estadística, se 'acen para poder estimar los H,la &orma en ue se estima puede ser e!trapolable en la población, esdecir ue los estimadores sean los mejores lineales insesgados, elestimador está en torno a parámetros poblacionales, lo ue 'ace ueeste insesgado respecto a la población#
2Z de agosto de 2014REGRESIÓN MULTIVARIADA
- Es la manera de controlar el e&ecto de cada una de las variablesindependientes sobre la variable dependiente#
- El análisis multivariado permite estimar la relación de 3, como &unciónde !1 aislando el e&ecto de !2#
- ?ara saber ue variable posee n e&ecto ma/or sobre / se utili%an losbeta estandari%ados, ue permite ue las unidades seancomparables#
- .e estandari%an restando a su valor el promedio de la variable /dividiendo por la desviación estándar#1 - .e interpreta como el cambio en t"rminos de desviación#- )o sirve la interpretación cuando 'a/ variables ue no son
signi8cativas#- $2 $ cuadrado: aumentar una variable independiente en el modelo
implica disminuir los grados de libertad, por ende, se debe reali%aruna corrección al cálculo del r2#
9ulticolinealidad
- incluir variables independientes implica tambi"n ue ellas no poseanalta correlación entre sí# se busca ue ambas variablesindependientes no están mu/ correlacionadas, /a ue de otra &ormase genera una superposición mu/ grande lo ue deja poco espaciopara entender el e&ecto ue ambas variables tienen por separado
- ncluir dos variables independientes mu/ correlacionadas no permiteestimar el e&ecto de una variable sobre la dependiente#
n&erencia estadística
1 Es la &órmula ue vimos en la a/udantía#
-
8/18/2019 Clases Ana_lisis II-2
5/12
- los estimadores 9* son variables aleatorias, ue cambiarán segnla muestra# )uestro objetivo no es solamente estimar la F$9, sinopoder 'acer in&erencia respecto de la F$?#
- ;a porción in&erencial de los beta se reali%a mediante una prueba de'ipótesis#
- Estimar la &! poblacional, ue mis beta se aceruen lo más posibleal parámetro poblacional ue es lo ue sucede en la $#- .irve para saber si los beta son signi8cativos respecto a la población#- +est para contrastar: +- ]ipótesis nula: H10- ]a: H1 ^ 0#- Wuál es la parte descriptiva en el análisis de regresiónX +iene ue ver
con el coe8ciente beta, con la magnitud de ese beta / además setiene una parte in&erencial ue tiene ue ver con ue si ese beta ue/o estimo a partir de mi muestra no es representativo a partir de lapoblación# ;o ue interesa es estimar la &unción de la recta nomuestral, si no poblacional## #para ue el beta este lo más cercano alo ue va a suceder en la realidad#
istribución de la probabilidad#
- ?ara poder 'acer in&erencia sobre los estimadores, es necesarioconocer sus distribuciones de probabilidad# ;a in&erencia estadísticase puede reali%ar siempre / cuando la muestra sea representativa dela población / ue sea probabilística#
- El test ue se utili%a para la in&erencia estadística es el test
+est de independencia#
- .e testea si la relación entre variables es signi8cativa o no, es decir,si es estadísticamente independiente o no#
- .i la pendiente es 0, incluir a ! no a/uda a e!plicar nada de lavariabilidad de / por lo ue el mejor estimador de / es su promedio#
- ;a &orma especí8ca es la &unción + depende del tamaLo pero en lamedida ue aumenta el n se acerca a lo normal#
@alor ?
- .e testea si la relación entre variables es signi8cativa o no, es decir,si es estadísticamente independiente o no#
n&erencia sobre el modelo de regresión- .e reali%a mediante el test F ue evala la signi8cancia total del
modelo#- Pusca probar ue las @ en &orma colectiva son estadísticamente
signi8cativas en relación a la @#
Ejemplo ingreso&'oras trabajadas, tamaLo de la empresa
- +abla Bresumen del modeloC se lee el Br cuadradoC para e!plicar elmodelo, en este ejemplo e!plica un 0,001 de la variación de /, esdecir el modelo es p"simo / no e!plica casi nada#
- En la tabla BanovaC se lee F#
-
8/18/2019 Clases Ana_lisis II-2
6/12
- En la tabla Bcoe&icientesC se ve el H, lo ue implica ue ,# En estecaso, ! cada 'ora trabajada aumenta ! plata# uando se ve el valor ?sig# si es ma/or ue el al&a K
2do ejemplo: estado de salud edad, edad primer 'ijo, consulta m"dica,controles de salud, ingreso 'ogar#
- El r2 es 0,171 lo ue implica ue el modelo si e!plica#- En la tabla de coe8cientes se lee el Bsig#C 3 en este caso son todos
signi&icativos 0 , despu"s se observan los H para observar cuantoaumenta o disminu/e cada beta#
- ]a/ ue ver los coe&icientes tipicados para ver el H más relevante / eltipicado se observa en el valor absoluto#
-
2 de septiembre@ariable dumm/: nominal fcticia ue se crea para el análisis de regresiónue son 1 _ 0, brec'as entre grupos ausencia o presencia de unacaracterística, E!iste un e&ecto sobre la variable dependiente por el 'ec'ode pertenecer a un grupo o no
?A$A @E$ E; EFE+* E ?*.EE$ E$+* A+$PG+* ?*$ .*P$E )*?*.EE$;*
]a/ ue generar tantas variables dumm/ como atributos ue tiene esavariable menos uno
]ombre(mujer(trans(lesbiana(ga/`-14
Alto(medio(bajo: alto 1, medio 0, bajo 0
1medio, 0 bajo, 0 alto
omo bajo no se considera se puede ver su inuencia#
1 e!iste la característica
2 no e!iste la característica
Ejemplo:
)ota ue vo/ a sacar
)ota H06H1 asistencia 6 H2 grado de atención 6 H5 mujer
160#7 asistencia60#5de atención61 mujer
E&ecto de pertenecer a un gruposobre la variable dependiente
1: ser mujer
-
8/18/2019 Clases Ana_lisis II-2
7/12
0: ser 'ombre ategoría de re&erencia
Es importante tener una 'ipótesis relacional con el e&ecto del grupo# .eincorpora una variable -1 dumm/ ! cada uno de los atributos ue tenga -1
ncorporar una dumm/ signi8ca recodi8car en spss9ulticolianeidad per&ecta: una varible ! cada atributo sin categoría dere&erencia por lo tanto no tiene sentido de re&erencia# ;a categoría dere&erencia es la ue creo ue 'a/ ma/or di&erencia sobre el grupo
]a/ dos &ormas de incorporar las umm/, di&erencia en el e&ecto
)ota: H06H1asistencia60#4 mujer ;a pendiente es la misma pero parten deun punto distinto, por eso se llama dumm/ intercepto
• mujer: 0#760#5460#412#1•
'ombre: 0#760#5460#401#[Ejemplo: aLos de escolaridad H06 0#1 mujer-0#0OZedad62#2[2urbano
E&ecto interacción: eect a!ici"a# ue posee la variable independientepor el 'ec'o de pertenecer a un grupo
G993 )+E$E?+*
H06H1asistencia6H5 0#4 mujer H4
G993 ?E)E)+E: .E cambia además la pendiente
E&ecto condicional: 'a/ una relación condicional entre dos variablesdependientes# ondicional porue ser mujer cambia el e&ecto ue posee laedad#
@ariable sola
@ariable de grupo
@ariable de interacción
2E$e%:
2 ?articipación sindical de los trabajadores en argentina: principalesdeterminantes
-
8/18/2019 Clases Ana_lisis II-2
8/12
ALos de escolaridad para una persona 70 aLos / es mujer: 14#Z60#1R1-0#0OZR70edad62#2[2ruralR060#7 edad70R1
ALos de escolaridad para una persona 70 aLos / es 'ombre:14#Z-0#0OZedad60#1R262#2[2R060#770R0
;a pendiente de la mujer es 0#404 es una dumm/ pendiente, el interceptode la mujer es 14#[ el del 'ombre es 14#Z / la pendiente del 'ombre es0#0OZ
O de septiembre
'MICO:- ESTIMACIONES INSESGADAS:
- para ue las estimaciones de 9* sean insesgadas / e8cientes, se debenreali%ar una serie de supuestos en torno al modelo ue se está estimando#
- Esto es importante si consideramos ue el objetivo 8nal de la estimaciónes e!trapolar los datos de una población de inter"s#
- ecimos ue estamos en presencia de estimadores insesgados cuandoestos están en torno al parámetro poblacional#
- a# sesgo -` b en torno parámetro poblacional b# e8ciencia# Esto uiere decir ue la varian%a sea mínima#
- decimos ue los estimadores son e8cientes cuando estos se apro!iman alparámetro con la mínima varian%a#
- el estimador sesgado está en torno al valor poblacional# .i esta sesgadono se esta tomando el &actor puro de esa variable#
- es importa te ue el + este bien calculado / ue tenga la mínima varian%a,/a ue gracias a eso se puede validar o no 'ipótesis, /a ue modi8ca el b#
-
8/18/2019 Clases Ana_lisis II-2
9/12
- los supuestos micos se dividen en dos grandes partes, uno tiene ue vercon los supuestos en los variables independientes / los otros supuestostienen ue ver con los ue se relacionan con el error#
' ()&)e(t *: #a +%a )"ci"a# e( #i"ea#.
- en el modelo poblacional, la variable dependiente / se relaciona con lavariable independiente ! / el error u del siguiente modo#
3 Ho 6 H1!1
- cuando /o tengo relaciones ue no son lineales entre ! e / lo uepasa es ue el e&ecto no es constante entre los dos valores de /# /elvalor estará sesgado /a ue el valor /a no es constnate#
- Asi la relación entre las variables es lineal en sus parámetros# Este esel primer supuesto ue se debe cumplir al momento de una regresiónlineal prpiamente tal#
- ]a/ ue considerar ue esa linealidad es una condición ue se testea
al momento de correlacionar de &orma bivariada cadavariableindependiente !
- Al gra8car la relación es posible observar cómo se comporta lamuestra#
S#)ci"e( : t+a"(+%aci," )"ci"a#- si una relación entre ! e / no es lineal, el e&ecto de ! sobre / no es
constante#- El estimador del e&ecto en / de ! es sesgado U no necesita aun ser
correcto en media- ;a solución a este problema es estimar una &unción de regresión ue
no sea lineal en J: ?olinomios en J: la &unción de regresión poblacional se apro!ima
por un polinomio cuadrático, cubico, o de ma/or orden# +rans&ormaciones logarítmicas: / /(_ J se trans&orman tomandosuslogaritmos# Esto proporciona una interpretación deBporcentajesC ue tiene muc'o sentido en algunas aplicaciones#
'()&)e(t : e+++ !e (+e e(&ecifcaci,".
'()&)e(t .*: e+++ !e () e(&ecifcaci,".
- ocurre cuando se e!clu/e variables no revelantes en el modelo#
- coe8cientes sesgados, betas inconsistentes / test estadísticos pococon8ables#
- depende de la naturale%a de la variable si aumenta o disminu/e el error#
- onsecuencias:
-` sesgos de coe8cientes, intercepto siempre sesgado#
-` pendiente sesgada#
-` e&ecto se va al error / se rompe *@ !,u 0
-
8/18/2019 Clases Ana_lisis II-2
10/12
• ovarian%a !, u 0- Este supuesto re8ere a ue no e!iste relación entre ! / el termino de
error# os cosas pueden causarlo:- Endogeneidad: .e re8ere a relaciones circulares entre las variables, ue como
consecuencia produce un sesgamiento e inconsistencia en losestimadores#
;a solución es usar variables instrumentalesK#• 9ulticolinealidad:- onsecuencias: @arian%a mu/ grande, t peueLos, aumenta el / con ello la
probabilidad de aceptar ]*# Establecer el e&ecto de correlación, indicador @F# .oluciones: aumentar el n / mantener @F, reducción de variables,
nada, eliminar variable#
14 de octubre
Rlo ue veremos en el resto del semestre:
9odelo de regresión logística binominal -` se trabaja con variables dumm/,en donde 1 es la presencia / 0 la ausencia de un &enómeno#
9odelos multinominales -` es donde las variables tienen más de una
categoría de respuesta#- uando se tiene una variable dependiente cualitativa dicotómica, se
tiene ue correr un modelo de regresión logística porue no sirve unmodelo de regresión lineal, las variables cualitativas binominales sedistribu/en en valores de 0 / 1#
- .i uno estima un modelo de regresión lineal se observa ue no e!isteuna relación lineal variables dicotómicas, / además se observanvalores &uera de rango lo ue genera ue dejen de ser interpretables#
- mportancia de la regresión logística: el objetivo primordial ueresuelve esta t"cnica es el de modelar cómo inu/e en laprobabilidad de aparición de un suceso, 'abitualmente dicotómico, lapresencia o no de diversos &actores / el valor o nivel de los mismos# uanti8car la importancia de la relación e!istente entre cada una
de las covariables / la variable dependiente lasi8car individuos dentro de las categorías presente(ausente
de la variable dependiente, segn la probabilidadK#- El propósito de la regresión logística: es predecir la probabilidad de
ue a alguien le ocurra cierto evento: por ejemplo, BestardesempleadoC 1 o Bno estarloC 0##
- Wcómo se estima en regresión logísticaX ;a probabilidad del caso eslos casos &avorables(los casos posibles#
- ;a *.: es los casos &avorables menos los casos no &avorables# Esun indicar de cuan probable es ue se de cierta probabilidad#probabilidad de "!ito, &rente a la probabilidad de &racaso
-
8/18/2019 Clases Ana_lisis II-2
11/12
- ?or lo tanto la *. / la probabilidad no son lo mismo#- ;as *. no son lineales, esto uiere decir ue el cambio no es lineal
/ ue no a&ecta constantemente, es decir el cambio es e!ponencial,la relación entre las probabilidades no es lineal# Esto uiere decir uea medida ue aumenta la probabilidad, las oportunidad de ue
aumente lo otro va aumentando aumenta la probabilidad de ganar- uando la probabilidad es 0, la *. es 0, pero cuando laprobabilidad es 1 la *. es in8nita#
- Wu" ocurre con los valores negativosX .e necesita 'acer unatrans&ormación &uncional, es decir la variable dependiente /a no serála *., si no ue el logaritmo natural de la *.#
- .iempre 'a/ ue 'acer una trans&ormación &uncional, debido a uesiempre 'abrá una probabilidad negativa, por lo tanto no se saca el*., si no ue se saca el logaritmo natural de la *.#
- ;a *. es la probabilidad de ue el evento ocurra &rente a laprobabilidad de ue no ocurra / la ?$*PAP;A es la probabilidad
de ue ocurra#- El logaritmo natural de la *. es ine!plicable, por lo ue 'a/ uesacar el e!ponente del logaritmo natural de la *.#
E/ERCICIO:
.ube.imce
9antiene o baja.imce +otal
Pajo 2\\ 220[ 24O79edio-bajo 4Z[ 1[\4 22719edio 570 11OZ 174Z9edio-
alto 5ZO 71[ \\ZAlto 150 500 450 +otal 1Z04 Z004 [Z0\
- *. ratio: sirve para comparar entre grupos#
$eglas de los coe8cientes#- E!p A6Pf e!p A ! e!p P- E!p A!Pfe!pAP
- A0
1- E!p A ( e!p P e!p A-P
-
8/18/2019 Clases Ana_lisis II-2
12/12
E!ponente es potencia, logaritmo es lo contrario
21 de octubre
Re&ecto de interacción:
- es la incorporación de una variable ue tiene un e&ecto directo sobre lavariable dependiente, pero ue tambi"n cambia o modi8ca el e&ecto de lavariable dependiente sobre la independiente#
- la interacción opera de la siguiente manera:
3i H0 6 H1 Ji 6 ei
h1 0 6 1 i
-interacción en una regresión logística: la *. tiene una relacióne!poneneical con los betas por lo tanto, el e&ecto de interacción eda al8nal de la ecuación, / eso se lee como BK## *.##C
- e!p beta 0 c'ance de "!ito para categoría de re&erencia del modelo0
- e!p beta 1 ra%ón de c'ance entre !1 / !0 cuando %0
- e!p beta 2 cambio en la ra%ón de c'ances entre J1 / J0 cuando 1/ 0