clases ana_lisis ii-2

Upload: carlos-mackenney-bertran

Post on 06-Jul-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 Clases Ana_lisis II-2

    1/12

  • 8/18/2019 Clases Ana_lisis II-2

    2/12

    - J es : variable independiente, variable e!plicativa, covariable,variable de control, regresor#

    - G es: residual, t"rmino de error &actor no observado- Ho / H1: parámetros o coe&icientes a estimar#-

    9)9*. GA$A*. *$)A$*.- ;a idea básica es estimar parámetros poblacionales a partir de una

    muestra#- .ea !,/: i1,K#,n una muestra aleatoria de tamaLo de n de una

    población#- ?ara cada observación en el muestral, tenemos: /iHo6H1!i6Ii

    E.+9A) E H1 H2- Esto se puede evitar adoptando el criterio de mínimos cuadrados#- F*$9G;A. MGE E.+A) E) E; ?*NE$

    1O de agosto de 2014- ?ara el trabajo tiene ue ser una variable de intervalo, /a ue el

    modelo de regresión lineal solo se 'ace con esas variables#- Puscar tema / base de datos, / luego de ver las variables armas el

    marco teórico#

    P*)A E AQG.+E E; 9*E;* 3 .G?GE.+*. E E.+9A)R$2 :

    - El r2 o coe8ciente de determinación da cuenta de la bondad de de

    ajuste del modelo#- E!plica la variación total de / a partir de la variación de cada Si respecto a / promedio# Esto se llama sumatoria de los cuadradostotales# .##+#.+: T/i U/promedio2

    - ;a .+ posee dos componentes: .E / .$#.Esuma de cuadrados e!plicados: T V/ i U / promedio2 .$ sumade cuadrados residuales: TV/i U /i 2

    - .$: es lo ue no logro e!plicar con la regresión, el residuo# ;os&actores ue no se logra e!plicar, por ejemplo los &actores e!ternos ala asistencia en un ramo, ue e!plican el no sacarse una buena nota#

    .e busca ue este valor sea lo más peueLo posible#- @aria entre 0 / 1#RPondad de ajuste

    - Wómo saber ue tan bueno es el ajuste entre la línea de regresión /los datos de la muestraX

    - .e busca indicar la reducción proporcional en el error de predicciónpor utili%ar la regresión en ve% del promedio#

    - Esto es la llamada r-cuadrada de una regresión- $2 .E(.+ 1 U .$(.+

  • 8/18/2019 Clases Ana_lisis II-2

    3/12

    • n&erencia:- 3iY6H!6Ii- .e puede 'acer in&erencia estadística, la di&erencia Wpermite 'acer

    in&erencia estadísticaX ;a recta de regresión nunca escompletamente igual a la realidad#

    - uando se estiman los modelos del parámetro el error esta dado apartir de la di&erencia entre lo ue pro/ectamos / observamos#

    - ;os H son estadísticos- El componente aleatorio da el error#•  +est de 'ipótesis: análisis in&erencial- omponente aleatorio el error entre lo ue observa / lo ue se estima- .e reali%an supuestos relacionados con la naturale%a de la

    aleatoriedad ue permite estimar los beta de la regresión, cuando seestima con mico minimos cuiadrados ordinales necesito ue secumplan todos los supuestos para estimar / muc'os están

    relacionados con el componente aleatorio del error#- PREGUNTA DE PRUEBA: CUAL ES LA DIFERENCIA ENTRE EL

    COMPONENTE PROBABILISTICO Y EL COMPONENTE ALEATORIOEN UNA REGRESIÓN.

    - omponente probabilístico: el beta estimado es e!trapolable a lapoblación porue sobre este se 'ace un test de 'ipótesis

    - omponente aleatorio en una regresión: tiene ue ver con ladi&erencia entre lo observado en la realidad / lo predic'o# ((aleatorio:supuestos ue permiten estimar la regresión van del 7 al O

    .G?GE.+*.

    1# )o 'a/ error de especi8cación, es decir ue la relación entre lavariable independiente / dependiente sea lineal# .i la relación no eslineal el valor de beta no es constante, por lo ue necesita ue larelación sea lineal#

    2# )o 'an sido incluidas variables irrelevantes ni e!cluidas variablesrelevantes# debido a ue si se 'ace esto se altera el modelo, elmodelo de regresión calcula el e&ecto de cada variable calculado porlas demás, se puede perder e8ciencia#

    5# ;as variables están correctamente medidas, bajo este supuesto no'a/ errores de medición de la variable dependiente# .i los 'ubiera no'abría problemas de sesgo, sin embargo, las estimaciones serían

    ine8cientes# problemas de varian%a las variables independientestampoco pueden tener problemas de medición# ?or ejemplo, ue lavariable de ingreso este altera debido a ue la gente miente con suingreso#

    4# )o e!iste multicolinealidad per&ecta# onsiderando este supuesto, noe!iste relación per&ecta entre dos o más variables independientes#Esto no resulta tan probable# ;as variables de H se pueden volverimprecisas /a ue las variables pueden estar superpuestas#

    SUPUESTOS SOBRE EL ERROR

    7# El t"rmino de error es una variable aleatoria con medida poblacional#

     +iene ue ser aleatorio con medida 0, se busca ue el error seaaleatorio# ;a suma de todas las desviaciones para un nivel

  • 8/18/2019 Clases Ana_lisis II-2

    4/12

    determinado de ! es igual a 0# Esto implica ue los errores sonindependientes de las variables independientes incluidas en elmodelo#

    Z# )o e!iste 'eterocedasticidad# Esto es ue el error tenga un patrón, siesto ocurre los estimadores ue se tiene estarán estimados, los H#

    [# )o e!iste auto -correlación entre errores# .i se 'ace un análisis másdetenido de esta a8rmación, tiene ma/or "n&asis cuando se 'ace unanálisis longitudinal, /a ue en este escenario es donde los errorespodrían estar asociados: el error en t1 puede estar correlacionado conel error t0#

    \# El termino de error es una variable ue se distribu/e normal, parapoder 'acer in&erencia estadística, se 'acen para poder estimar los H,la &orma en ue se estima puede ser e!trapolable en la población, esdecir ue los estimadores sean los mejores lineales insesgados, elestimador está en torno a parámetros poblacionales, lo ue 'ace ueeste insesgado respecto a la población#

    2Z de agosto de 2014REGRESIÓN MULTIVARIADA

    - Es la manera de controlar el e&ecto de cada una de las variablesindependientes sobre la variable dependiente#

    - El análisis multivariado permite estimar la relación de 3, como &unciónde !1 aislando el e&ecto de !2#

    - ?ara saber ue variable posee n e&ecto ma/or sobre / se utili%an losbeta estandari%ados, ue permite ue las unidades seancomparables#

    - .e estandari%an restando a su valor el promedio de la variable /dividiendo por la desviación estándar#1 - .e interpreta como el cambio en t"rminos de desviación#- )o sirve la interpretación cuando 'a/ variables ue no son

    signi8cativas#- $2 $ cuadrado: aumentar una variable independiente en el modelo

    implica disminuir los grados de libertad, por ende, se debe reali%aruna corrección al cálculo del r2#

    9ulticolinealidad

    - incluir variables independientes implica tambi"n ue ellas no poseanalta correlación entre sí# se busca ue ambas variablesindependientes no están mu/ correlacionadas, /a ue de otra &ormase genera una superposición mu/ grande lo ue deja poco espaciopara entender el e&ecto ue ambas variables tienen por separado

    - ncluir dos variables independientes mu/ correlacionadas no permiteestimar el e&ecto de una variable sobre la dependiente#

    n&erencia estadística

    1 Es la &órmula ue vimos en la a/udantía#

  • 8/18/2019 Clases Ana_lisis II-2

    5/12

    - los estimadores 9* son variables aleatorias, ue cambiarán segnla muestra# )uestro objetivo no es solamente estimar la F$9, sinopoder 'acer in&erencia respecto de la F$?#

    - ;a porción in&erencial de los beta se reali%a mediante una prueba de'ipótesis#

    - Estimar la &! poblacional, ue mis beta se aceruen lo más posibleal parámetro poblacional ue es lo ue sucede en la $#- .irve para saber si los beta son signi8cativos respecto a la población#- +est para contrastar: +- ]ipótesis nula: H10- ]a: H1 ^ 0#- Wuál es la parte descriptiva en el análisis de regresiónX +iene ue ver

    con el coe8ciente beta, con la magnitud de ese beta / además setiene una parte in&erencial ue tiene ue ver con ue si ese beta ue/o estimo a partir de mi muestra no es representativo a partir de lapoblación# ;o ue interesa es estimar la &unción de la recta nomuestral, si no poblacional## #para ue el beta este lo más cercano alo ue va a suceder en la realidad#

    istribución de la probabilidad#

    - ?ara poder 'acer in&erencia sobre los estimadores, es necesarioconocer sus distribuciones de probabilidad# ;a in&erencia estadísticase puede reali%ar siempre / cuando la muestra sea representativa dela población / ue sea probabilística#

    - El test ue se utili%a para la in&erencia estadística es el test

     +est de independencia#

    - .e testea si la relación entre variables es signi8cativa o no, es decir,si es estadísticamente independiente o no#

    - .i la pendiente es 0, incluir a ! no a/uda a e!plicar nada de lavariabilidad de / por lo ue el mejor estimador de / es su promedio#

    - ;a &orma especí8ca es la &unción + depende del tamaLo pero en lamedida ue aumenta el n se acerca a lo normal#

    @alor ?

    - .e testea si la relación entre variables es signi8cativa o no, es decir,si es estadísticamente independiente o no#

    n&erencia sobre el modelo de regresión- .e reali%a mediante el test F ue evala la signi8cancia total del

    modelo#- Pusca probar ue las @ en &orma colectiva son estadísticamente

    signi8cativas en relación a la @#

    Ejemplo ingreso&'oras trabajadas, tamaLo de la empresa

    - +abla Bresumen del modeloC se lee el Br cuadradoC para e!plicar elmodelo, en este ejemplo e!plica un 0,001 de la variación de /, esdecir el modelo es p"simo / no e!plica casi nada#

    - En la tabla BanovaC se lee F#

  • 8/18/2019 Clases Ana_lisis II-2

    6/12

    - En la tabla Bcoe&icientesC se ve el H, lo ue implica ue ,# En estecaso, ! cada 'ora trabajada aumenta ! plata# uando se ve el valor ?sig# si es ma/or ue el al&a K

    2do ejemplo: estado de salud edad, edad primer 'ijo, consulta m"dica,controles de salud, ingreso 'ogar#

    - El r2 es 0,171 lo ue implica ue el modelo si e!plica#- En la tabla de coe8cientes se lee el Bsig#C 3 en este caso son todos

    signi&icativos 0 , despu"s se observan los H para observar cuantoaumenta o disminu/e cada beta#

    - ]a/ ue ver los coe&icientes tipicados para ver el H más relevante / eltipicado se observa en el valor absoluto#

    -

    2 de septiembre@ariable dumm/: nominal fcticia ue se crea para el análisis de regresiónue son 1 _ 0, brec'as entre grupos ausencia o presencia de unacaracterística, E!iste un e&ecto sobre la variable dependiente por el 'ec'ode pertenecer a un grupo o no

    ?A$A @E$ E; EFE+* E ?*.EE$ E$+* A+$PG+* ?*$ .*P$E )*?*.EE$;*

    ]a/ ue generar tantas variables dumm/ como atributos ue tiene esavariable menos uno

    ]ombre(mujer(trans(lesbiana(ga/`-14

    Alto(medio(bajo: alto 1, medio 0, bajo 0

    1medio, 0 bajo, 0 alto

    omo bajo no se considera se puede ver su inuencia#

    1 e!iste la característica

    2 no e!iste la característica

    Ejemplo:

    )ota ue vo/ a sacar

    )ota H06H1 asistencia 6 H2 grado de atención 6 H5 mujer

    160#7 asistencia60#5de atención61 mujer

    E&ecto de pertenecer a un gruposobre la variable dependiente

    1: ser mujer

  • 8/18/2019 Clases Ana_lisis II-2

    7/12

    0: ser 'ombre ategoría de re&erencia

    Es importante tener una 'ipótesis relacional con el e&ecto del grupo# .eincorpora una variable -1 dumm/ ! cada uno de los atributos ue tenga -1

    ncorporar una dumm/ signi8ca recodi8car en spss9ulticolianeidad per&ecta: una varible ! cada atributo sin categoría dere&erencia por lo tanto no tiene sentido de re&erencia# ;a categoría dere&erencia es la ue creo ue 'a/ ma/or di&erencia sobre el grupo

    ]a/ dos &ormas de incorporar las umm/, di&erencia en el e&ecto

    )ota: H06H1asistencia60#4 mujer ;a pendiente es la misma pero parten deun punto distinto, por eso se llama dumm/ intercepto

    • mujer: 0#760#5460#412#1•

    'ombre: 0#760#5460#401#[Ejemplo: aLos de escolaridad H06 0#1 mujer-0#0OZedad62#2[2urbano

    E&ecto interacción: eect a!ici"a# ue posee la variable independientepor el 'ec'o de pertenecer a un grupo

    G993 )+E$E?+*

    H06H1asistencia6H5 0#4 mujer H4 

    G993 ?E)E)+E: .E cambia además la pendiente

    E&ecto condicional: 'a/ una relación condicional entre dos variablesdependientes# ondicional porue ser mujer cambia el e&ecto ue posee laedad#

    @ariable sola

    @ariable de grupo

    @ariable de interacción

    2E$e%:

    2 ?articipación sindical de los trabajadores en argentina: principalesdeterminantes

  • 8/18/2019 Clases Ana_lisis II-2

    8/12

    ALos de escolaridad para una persona 70 aLos / es mujer: 14#Z60#1R1-0#0OZR70edad62#2[2ruralR060#7 edad70R1

    ALos de escolaridad para una persona 70 aLos / es 'ombre:14#Z-0#0OZedad60#1R262#2[2R060#770R0

    ;a pendiente de la mujer es 0#404 es una dumm/ pendiente, el interceptode la mujer es 14#[ el del 'ombre es 14#Z / la pendiente del 'ombre es0#0OZ

    O de septiembre

    'MICO:- ESTIMACIONES INSESGADAS:

    - para ue las estimaciones de 9* sean insesgadas / e8cientes, se debenreali%ar una serie de supuestos en torno al modelo ue se está estimando#

    - Esto es importante si consideramos ue el objetivo 8nal de la estimaciónes e!trapolar los datos de una población de inter"s#

    - ecimos ue estamos en presencia de estimadores insesgados cuandoestos están en torno al parámetro poblacional#

    - a# sesgo -` b en torno parámetro poblacional  b# e8ciencia# Esto uiere decir ue la varian%a sea mínima#

    - decimos ue los estimadores son e8cientes cuando estos se apro!iman alparámetro con la mínima varian%a#

    - el estimador sesgado está en torno al valor poblacional# .i esta sesgadono se esta tomando el &actor puro de esa variable#

    - es importa te ue el + este bien calculado / ue tenga la mínima varian%a,/a ue gracias a eso se puede validar o no 'ipótesis, /a ue modi8ca el b#

  • 8/18/2019 Clases Ana_lisis II-2

    9/12

    - los supuestos micos se dividen en dos grandes partes, uno tiene ue vercon los supuestos en los variables independientes / los otros supuestostienen ue ver con los ue se relacionan con el error#

    ' ()&)e(t *: #a +%a )"ci"a# e( #i"ea#.

    - en el modelo poblacional, la variable dependiente / se relaciona con lavariable independiente ! / el error u del siguiente modo#

     3 Ho 6 H1!1

    - cuando /o tengo relaciones ue no son lineales entre ! e / lo uepasa es ue el e&ecto no es constante entre los dos valores de /# /elvalor estará sesgado /a ue el valor /a no es constnate#

    - Asi la relación entre las variables es lineal en sus parámetros# Este esel primer supuesto ue se debe cumplir al momento de una regresiónlineal prpiamente tal#

    - ]a/ ue considerar ue esa linealidad es una condición ue se testea

    al momento de correlacionar de &orma bivariada cadavariableindependiente !

    - Al gra8car la relación es posible observar cómo se comporta lamuestra#

    S#)ci"e( : t+a"(+%aci," )"ci"a#- si una relación entre ! e / no es lineal, el e&ecto de ! sobre / no es

    constante#- El estimador del e&ecto en / de ! es sesgado U no necesita aun ser

    correcto en media- ;a solución a este problema es estimar una &unción de regresión ue

    no sea lineal en J:  ?olinomios en J: la &unción de regresión poblacional se apro!ima

    por un polinomio cuadrático, cubico, o de ma/or orden# +rans&ormaciones logarítmicas: / /(_ J se trans&orman tomandosuslogaritmos# Esto proporciona una interpretación deBporcentajesC ue tiene muc'o sentido en algunas aplicaciones#

    '()&)e(t : e+++ !e (+e e(&ecifcaci,".

    '()&)e(t .*: e+++ !e () e(&ecifcaci,".

    - ocurre cuando se e!clu/e variables no revelantes en el modelo#

    - coe8cientes sesgados, betas inconsistentes / test estadísticos pococon8ables#

    - depende de la naturale%a de la variable si aumenta o disminu/e el error#

    - onsecuencias:

    -` sesgos de coe8cientes, intercepto siempre sesgado#

    -` pendiente sesgada#

    -` e&ecto se va al error / se rompe *@ !,u 0

  • 8/18/2019 Clases Ana_lisis II-2

    10/12

    • ovarian%a !, u 0- Este supuesto re8ere a ue no e!iste relación entre ! / el termino de

    error# os cosas pueden causarlo:- Endogeneidad: .e re8ere a relaciones circulares entre las variables, ue como

    consecuencia produce un sesgamiento e inconsistencia en losestimadores#

    ;a solución es usar variables instrumentalesK#• 9ulticolinealidad:- onsecuencias: @arian%a mu/ grande, t peueLos, aumenta el / con ello la

    probabilidad de aceptar ]*# Establecer el e&ecto de correlación, indicador @F# .oluciones: aumentar el n / mantener @F, reducción de variables,

    nada, eliminar variable#

    14 de octubre

    Rlo ue veremos en el resto del semestre:

    9odelo de regresión logística binominal -` se trabaja con variables dumm/,en donde 1 es la presencia / 0 la ausencia de un &enómeno#

    9odelos multinominales -` es donde las variables tienen más de una

    categoría de respuesta#- uando se tiene una variable dependiente cualitativa dicotómica, se

    tiene ue correr un modelo de regresión logística porue no sirve unmodelo de regresión lineal, las variables cualitativas binominales sedistribu/en en valores de 0 / 1#

    - .i uno estima un modelo de regresión lineal se observa ue no e!isteuna relación lineal variables dicotómicas, / además se observanvalores &uera de rango lo ue genera ue dejen de ser interpretables#

    - mportancia de la regresión logística: el objetivo primordial ueresuelve esta t"cnica es el de modelar cómo inu/e en laprobabilidad de aparición de un suceso, 'abitualmente dicotómico, lapresencia o no de diversos &actores / el valor o nivel de los mismos# uanti8car la importancia de la relación e!istente entre cada una

    de las covariables / la variable dependiente lasi8car individuos dentro de las categorías presente(ausente

    de la variable dependiente, segn la probabilidadK#- El propósito de la regresión logística: es predecir la probabilidad de

    ue a alguien le ocurra cierto evento: por ejemplo, BestardesempleadoC 1 o Bno estarloC 0##

    - Wcómo se estima en regresión logísticaX ;a probabilidad del caso eslos casos &avorables(los casos posibles#

    - ;a *.: es los casos &avorables menos los casos no &avorables# Esun indicar de cuan probable es ue se de cierta probabilidad#probabilidad de "!ito, &rente a la probabilidad de &racaso

  • 8/18/2019 Clases Ana_lisis II-2

    11/12

    - ?or lo tanto la *. / la probabilidad no son lo mismo#- ;as *. no son lineales, esto uiere decir ue el cambio no es lineal

    / ue no a&ecta constantemente, es decir el cambio es e!ponencial,la relación entre las probabilidades no es lineal# Esto uiere decir uea medida ue aumenta la probabilidad, las oportunidad de ue

    aumente lo otro va aumentando aumenta la probabilidad de ganar- uando la probabilidad es 0, la *. es 0, pero cuando laprobabilidad es 1 la *. es in8nita#

    - Wu" ocurre con los valores negativosX .e necesita 'acer unatrans&ormación &uncional, es decir la variable dependiente /a no serála *., si no ue el logaritmo natural de la *.#

    - .iempre 'a/ ue 'acer una trans&ormación &uncional, debido a uesiempre 'abrá una probabilidad negativa, por lo tanto no se saca el*., si no ue se saca el logaritmo natural de la *.#

    - ;a *. es la probabilidad de ue el evento ocurra &rente a laprobabilidad de ue no ocurra / la ?$*PAP;A es la probabilidad

    de ue ocurra#- El logaritmo natural de la *. es ine!plicable, por lo ue 'a/ uesacar el e!ponente del logaritmo natural de la *.#

    E/ERCICIO:

     .ube.imce

    9antiene o baja.imce +otal

    Pajo 2\\ 220[ 24O79edio-bajo 4Z[ 1[\4 22719edio 570 11OZ 174Z9edio-

    alto 5ZO 71[ \\ZAlto 150 500 450 +otal 1Z04 Z004 [Z0\

    - *. ratio: sirve para comparar entre grupos#

    $eglas de los coe8cientes#- E!p A6Pf e!p A ! e!p P- E!p A!Pfe!pAP

    - A0

    1- E!p A ( e!p P e!p A-P

  • 8/18/2019 Clases Ana_lisis II-2

    12/12

    E!ponente es potencia, logaritmo es lo contrario

    21 de octubre

    Re&ecto de interacción:

    - es la incorporación de una variable ue tiene un e&ecto directo sobre lavariable dependiente, pero ue tambi"n cambia o modi8ca el e&ecto de lavariable dependiente sobre la independiente#

    - la interacción opera de la siguiente manera:

     3i H0 6 H1 Ji 6 ei

    h1 0 6 1 i

    -interacción en una regresión logística: la *. tiene una relacióne!poneneical con los betas por lo tanto, el e&ecto de interacción eda al8nal de la ecuación, / eso se lee como BK## *.##C

    - e!p beta 0 c'ance de "!ito para categoría de re&erencia del modelo0

    - e!p beta 1 ra%ón de c'ance entre !1 / !0 cuando %0

    - e!p beta 2 cambio en la ra%ón de c'ances entre J1 / J0 cuando 1/ 0