ponencia de regresión logística multinomial

10
REGRESIÓN LOGÍSTICA MULTINOMIAL Dr. Carlos Alfonso Risco Dávila Profesor Asociado a DE. del D.A.E. [email protected]

Upload: others

Post on 04-Feb-2022

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ponencia de Regresión Logística Multinomial

REGRESIÓN LOGÍSTICA MULTINOMIAL

Dr. Carlos Alfonso Risco Dávila

Profesor Asociado a DE. del D.A.E.

[email protected]

Page 2: Ponencia de Regresión Logística Multinomial

I. INTRODUCCIÓN

Supongamos que una corporación grande realiza un

estudio para escoger un plan de salud para sus

funcionarios y partir de tres opciones ofrecidas por la

empresa prestadora de servicios. De esta forma, la

variable en análisis es El tipo de plan de saludescogido, que posee naturaleza nominal y sus tres

niveles son denotados por A, B y C. Las variables

independientes utilizadas para escoger el plan de salud

son: la edad del funcionario, el tamaño de su familiay el sueldo mensual. El objetivo de este estudio es

modelar las opciones del plan de salud como una

función de las variables involucradas y presentar los

resultados en términos de proporciones de escoger los

diferentes planes.

Page 3: Ponencia de Regresión Logística Multinomial

I. INTRODUCCIÓN…

Page 4: Ponencia de Regresión Logística Multinomial

I. INTRODUCCIÓN…

La Regresión Logística Multinomial modela una relación

entre variables predictoras y una variable de respuesta

categórica. Por ejemplo, una variable categórica con

tres o más modalidades sin ordenamiento natural de los

niveles; como sabor (amargo, dulce y ácido), color

(rojo, azul, negro), materia de estudio (matemáticas,

ciencias, artes). A diferencia de la regresión lineal, que

predice los valores reales de la variable de respuesta,

la regresión logística modela la probabilidad asociada

con cada nivel de la variable de respuesta, al encontrar

una relación lineal entre variables predictoras y una

función de enlace de estas probabilidades; en este

caso particular la función es el logit.

Page 5: Ponencia de Regresión Logística Multinomial

II. FORMULACIÓN Y ESTIMACIÓN

Cuando se estudia los modelos de regresión logística

binaria se utiliza una variable aleatoria binaria, o sea,

que podía asumir por ejemplo, apenas los valores 0 y 1.

Así el modelo era parametrizado en términos del logit

de Y= 1 versus Y= 0.

Si consideramos una colección de r+1 variables

independientes denotadas por X= (X0, X1,…., Xr), donde

x=(x0, x1,…, xr) con x0=1 y una v.a. Y de naturaleza

nominal que puede asumir los niveles 0,1,…, q.

Un abordaje análogo a la regresión logística binaria es

describir el logit comparándose Y= k con Y= 0 para

kϵ{1, …, q}. El valor 0 entonces es denominado

categoría de referencia.

Page 6: Ponencia de Regresión Logística Multinomial

Si denotamos las funciones logit como:

𝑔𝑘 ≡ 𝑔𝑘 𝐱 = 𝑙𝑛 𝑃(𝑌= 𝑘 𝐱𝑃(𝑌= 0 𝐱= 𝛽𝑘0𝑥𝑘0 + 𝛽𝑘1𝑥1 +⋯+ 𝛽𝑘𝑟𝑥𝑟= 𝐱´𝜷𝒌, para kϵ{1, …, q}. (1)

donde 𝜷𝒌 = 𝛽𝑘0… , 𝛽𝑘𝑟 ´ y 𝑥𝑘0 = 1.

II. FORMULACIÓN Y ESTIMACIÓN…

Page 7: Ponencia de Regresión Logística Multinomial

Si asuminos n observaciones independientes de Y,

denotadas por y1,…, yn, asociadas a los valores de

xi=(xi0,…, xir), para iϵ{1,…,n}, el logit, dado en (1), se

presenta como

𝑔𝑘1 ≡ 𝑔𝑘1 𝐱𝟏 = 𝛽𝑘0𝑥10 + 𝛽𝑘1𝑥11 +⋯+ 𝛽𝑘𝑟𝑥1𝑟 + 𝜀1𝑔𝑘2 ≡ 𝑔𝑘2 𝐱𝟐 = 𝛽𝑘0𝑥20 + 𝛽𝑘1𝑥21 +⋯+ 𝛽𝑘𝑟𝑥2𝑟 + 𝜀2⋮𝑔𝑘𝑛 ≡ 𝑔𝑘𝑛 𝐱𝐧 = 𝛽𝑘0𝑥𝑛0 + 𝛽𝑘1𝑥𝑛1 +⋯+ 𝛽𝑘𝑟𝑥𝑛𝑟 + 𝜀𝑛, (2)

donde 𝑥𝑖0 = 1, para iϵ{1,…,n} y los errores, εi siguen

las siguientes suposiciones, para todo i ϵ{1,…,n}

II. FORMULACIÓN Y ESTIMACIÓN…

Page 8: Ponencia de Regresión Logística Multinomial

Definición 1. Las variables aleatorias Y1,…, Yn

satisfacen un modelo logístico multinomial si una

muestra de tamaño uno de cada Yi se puede expresar

como

𝑖 𝐸 𝜀𝑖 𝐱𝒊 = 0.𝑖𝑖 𝑉𝑎𝑟 𝜀𝑖 𝐱𝒊 = 𝑉𝑎𝑟 𝑌𝑖 𝐱𝒊 .𝑖𝑖𝑖 𝐶𝑜𝑣 𝜀𝑖 , 𝜀𝑙 = 0, 𝑠𝑖 𝑖 ≠ 𝑙.

𝜋𝑘𝑖 ≡ 𝜋𝑘𝑖 𝐱 = exp(𝑔𝑘𝑖)1+exp(𝑔𝑘𝑖) , (3)

II. FORMULACIÓN Y ESTIMACIÓN…

Page 9: Ponencia de Regresión Logística Multinomial

Donde gki está obtenida por la expresión (1), para la cual

xij es variable conocida y βkj es parámetro desconocido,

los errores εi poseen las suposiciones dadas en (2) y𝜋𝑘𝑖(𝐱) representa P(Yi=k/x), con iϵ{1,…,n}, jϵ{0,…,r} y

kϵ{0,…,q}.

Proposición 1: Una expresión general para las

probabilidades condicionales en un modelo con q+1

categorías es dada por

𝑃 𝑌 = 𝑘 𝐱 = 𝑒𝑥𝑝[gk(𝐱)] k=0q 𝑒𝑥𝑝[gk(𝐱)] ,

II. FORMULACIÓN Y ESTIMACIÓN…

Page 10: Ponencia de Regresión Logística Multinomial

Si k=0, 1, 2.

𝑃 𝑌 = 1 𝐱 = 𝑒𝑥𝑝[g1(𝐱)]1+exp g1 𝐱 +exp g2 𝐱 ,

II. FORMULACIÓN Y ESTIMACIÓN…

𝑃 𝑌 = 2 𝐱 = 𝑒𝑥𝑝[g2(𝐱)]1+exp g1 𝐱 +exp g2 𝐱 ,

𝑃 𝑌 = 0 𝐱 = 11+exp g1 𝐱 +exp g2 𝐱