modelación

12
MODELACIÓN FLEXIBLE DE ELECCIONES DISCRETAS: UNA REVISIÓN CRÍTICA Ricardo Álvarez Daziano y Marcela A. Munizaga Departamento de Ingeniería Civil, Universidad de Chile. Casilla 228-3, Santiago, Chile. [email protected], [email protected] http://tamarugo.cec.uchile.cl/~dicidet/ RESUMEN El enfoque de modelación comúnmente aceptado en elecciones discretas se basa en la teoría de la utilidad aleatoria, que supone que la utilidad de un individuo puede ser descompuesta en una componente determinística y otra aleatoria. La distribución que se asuma sobre el término de error juega un rol fundamental, dado que de ella dependen los distintos modelos que es posible formular. Por un lado están los modelos tradicionales de la familia Logit, que ofrecen probabilidades de elección cerradas, pero con supuestos simplificatorios –identidad e independencia- que no siempre son sostenibles. Por otro, están los modelos más sofisticados, como por ejemplo Mixed Logit, Logit Heteroscedástico de Valor Extremo y Probit, con una estructura de error más general, pero cuya estimación resulta a su vez más compleja. En el desafío de incorporar estructuras de error más generales, es importante analizar qué estructuras sería deseable poder estimar y por qué. En este trabajo se discute las principales fuentes correlación y heteroscedasticidad, así como la estructura de covarianza aceptada por modelos como el Logit Multinomial, Logit Jerárquico, Probit, Logit de Nidos Cruzados, Logit Heteroscedástico de Valor extremo y Mixed Logit. Se discute las principales propiedades de los modelos y aspectos de estimación como la identificabilidad de los parámetros. Con esta revisión se desea aclarar que la búsqueda de mayor flexibilidad no es un fin en sí mismo: cada modelo tiene asociadas potencialidades y desventajas. Este trabajo pretende difundir el uso adecuado de modelos, haciendo notar la importancia de la justificación de los supuestos que se realicen sobre el término de error. PALABRAS CLAVE elecciones discretas, correlación, heteroscedasticidad

Upload: ruben-martinez

Post on 07-Nov-2014

3.204 views

Category:

Education


4 download

DESCRIPTION

texto pdf

TRANSCRIPT

Page 1: Modelación

MODELACIÓN FLEXIBLE DE ELECCIONES DISCRETAS:

UNA REVISIÓN CRÍTICA

Ricardo Álvarez Daziano y Marcela A. MunizagaDepartamento de Ingeniería Civil, Universidad de Chile. Casilla 228-3, Santiago, Chile.

[email protected], [email protected]://tamarugo.cec.uchile.cl/~dicidet/

RESUMEN

El enfoque de modelación comúnmente aceptado en elecciones discretas se basa en la teoríade la utilidad aleatoria, que supone que la utilidad de un individuo puede ser descompuesta enuna componente determinística y otra aleatoria. La distribución que se asuma sobre el términode error juega un rol fundamental, dado que de ella dependen los distintos modelos que esposible formular. Por un lado están los modelos tradicionales de la familia Logit, que ofrecenprobabilidades de elección cerradas, pero con supuestos simplificatorios –identidad eindependencia- que no siempre son sostenibles. Por otro, están los modelos más sofisticados,como por ejemplo Mixed Logit, Logit Heteroscedástico de Valor Extremo y Probit, con unaestructura de error más general, pero cuya estimación resulta a su vez más compleja. En eldesafío de incorporar estructuras de error más generales, es importante analizar quéestructuras sería deseable poder estimar y por qué. En este trabajo se discute las principalesfuentes correlación y heteroscedasticidad, así como la estructura de covarianza aceptada pormodelos como el Logit Multinomial, Logit Jerárquico, Probit, Logit de Nidos Cruzados, LogitHeteroscedástico de Valor extremo y Mixed Logit. Se discute las principales propiedades delos modelos y aspectos de estimación como la identificabilidad de los parámetros. Con estarevisión se desea aclarar que la búsqueda de mayor flexibilidad no es un fin en sí mismo: cadamodelo tiene asociadas potencialidades y desventajas. Este trabajo pretende difundir el usoadecuado de modelos, haciendo notar la importancia de la justificación de los supuestos quese realicen sobre el término de error.

PALABRAS CLAVEelecciones discretas, correlación, heteroscedasticidad

Page 2: Modelación

1. INTRODUCCIÓN

La econometría de elecciones discretas ha experimentado un crecimiento notable en losúltimos años, que sólo ha sido incorporado tímidamente a la práctica. Esto se puede explicarpor distintas razones, pero un factor crítico parece ser el que no se conocen claramente lasventajas y potencialidades asociadas a los modelos más nuevos. Los modelos de eleccióndiscreta utilizados en la modelación de demanda de transporte, están construidos de acuerdo ala teoría de la utilidad aleatoria (McFadden, 1974). Es así como se reconoce la complejidad deconocer la función de utilidad completa y se considera la presencia de múltiples fuentes deerror. Por ello se asume que la utilidad de un individuo puede ser descompuesta en unacomponente determinística (observada) y otra aleatoria (no observada). El término estocásticorecoge la incapacidad del modelador para observar todas las variables que influyen en ladecisión, errores de medición, diferencias entre individuos, percepciones incorrectas deatributos y la aleatoriedad inherente a la naturaleza humana (Manski, 1977). La distribuciónque se asuma sobre el término de error juega un rol fundamental, dado que de ella dependenlos distintos modelos que es posible formular (Ortúzar y Willumsen, 1994; McFadden, 2000).

Por un lado están los modelos tradicionales de la familia Logit: Multinomial (McFadden,1974) y Jerárquico (Williams, 1977; McFadden, 1978), que ofrecen probabilidades deelección cerradas, pero con supuestos simplificatorios - identidad e independencia - que nosiempre son sostenibles. Por otra parte, se encuentra el modelo Probit (Daganzo, 1979), conuna estructura de error general, pero cuya estimación resulta bastante compleja. En estecontexto, caracterizado además por avances tecnológicos en computación y métodosnuméricos, se ha cuestionado el uso de modelos simplificados y se han desarrollado algunosmodelos más complejos propuestos en la literatura a nivel teórico desde hace algún tiempo,haciendo estimables por ejemplo los modelos Mixed Logit (Ben Akiva y Bolduc, 1996;Brownstone y Train, 1999), Logit Heteroscedástico de Valor Extremo (Bhat, 1995; Hensher,1996) y Probit (Bunch, 1991; Munizaga y Ortúzar, 1997). Sin embargo en la prácticaprofesional se siguen utilizando los modelos más simples.

Si se desea incorporar modelos que permitan estructuras de error más generales, es importanteanalizar qué estructuras sería deseable poder estimar y por qué. La posible existencia decorrelación y heteroscedasticidad (distinta varianza) en los términos de error se puede darentre alternativas y entre observaciones. En la segunda sección del presente trabajo se discutelas principales fuentes de correlación y heteroscedasticidad que se puede detectar a nivelpráctico. En la sección tres se efectúa una revisión de modelos de elección discreta y suestructura de covarianza. En la sección cuatro se muestra cómo se complica la estimación delos modelos al plantear estructuras de covarianza más sofisticadas. Por último, en la sección 5se entregan las principales conclusiones en un marco de recomendaciones de modelacióncuando se espera la presencia de correlación o heteroscedasticidad.

2. HETEROGENEIDAD DEL TÉRMINO DE ERROR

Como se dijo en la introducción, en algunos casos sería deseable levantar los supuestos deindependencia y homoscedasticidad e incorporar lo que se puede denominar heterogeneidaddel término de error, agregando flexibilidad a la modelación. A continuación se discutealgunos de esos casos.

Page 3: Modelación

En primer lugar, es necesario recordar que si se asume un supuesto simplificatorio que obviala estructura real de la matriz de covarianza, el modelo perderá su capacidad de reproducir larealidad de un modo correcto y adecuado. Si se aplica un modelo para una situación particularen la cual los supuestos con los que fue construido no se cumplen, entonces se cae en un errorde especificación del modelo y eventualmente se obtendrá parámetros estimados yprobabilidades de elección inconsistentes (Horowitz, 1981).

A modo de ejemplo, se puede mencionar los efectos de la conocida propiedad deIndependencia de Alternativas Irrelevantes (IAI), propia del modelo Logit Multinomial y, engeneral, de cualquier modelo que suponga independencia de los términos de error (Ben-Akivay Lerman, 1985). Horowitz (1981) plantea que hay dos formas potenciales de solucionar esteproblema: incluir variables independientes adicionales en un intento por recoger aquellasvariables que están causando el levantamiento del supuesto iid, o bien trabajar con modelosmás generales que el Logit, que no necesiten dicho supuesto. Este último camino, que puededescribirse como la relajación del supuesto iid de los términos de error, puede subdividirse en(Bhat, 1997):

• Errores correlacionados idénticamente distribuidos.• Errores independientes no idénticamente distribuidos.• Errores correlacionados no idénticamente distribuidos.

Estos grupos de supuestos estadísticos del comportamiento se asocian a grupos de modelosespecíficos. A continuación se describe distintas fuentes de heteroscedasticidad y correlación.

HeteroscedasticidadHay características de modelación que pueden implicar que no todas las alternativas tengan lamisma varianza del término de error. Esto es lo que puede llamarse heteroscedasticidad entrealternativas (Munizaga et al, 2000). Un ejemplo claro es el de un individuo que se veenfrentado a un experimento de elección en el cual una de las alternativas es la que él o ellautiliza habitualmente. Es probable que su percepción de los atributos sea mucho más precisapara esa opción que para las restantes, presentando por tanto una menor varianza. Otra causaque se puede identificar es el caso en que algunas alternativas presentan mayor varianza queotras en sus atributos, como por ejemplo en el caso de alternativas de transporte quecomparten infraestructura (transporte de superficie) versus alternativas que cuentan con víaexclusiva (metro).

En el caso de heteroscedasticidad entre observaciones, probablemente el ejemplo más claro esla estimación con datos mixtos de Preferencias Reveladas y Preferencias Declaradas. Como setrata de bases de datos de distinta naturaleza, no se puede suponer que ambas tengan la mismavarianza del término de error. Otro ejemplo, que es posible encontrar, es cuando algunosusuarios poseen información más precisa sobre los atributos de las alternativas que otros(producto por ejemplo de dispositivos de información en línea).

CorrelaciónEn términos estadísticos, levantar el supuesto de independencia de los términos de errorcorresponde a aceptar términos fuera de la diagonal en la matriz de covarianza. Recogiendolos trabajos de Horowitz (1981) y Munizaga (1997), las fuentes de correlación pueden seragrupadas en tres grandes grupos:

Page 4: Modelación

Alternativas similares: cuando hay alternativas que poseen variables no observadas comuneso correlacionadas. Los casos más frecuentes en modelación de transporte son: alternativas detransporte privado versus alternativas de transporte público, presencia de alternativascombinadas, y modelación de elección de ruta en que algunas rutas comparten arcos. Algunosde estos casos es posible representarlos con una estructura de covarianza diagonal por bloques(en que no hay correlación cruzada).

Variaciones en los gustos: si existe variaciones en los gustos y no se recoge en la modelación,entonces se obtiene la presencia de una variable no observada, propia del individuo (elparámetro de gusto individual), que es fuente de correlación entre alternativas y entreobservaciones. El enfoque usual es considerar que los gustos son fijos y estables en el tiempo,y para modelar las potenciales diferencias lo que se hace es segmentar (Swait y Bernardino,2000), sin desconocer que puede ser deseable modelar variaciones dentro de cada segmento.

Múltiples respuestas en PD: Cuando a una persona se le aplica una encuesta de preferenciasdeclaradas (PD), se le somete a varios juegos de elección. Ciertamente en este caso esrazonable sostener que las respuestas de un mismo individuo podrían estar correlacionadas.Sin embargo, no existe consenso en la forma de representar esa correlación en un modeloestimable, y en general los estudios no han llegado a resultados concluyentes (ver Ortúzar etal, 1997). Munizaga (1997) plantea que el problema puede ser representado asumiendo lapresencia de variaciones en los gustos entre individuos, al suponer que todas lasobservaciones de un mismo individuo corresponderán a un mismo valor de los parámetros degusto. Una aplicación en esta línea es posible encontrarla también en el trabajo de Revelt yTrain (1998).

3. MODELOS DE ELECCIÓN Y SU ESTRUCTURA DE COVARIANZA

3.1. El Logit Multinomial (MNL)

Como el MNL supone errores Gumbel independientes e idénticamente distribuidos, entoncesno acepta correlación ni heteroscedasticidad. Luego, la matriz de covarianza asociada a estemodelo es diagonal. Además, como la varianza del término Gumbel se asocia con el factor deescala, entonces se tiene:

nnnn JJJJ II ×× ==

=Σ 2

22

2

2

2

6

00

0

0

00

λπ

σ

σ

σσ

L

OOM

MO

L

(1)

Para que el modelo sea identificable, debe fijarse el valor del factor de escala. En la mayoríade los casos implícitamente se hace el supuesto que el factor de escala (λ) es igual a uno.

3.2. El modelo Logit Jerárquico (LJ)

El modelo Logit Jerárquico fue construido para representar correlación entre grupos disjuntosde alternativas, las que se asocian a un nido. Consideremos, entonces, dos alternativas i,j en elnido k. A cada una de estas alternativas se le asocia una función de utilidad:

Page 5: Modelación

inkninin VU ξµ ++= (2)

jnknjnjn VU ξµ ++= (3)

donde ξin ~ Gumbel (0,λk) y µkn ~ f(0, σµ2), una distribución tal que µkn + máxi ξin ~ Gumbel

(0,Λ). Es claro que ambas alternativas comparten el término µkn, que por cierto es el causantede la correlación presente entre i y j. Por lo tanto al calcular la covarianza se obtiene:

2)var(),cov( µσµ == knjnin UU (4)

Además, por construcción del modelo, la varianza es222)var()var()var( εξµ σσσξµ =+=+= inkninU (5)

cuyo valor resulta independiente de la alternativa. En otras palabras, el LJ resultahomoscedástico por construcción. Luego, en términos generales

~

,,,,

0

)var()var()var(

),cov( jiCjijiCji

UU k

k

inkn

kn

jnin =∈≠∈

+= ξµµ

(6)

En resumen, este modelo permite una matriz de covarianza homoscedástica diagonal porbloques, modelando correlación positiva entre alternativas. Si se extiende el modelo a másniveles, entonces es capaz de recoger casos en que algunas alternativas son más similaresentre sí que otras1 (manteniendo siempre la estructura diagonal por bloques, es decir, sincorrelación cruzada). La relación entre la magnitud de la correlación y el parámetroestructural del modelo φk = Λ/λk está dada por:

jiCjiUU kk

jnin

≠∈

=,,

0

1),(corr

2φ(7)

y consecuentemente, la covarianza está dada por:

2

22

6)1(),cov(

Λ−= πφkjnin UU (8)

Por ejemplo, consideremos una situación de elección con cuatro alternativas. Supongamosademás que éstas pueden agruparse en dos nidos de dos alternativas cada uno. En este casoespecífico la matriz de covarianza tiene la forma:

−−

−−

Λ=Σ

1)1(00

)1(100

001)1(

00)1(1

622

22

21

21

2

2

φφ

φφ

π(9)

Para una excelente revisión de este modelo se propone consultar Ortúzar (2001), Munizaga yOrtúzar (1999) y Carrasco y Ortúzar (2002). 1 La estructura de nidos de una elección multidimendional debe ser interpretada como distintos niveles desimilitud y no como jerarquías entre las decisiones.

Page 6: Modelación

3.4. El modelo Logit de Nidos Cruzados (CNL)

Desarrollado por Vovsha (1997), ampliado en trabajos de Papola (2000) y Koppelman y Wen(2000a) e implementando una idea original de Williams (1977)2, este modelo GEVcorresponde a una generalización del LJ y permite que una alternativa pertenezca a la vez amás de un nido con diferentes grados de similitud α, permitiendo modelar estructuras decorrelación cruzada. La expresión general para la matriz de covarianza de un Logit de NidosCruzados es (Papola, 2000):

∑ −⋅Λ

=k

kjkikji UU )1(6

),cov( 22/12/12

2

φααπ(10)

Para la diagonal se cumple que:

2

2

2

22/12/1

2

2

66)01(

6)var(),cov(

Λ=

Λ=−⋅

Λ== ∑∑ παπααπ

kik

kikikiii UUU (11)

Un punto importante de destacar, es que existe cierta confusión en la aplicación del modeloCNL. En modelos de elección de ruta es práctica usual considerar una matriz de covarianzaproporcional a la utilidad3 (Papola, 2000; Yai et al, 1997). Para construir esta matriz senecesita que la función de utilidad pueda ser descompuesta en elementos separables; en elcaso de elección de ruta típicamente se considera la impedancia de cada arco. Esto hamotivado una metodología de estimación del CNL que calcula los parámetros αik imponiendoque la covarianza del modelo corresponda a una matriz dada.

Para facilitar la estimación, se utiliza una forma artificial de construir los nidos, en que lasalternativas de elección (rutas) definen los nidos; mientras que los arcos (componentesseparables que definen una ruta) son considerados alternativas elementales. En términos mássimples, los nidos se crean a partir de las verdaderas alternativas, y como alternativas seconsideran elementos que permitan obtener una matriz proporcional a la utilidad. Laconfusión se crea al asociar esta metodología como una condición del modelo, lo que puedellevar a asumir correlación cruzada cuando en efecto no la hay. No está de más señalar, que elmodelo también permite trabajar con una estructura de nidos tradicional.

Existe otro modelo, denominado Logit Combinatorial Pareado (PCL), propuestooriginalmente por Chu (1989) y retomado en estudios recientes como el trabajo de Bekhor(1999) y Koppelman y Wen (2000b), que junta las alternativas de a pares, asociándoles unparámetro de similitud entre ellas. Este modelo no se ha incluido en este trabajo, debido a quesu estructura de covarianza puede ser fácilmente modelada como un caso particular del CNL.

3.5. El modelo Logit Heteroscedástico de Valor Extremo

Este modelo, cuya implementación es reciente (ver Munizaga et al, 2000) se basa en suponerque los errores distribuyen independiente, pero no idénticamente, Valor Extremo de Tipo I(Bhat, 1997; Hensher, 1996). Los elementos en la diagonal de la matriz de covarianza están

2 Williams describe un modelo al que llama Logit de Correlación Cruzada, sin asumir directamente unadistribución para los errores.3 Se asume que la matriz de covarianza es proporcional a las impedancias de las rutas (por ejemplo, el largo ocosto de cada ruta define cada varianza; y el largo o costo común entre rutas, cada covarianza).

Page 7: Modelación

dados por:

22

2

6 ii θπσ = (12)

Consecuentemente los elementos fuera de la diagonal son cero. Nótese que para haceridentificable el modelo, debe fijarse uno de los factores de escala θi. La propiedad IAI no rigeen este modelo a menos que todos los parámetros de escala sean iguales. Aún más, Bhat(1995) demostró que un cambio marginal en la utilidad determinística de una alternativainduce cambios en la partición de mercado del resto que serán más pequeños para aquellasalternativas con un parámetro de escala mayor.

3.6. El modelo Probit

El modelo Probit asume que el vector aleatorio εn que contiene a los errores de cadaalternativa, distribuye en conjunto Normal multivariada, con una matriz de covarianzageneral.

tnJinnn n),,,,( 1 εεεε KK= , ( )

nnn JJJn N ×× Σ,0~ 1ε (13)

21

2212

11221

nn

n

JJ

J

n

σσ

σσσσσ

LL

MOM

M

L

(14)

Sin embargo, no todos los elementos de la matriz de covarianza pueden ser estimadoseconométricamente. Existen restricciones de identificabilidad que se deducen a partir deestudiar el modelo desviado con respecto a una alternativa (ver Bolduc, 1992). Esto haceparticularmente interesante la discusión de la estructura de la matriz de covarianza esperadaen cada caso particular de modelación.

3.7. El modelo Mixed Logit (ML)

El modelo Mixed Logit se deriva de suponer un término de error iid Gumbel, tal como lo haceel MNL, pero con una componente de error adicional que es la que permite trabajar conmayor flexibilidad (Brownstone y Train, 1999). Dada la siguiente función de utilidad:

inininin VU εη ++= (15)

donde η ~ f(η/θ*) y ε es iid Gumbel. Para construir la matriz de covarianza consideremos queηin = µn

t zin, que zn es la matriz de dimensión K×J que contiene a los vectores zin para cada

alternativa perteneciente al conjunto de elección del individuo (i ∈ Cn) y que εn es un vectoraleatorio iid Gumbel con matriz de covarianza Σε que contiene a los elementos εin. Si seasume que cada término de µn tiene una función densidad con media cero y varianza σ2

k y queel vector en su conjunto tiene una matriz de covarianza Ω, entonces la matriz de covarianzadel modelo (Σ), puede escribirse como:

Izzzz ntnn

tn

2εε σ+⋅Ω⋅=Σ+⋅Ω⋅=Σ (16)

Page 8: Modelación

Dependiendo de los supuestos considerados sobre los distintos términos de error, se puedemodelar correlación y heteroscedasticidad (Brownstone y Train, 1999; Munizaga y Álvarez,2000); su estructura puede entenderse como una parametrización de la matriz de covarianza,que puede ser tan general como se desee. En otras palabras, el ML permite trabajar conestructuras complejas de heterogeneidad, tales como correlación cruzada y variaciones en losgustos; sin embargo, la flexibilidad en términos de la matriz de covarianza que el modelopuede representar está limitada por las estructuras que se puedan generar a partir de lostérminos de error adicionales, y sujeta a las restricciones de identificabilidad.

4. EL COMPROMISO ESTIMABILIDAD/FLEXIBILIDAD

En general se puede afirmar que al adquirir mayor flexibilidad en el término de errormodelado, se pierden las facilidades de estimación asociadas a los modelos más simples. Losmodelos MNL y LJ pueden ser estimados simplemente mediante máxima verosimilitud,debido a que sus probabilidades de elección presentan expresiones matemáticas cerradas. Porotro lado, los modelos más flexibles requieren de simulación para la estimación de losparámetros. Esto debido a que la expresión de la probabilidad de elección corresponde a unaintegral que carece de primitiva. Por ello es posible hablar de un compromiso entreestimabilidad y flexibilidad.

4.1. Estimación por máxima verosimilitud simulada

Existen distintos métodos que intentan resolver el problema de la estimación de modelos confunciones objetivo analíticamente intratables. Dependiendo del contexto de modelación, lafunción objetivo puede ser una función de logverosimilitud, una función de pseudo-logverosimilitud o una función momento condicional (Bhat, 2000). Asimismo, es posiblereconocer tres grupos metodológicos de evaluación de integrales multidimensionales:

Métodos de integración por cuadratura : Relacionado con la teoría de polinomiosortogonales, estos métodos corresponden a una integración numérica a través de interpolaciónpolinomial. Sin embargo, la construcción de fórmulas de integración eficientes basadas eninterpolación polinomial para integrales multidimensionales es sustancialmente más complejaque para problemas unidimensionales, donde este tipo de métodos es altamente utilizado.

Métodos de Simulación de Monte Carlo (o Pseudo Monte Carlo): Los métodos deintegración basados en simulación de Monte Carlo obtienen el integrando para una secuenciaaleatoria de puntos y calculan el promedio de estos valores. La idea básica que hay detrás esel reemplazo de una esperanza continua por un promedio discreto para puntos aleatoriamenteseleccionados. El método se ve respaldado por la ley de los grandes números, la queprácticamente asegura la convergencia. En términos prácticos no se dispone de secuencias denúmeros aleatorios, sino de secuencias determinísticas pseudoaleatorias que aparecen comoaleatorias a la luz de los tests estadísticos.

Simulación de Cuasi Monte Carlo: El concepto básico de estos métodos (MCMC) es elmismo de la simulación de Monte Carlo: se evalúa la integral multidimensional reemplazandocon un promedio de los valores del integrando calculados en puntos discretos. Sin embargo,en vez de utilizar números pseudoaleatorios se recurre a secuencias que distribuyen de manera

Page 9: Modelación

“inteligente” más uniformemente en el dominio de integración. El no usar númerospseudoaleatorios para definir los puntos discretos en los que se evalúa el integrando noconlleva ningún tipo de problemas; de hecho, lo importante es que en esta secuencia cuasialeatoria los números elegidos sean lo suficientemente representativos del espacio deintegración, de modo que, por medio de una mayor dispersión de estos puntos, se asegure unaconvergencia más rápida. Las secuencias cuasi aleatorias más utilizadas en el último tiemposon las denominadas series de Halton (Bhat, 2000).

Para el caso del modelo HEVL, la integral que describe su probabilidad de elección no puedeser evaluada directamente, pero puede ser reescrita de forma de evaluarla usando cuadraturade Gauss-Laguerre (Bhat, 1997; Munizaga et al, 2000).

El método de estimación del Probit más difundido en la actualidad es el simulador deprobabilidades GHK (ver Munizaga y Ortúzar, 1997), el cual entrega buenos resultados, aúnconsiderando números bajos de repeticiones. Sin embargo, para casos extremos presentadificultad para encontrar las probabilidades. En el trabajo de Munizaga y Alvarez-Daziano(2001) se encontró dos casos específicos en los que falla el simulador: alternativas conprobabilidad muy baja de ser escogidas (lo que en la literatura se denomina outliers ) yalternativas con un grado de correlación muy alto. En primer lugar, si una alternativa tieneuna probabilidad muy baja de ser escogida, entonces se afecta la matriz de covarianza y porello no siempre es posible descomponerla. Por otro lado, si la correlación es muy alta,numéricamente ambas alternativas aparecen virtualmente iguales, por lo que la matriz decovarianza se vuelve semidefinida positiva. Así, al presentar columnas linealmentedependientes se viola que sea definida positiva, ya que deja de ser de rango completo y elvector de error sólo se mueve en un subespacio del originalmente definido. Dado que elsimulador GHK se basa justamente en que la matriz de covarianza sea definida positiva, sevuelve imposible encontrar la factorización de Cholesky que permite reducir el problema.

En cuanto a los procedimientos de estimación de los modelos Mixed Logit la recomendaciónde la literatura es utilizar métodos de Máxima Verosimilitud Simulada a través de MétodosPseudo Monte Carlo (MPMC) y Cuasi Monte Carlo (MCMC). El análisis de convergencia enel contexto de errores estocásticos correlacionados realizado por Munizaga y Alvarez-Daziano (2001), mostró que el uso de series de Halton asegura una convergencia más rápida,por lo que se requiere un menor número de repeticiones de la simulación en comparación aluso de números pseudoaleatorios, siendo esto coincidente con lo reportado en otros estudios.Esta situación se explica por dos causas: En primer lugar, se encuentra el hecho intrínseco delas series de Halton, que permiten cubrir el dominio de integración de una forma inteligente.Sin embargo, esta explicación no es suficiente, ya que la convergencia más rápida de losMCMC no está asegurada a no ser que el integrando se trate de una función con buenaspropiedades matemáticas. Es así como se encuentra la segunda explicación que vuelve losMCMC la alternativa más atractiva: los modelos Mixed Logit poseen un integrando tipoLogit. Esta función es suave, diferenciable y bien comportada, lo que permite asegurar unatasa de convergencia menor.

4.2. Identificabilidad de los parámetros

Tanto en la literatura como en la aplicación práctica, el análisis de la identificabilidad suelerestringirse a la normalización de uno de los parámetros para fijar los efectos de escala

Page 10: Modelación

propios de los modelos de elección discreta. Esto se cumple en general en los modelos conestructuras de error más simples (Ben-Akiva y Lerman, 1985); sin embargo, al agregarflexibilidad aparecen otros efectos que no permiten identificar la totalidad de los parámetros.

Bunch (1991) presenta reglas claras que permiten concluir de qué forma se pueden identificarlos parámetros, considerando condiciones de orden y rango. La condición de orden,necesaria para la identificabilidad, establece una cota para el número de parámetrosidentificables en un modelo determinado. Para efectuar el análisis conviene separar lostérminos de la matriz de covarianza que son constantes a lo largo de la muestra de los que nolo son. Las condiciones de orden sólo aplican a la porción constante de la matriz decovarianza y, considerando un conjunto universal de elección (C, compuesto de Jalternativas), establece el siguiente máximo para el número de parámetros identificables:

12

)1(* −−= JJ

s (17)

Este número es igual a la cantidad de elementos en la matriz de covarianza diferenciada conrespecto a una alternativa cualquiera, menos un término que se escoge arbitrariamente a fin defijar la escala del modelo4.

La condición de rango, suficiente para la identificabilidad, es más restrictiva que lacondición de orden y se basa en el análisis del rango de la matriz de covarianza diferenciada,pasando por alto su estructura interna. De esta forma, de acuerdo al rango se obtiene elnúmero de columnas linealmente independientes que pueden ser usadas para encontrar losparámetros de la matriz. Bolduc (1992) y Bunch (1991) describen un mecanismo paraencontrar la condición de rango, para el cual se estudia la matriz Jacobiana de la matriz decovarianza desviada. El número de parámetros que pueden ser estimados resulta igual alrango de la matriz Jacobiana, menos uno (al fijar la escala del modelo).

Si de las condiciones de orden y rango se concluye que se debe imponer restricciones deidentificabilidad (normalizaciones), entonces se requiere la condición de matriz definidapositiva (Ben Akiva et al, 2001) para determinar el conjunto aceptable de normalizaciones.La normalización se requiere debido a que hay infinitas soluciones posibles asociadas a laestructura de covarianza. Así, la normalización permite encontrar una solución única, sincambiar la estructura de covarianza de la diferencia de utilidades. Una normalización seráválida, entonces, si la matriz de covarianza diferenciada es igual a la matriz no normalizada(teórica) del modelo y si aquélla es definida positiva.

La aplicación de estas condiciones se justifica porque la identificabilidad de los parámetros nosiempre es intutiva. Por ejemplo, si se trabaja con alternativas agrupadas en dos nidos segúnun Nested Mixed Logit5 (ver Munizaga y Alvarez-Daziano, 2001), no es posible estimar lavarianza propia de cada nido (que es la que induce correlación). La explicación simple es queen la matriz de covarianza desviada con respecto a una alternativa, que es la que el modelo“observa” durante la estimación, sólo aparece la suma de las varianzas, permitiendoidentificar esa suma, pero no cada componente por separado. El peligro está en la factibilidadde estimar este modelo, ocultando el problema y conduciendo a conclusiones erróneas. 4 En el caso de parámetros aleatorios, la matriz de covarianza varía de individuo a individuo. Esto ofrece unlímite que en efecto no representa una restricción (Ben Akiva et al, 2001)5 Este modelo se construye agregando una componente de error adicional propia de cada nido.

Page 11: Modelación

5. CONCLUSIONES

Cada modelo de elección discreta posee sus propiedades, ventajas y limitaciones que debenser consideradas a la hora de tomar el desafío de incorporar a la modelación los últimosavances en econometría. Hay que estudiar con cuidado las hipótesis sobre las cuales se basa laforma actual de modelar, analizando rigurosamente cada especificación particular. Así, sepuede promover el uso de herramientas más sofisticadas en aquellos casos en los que sejustifica adecuadamente los supuestos utilizados y se ha analizado sus consecuencias previo ala estimación de los parámetros. Lo primero tiene que ver con cuánta flexibilidad (estructurade la matriz de covarianza) se necesita de acuerdo al contexto de modelación; por otro lado, sedebe tener claro cuáles serán las implicancias en términos de la estimación del modelo.

En este trabajo se ha ofrecido una síntesis de los modelos de elección discreta más utilizados,poniendo énfasis en el compromiso flexibilidad/estimación. Se ha descrito la estructura deerror asociada a cada uno de ellos y las técnicas de estimación de los modelos más flexibles.También se trató el tema de la identificabilidad de los parámetros. En conjunto se hace ver lanecesidad de estudiar en profundidad la matriz de covarianza, como una herramienta útil paracontestar la difícil pregunta de qué modelo utilizar para una situación dada.

Finalmente, es posible dar algunas recomendaciones de modelación. Ante la presencia decorrelación entre alternativas es posible utilizar los modelos Logit Jerárquico, Logit de NidosCruzados, Probit y Mixed Logit. Sin embargo, nótese que cada uno va a tener sus propiossupuestos y que se requiere un número elevado de observaciones para recoger adecuadamentelos parámetros asociados a correlación. Para modelar variaciones en los gustos es posible usarProbit, aunque el Mixed Logit aparece como una aplicación natural. A través de un MixedLogit en panel de datos es posible abordar el problema aún pendiente de correlación entreobservaciones. Si se desea modelar heteroscedasticidad, entonces se debe recurrir a modeloscuya matriz de covarianza acepte elementos distintos en la diagonal: Mixed Logit y el modeloLogit Heteroscedástico de Valor extremo son una posibilidad.

AGRADECIMIENTOS

Esta investigación ha sido parcialmente financiada por Fondecyt el programa Milenium.

REFERENCIAS

Bekhor, S. (1999) Integration of Behavioral Transportation Planning Models with the Traffic Assignment Problem.Tesis Doctoral, Technion – Israel Institute of Technology, Haifa.

Ben-Akiva, M.E. y D. Bolduc (1996) Multinomial probit with a logit kernel and a general parametricspecification of the covariance structure. Working Paper, Department d’Economique, Université Laval,Québec.

Ben-Akiva, M., D.Bolduc, y J. Walker (2001) Specification, Identification, and Estimation of the Logit Kernel(or Continous Mixed Logit) Model. Working Paper presentado en el 5th Invitational Choice Symposium,Asilomar, California.

Ben-Akiva, M.E. y S.R. Lerman (1985) Discrete Choice Analysis: Theory and Application to Travel Demand.The MIT Press, Cambridge, Mass.

Bhat, C.R. (1995) A heteroscedastic extreme value model of intercity travel mode choice. TransportationResearch 29B, 461-483.

Bhat, C.R. (1997) Recent methodological advances relevant to activity and travel behavior analysis. ResourcePaper Prepared for the IATBR Conference, Austin, Texas, Septiembre.

Page 12: Modelación

Bhat, C.R. (2000) Quasi-random maximum simulated likelihood estimation of the mixed multinomial logitmodel. 9th International Association for Travel Behaviour Research Conference, Queensland, Australia.

Bolduc, D (1992) Generalized autoregressive error in the multinomial probit model. Transportation Research 26B,155-170.

Brownstone, D. y K.E. Train (1999) Forescating new product penetration with flexible substitution patterns.Journal of Econometrics 89, 109-129.

Bunch, D.A. (1991) Estimability in the multinomial probit model, Transportation Research 25B, 1-12.Carrasco, J.A. y J.deD. Ortúzar (2002) A review and assessment of the nested logit model. Transport Reviews 22

(en imprenta).Chu, C. (1989) A paired combinatorial logit model for travel demand analysis. Proceedings of the Fifth World

Conference on Transportation Research 4, Ventura, CA. 295-309.Daganzo, C.F. (1979) Multinomial Probit: The Theory and its Applications to Travel Demand Forecasting.

Academic Press, Nueva York.Hensher (1996) Extending valuation to controlled value functions and non-uniform scaling with generalised

unobserved variances, Working paper ITS-WP-96-9, Institute of Transport Studies, University of Sydney.Horowitz, J. (1981) Identification and diagnosis of specification error in the multinomial logit model.

Transportation Research 15B, 345-360.Koppelman, F.S. y C.H. Wen (2000a) The generalized nested logit model. 79th Annual Meeting Transportation

Research Board , Washington, Enero 2000.Koppelman, F.S. y C.H. Wen (2000b) The paired combinatorial logit model: properties, estimation and

application. Transportation Research 34B, 75-89.Manski, C. (1977) The structure of random utility models. Theory and Decision 8. 229-254.McFadden, D. (1974) Conditional logit analysis of qualitative choice behavior. En P Zarembka (ed.), Frontiers

in Econometrics. Academic Press, Nueva YorkMcFadden, D. (1978) Modelling the choice of residential location. En A.Karlqvist, L.Lundqvist, F.Snickars y

J.Weibull (eds.), Spatial interaction theory and residential location , North-Holland, Amsterdam, 75-96.McFadden, D. (2000) Disaggregate behavioral travel demand’s RUM Side. A 30-year retrospective. 9th

International Association for Travel Behaviour Research Conference, Queensland, Australia.Munizaga, M.A. (1997) Implicancias de la Naturaleza de los Datos en la Modelación de Elecciones Discretas.

Tesis Doctoral. Pontificia Universidad Católica de Chile, Escuela de Ingeniería.Munizaga, M.A. y R. Alvarez-Daziano (2000) Modelos mixed logit: uso y potencialidades. Actas del XI

Congreso Panamericano de Ingeniería de Tránsito y Transporte, Noviembre, Gramado, Brasil, 523-535.Munizaga. M.A. y R. Alvarez-Daziano (2001) Mixed MNL models: a comparison with nested logit and probit.

Working Paper presentado en la Invitational Choice Conference, Asilomar, California.Munizaga, M.A. y J.de D. Ortúzar (1997) On the applicability of the multinomial probit model. Proceedings of

the 25th European Transport Forum P415, PTRC Education and Research Services Ltd., London.Munizaga, M.A. y J.de D. Ortúzar (1999) Nested logit modelling: some hard facts. Proceedings of the European

Transport Forum P434, PTRC Education and Research Services Ltd., Londres.Munizaga, M.A., B.G. Heydecker y J. de D. Ortúzar (2000) Representation of heteroskedasticity in discrete

choice models. Transportation Research 34B, 219-240.Ortúzar, J.deD. (2001) On the development of the nested logit model. Transportation Research 32B, 213-216.Ortúzar, J.deD. y L.G. Willumsen (1994) Modelling Transport. Segunda Edición, John Wiley and Sons,

Chichester.Ortúzar, J.deD., D. Roncagliolo y U. Velarde (1997) Interactions and independence in stated preference

modelling. Proceedings of the 25th European Transport Forum P415, PTRC Education and ResearchServices Ltd., London.

Papola, A. (2000) Some development on the cross-nested logit model. 9th International Association for TravelBehaviour Research Conference, Queensland, Australia.

Revelt, D. y K.E. Train (1998) Mixed logit with repeated choices: household’s choice of appliance efficiencylevel. Review of Economics and Statistics 80, 647-657.

Swait, J. y A. Bernardino, (2000) Distinguishing taste variation from error structure in discrete choice data.Transportation Research 34B, 1-15.

Vovsha, P. (1997) Cross nested logit model: an application to mode choice in the Tel-Aviv metropolitan area.Transportation Research Board , 76th Annual meeting, Washington D.C.

Williams, H.C.W.L. (1977) On the formation of travel demand models and economic evaluation measures ofuser benefit. Environment and Planning 9A, 285-344.

Yai, T., S. Iwakura y S. Morichi (1997) Multinomial Probit with structured covariance for route choicebehaviour. Transportation Research 31B, 195-207.