model selection in social interaction frameworks: a

90
Model selection in social interaction frameworks: a bayesian approach Paula María Almonacid Hurtado Universidad Nacional de Colombia Escuela de Estadística Medellín, Colombia 2020

Upload: others

Post on 28-Oct-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Model selection in social interaction frameworks: a

Model selection in social interactionframeworks: a bayesian approach

Paula María Almonacid Hurtado

Universidad Nacional de ColombiaEscuela de Estadística Medellín, Colombia

2020

Page 2: Model selection in social interaction frameworks: a
Page 3: Model selection in social interaction frameworks: a

Selección de modelos en el marco demodelos de interacción social: un enfoque

bayesiano

Paula María Almonacid Hurtado

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al título de:Doctora en Ciencias-Estadística

Directores:Juan Carlos Salazar Uribe, Ph.D.Andrés Ramírez Hassan, Ph.D.

Línea de Investigación: Análisis multivariado yEstadística bayesiana

Grupo de investigación en Estadística

Universidad Nacional de ColombiaEscuela de EstadísticaMedellín, Colombia

2020

Page 4: Model selection in social interaction frameworks: a
Page 5: Model selection in social interaction frameworks: a

La preocupación por el hombre y su destino siempredebe ser el interés primordial de todo esfuerzotécnico. Nunca olvides esto entre tus diagramas yecuaciones.

Albert Einstein

Page 6: Model selection in social interaction frameworks: a
Page 7: Model selection in social interaction frameworks: a

AgradecimientosAgradezco a mi esposo, Sergio Castrillón, y a mis hijas Sara Catalina y Eloísa por su amor in-condicional, su apoyo y comprensión durante el desarrollo de mis estudios doctorales. Agradezcotambién muy especialmente a mis asesores y profesores, Juan Carlos Salazar y Andrés RamírezHassan, cuyas ideas y apoyo técnico hicieron posible la culminación de este trabajo de investiga-ción. Considero igualmente importante agradecer a los miembros de la alianza CAOBA-EAFIT, apartir de la cual surgió la idea de este proyecto y muchos de los insumos clave para el desarrollo yculminación del mismo. Finalmente un gran agradecimiento a mis padres y a todos mis colegas yamigos que me apoyaron incondicionalmente durante este proceso.

Page 8: Model selection in social interaction frameworks: a
Page 9: Model selection in social interaction frameworks: a

IX

ResumenSe propone una metodología para la selección de modelos de interacción social, considerando lacomplejidad en su especificación. Los modelos de interacción social presentan dos tipos de varia-bles explicativas, las interdependencias entre individuos, denotadas por una matriz de adyacencia,y las características específicas de dichos individuos. De acuerdo con esto, los investigadores de-ben considerar un número significativo de modelos posibles dados por 2(k−1) × Z, que representael número de combinaciones de k variables menos el intercepto en grupos de tamaños 2 a (k− 1),multiplicado por el número de posibles matrices de interacción social Z.

La metodología propuesta permite seleccionar simultáneamente las covariables y las matrices deinteracción social mediante la implementación de métodos bayesianos tales como Markov chainMonte Carlo model composition (MC3) y Bayesian Averaging Model (BMA). A grandes rasgos,estos métodos permiten obtener estimaciones e inferencias a partir de un promedio de modelosseleccionados luego de reducir su espacio al de mayor probabilidad. Se realizaron varios ejerciciosde simulación con el fin evaluar la metodología, así como dos casos de aplicación.

Adicionalmente, estos modelos fueron estimados utilizando los enfoques Bayesiano y de Máximaverosimilitud. Después de comparar los resultados, se encontró que el enfoque Bayesiano ofrecemúltiples ventajas, ya que es posible, a diferencia del método de Máxima verosimilitud, obtener ladistribución posterior de los parámetros, incluir información a priori, en caso de ser necesario, eintroducir incertidumbre asociada al espacio de elección de los modelos.

Palabras clave: Bayesian Model Averaging, Markov chain Monte Carlo model composition, Modelosde interacción social.

AbstractWe propose a methodology oriented towards the selection of social interaction models taking intoaccount the complexity in its specification. This type of models considers as explaining variablesthe inter-dependencies between individuals, represented by an adjacency matrix and the economiccharacteristics of a group of individuals. In this sense, researchers have to consider a significantnumber of possible models given by 2(k−1) × Z, which represents the number of combinations ofk variables without the intercept in groups of sizes from 2 to (k− 1) times the number of potentialsocial interaction matrices W .

This new methodology enables the process of simultaneous selection of the covariables and the so-cial interaction matrices, through the application of the Markov Chain Monte Carlo Model Compo-sition (MC3) and Bayesian Model Averaging methods, which are based on the Bayesian approach.These methods produce estimates and inferences from an average of models, which are selected

Page 10: Model selection in social interaction frameworks: a

X

after reducing the probability model space to the highest probability possible. Several simulationexercises were carried out to test the methodology, as well as two applications.

Additionally, these Social Interaction Models were estimated, using Bayesian and Maximum Like-lihood approaches. After comparing the results, we find that the Bayesian approach offers multipleadvantages; such as finding the posterior distribution of the parameters, including prior informa-tion, if it is necessary, and introducing model uncertainty.

Keywords: Bayesian Model Averaging, Markov chain Monte Carlo model composition, Social inter-action models

Page 11: Model selection in social interaction frameworks: a

Contenido

Agradecimientos VII

Resumen IX

1 Introducción 1

2 Modelos de interacción social 42.1 Introducción a los modelos de interacción social . . . . . . . . . . . . . . . . . . . 42.2 Preliminares estadísticos de modelos lineales . . . . . . . . . . . . . . . . . . . . 52.3 Especificación de la matriz de interacción social . . . . . . . . . . . . . . . . . . . 8

2.3.1 Algoritmo de Louvain . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3.2 Algoritmo Infomap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.4 Modelo lineal en medias y el problema de reflexión . . . . . . . . . . . . . . . . . 112.5 Efectos de interacción y Modelos de interacción social . . . . . . . . . . . . . . . 13

2.5.1 Presentación de los modelos de interacción social . . . . . . . . . . . . . . 142.6 Estimación bayesiana de modelos de interacción social . . . . . . . . . . . . . . . 17

2.6.1 Eliminación del parámetro incidental . . . . . . . . . . . . . . . . . . . . 172.6.2 Función de verosimilitud y distribuciones apriori . . . . . . . . . . . . . . 182.6.3 Distribuciones a priori de los parámetros . . . . . . . . . . . . . . . . . . 192.6.4 Distribuciones posteriores de los parámetros . . . . . . . . . . . . . . . . 202.6.5 Probabilidad posterior de los modelos . . . . . . . . . . . . . . . . . . . . 22

3 Selección de modelos de interacción social mediante un enfoque bayesiano 263.1 El Método Bayesian Model Averaging (BMA) . . . . . . . . . . . . . . . . . . . . 283.2 El Método de Markov chain Monte Carlo model Composition . . . . . . . . . . . 323.3 Promedio de modelos con efectos inciertos de interacción social . . . . . . . . . . 33

3.3.1 El Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Ejercicios de simulación 364.1 Ejercicios de simulación para la estimación de parámetros . . . . . . . . . . . . . 364.2 Ejercicios de simulación para encontrar la matriz de interacción social . . . . . . . 39

Page 12: Model selection in social interaction frameworks: a

XII Contenido

5 Aplicaciones de modelos de interacción social 435.1 Estimación bayesiana de un modelo de interacción en comunidades financieras

para la identificación de los determinantes de la rentabilidad . . . . . . . . . . . . 435.1.1 Especificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundariasdel Estado de Ohio (EEUU), en el año 2000 . . . . . . . . . . . . . . . . . . . . . 525.2.1 Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.2 Selección de variables mediante Markov chain Monte Carlo model com-

position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6 Conclusiones, recomendaciones y direcciones futuras de investigación 65

7 Apéndice 68

Bibliografía 72

Page 13: Model selection in social interaction frameworks: a

1 Introducción

En algunos ámbitos estadísticos y econométricos, con frecuencia se encuentra que se ha ignoradola incertidumbre de los modelos y por tanto, la inferencia sobre variables de interés suele subes-timar dicha incertidumbre, tal como lo demuestran Draper (1995); Hodges (1987); Leamer andLeamer (1978); Moulton and Zeger (1991); Raftery (1996), Raftery (1988). De acuerdo con Ma-digan and Raftery (1994), desde el enfoque bayesiano se propone una solución a este problemaen la cual se promedian las diferentes posibilidades de modelos, en cuanto a combinaciones devariables, con el fin de realizar inferencias de interés. Este enfoque proporciona una capacidad depredicción óptima en términos del error cuadrático medio.

Para complementar esta prpouesta, el enfoque bayesiano también ofrece entre diferentes alterna-tivas el método denominado Markov chain Monte Carlo model composition (MC3), desarrolladopor Madigan et al. (1995) para regresiones lineales. Entre las ventajas que ofrece este método seencuentra que permite calcular directamente una solución exacta cuando el espacio de elección demodelos podría ser muy grande, tan grande que no sería posible realizar estimaciones medianteherramientas de cómputo normales. Un claro ejemplo es la segunda aplicación realizada en estatesis, donde el espacio de modelos es igual a 10,485,760 (220× 10), donde, k = 20 y Z = 20, parael cual la distribución posterior de la variable de interés se aproxima mediante el método Markovchain Monte Carlo, explorando todas las posibilidades sobre el espacio de modelos.

En este sentido, en esta investigación se propone realizar el proceso de selección de variables ymatrices de interacción de forma simultánea para modelos de interacción social, mediante el enfo-que Markov chain Monte Carlo model composition (MC3). A la fecha se conocen desarrollos paramodelos con matrices de interacción endógena, pero no una propuesta similar para el caso de losmodelos de interacción objeto de este estudio, incluso la estimación bayesiana de sus parámetrosno ha sido muy estudiada, entre los pocos casos que conocemos se puede mencionar el trabajo deHsieh and Lee (2016).

Es importante resaltar que, en términos metodológicos, los modelos de interacción social, debi-do a su objetivo de modelar la toma de decisiones o comportamientos de un individuo, con baseen la influencia de las decisiones o comportamiento de sus compañeros de grupo, son un ejemploclaro en el cual la selección de variables explicativas representa un desafío para el investigador.Esto, pues dichos modelos comprenden el problema dual de selección, donde el investigador debedecidir no solo en cuanto a las variables predictoras, sino también, con respecto a las interacciones

Page 14: Model selection in social interaction frameworks: a

2 1 Introducción

entre individuos, las cuales no siempre son posibles de identificar con claridad.

Para ilustrar las ventajas de la metodología propuesta, en este trabajo se llevaron a cabo dos ejer-cicios de simulación y dos aplicaciones prácticas. En los ejercicios de simulación, se presentanlos métodos de estimación bayesiano y de máxima verosimilitud y se comparan los resultados en-contrados entre ambos métodos. Para el proceso de selección de variables y matrices mediante elmétodo MC3 y BMA se implementó una simulación a partir de un modelo hipotético de interac-ción social, para la cual se incluyeron variables y matrices basura (que no correspondían al procesogenerador de los datos), a fin de verificar la eficacia de la metodología propuesta para seleccionarlas variables y matrices que conforman el modelo.

En lo que respecta a la implementación práctica de la metodología propuesta, se formularon dospreguntas de investigación relacionadas con los temas de finanzas y educación. En el tema finan-ciero, se responde a la pregunta acerca de qué incidencia tienen las relaciones entre los clientescorporativos de un banco específico, en términos transaccionales, así como otras variables finan-cieras de dichos clientes, en la rentabilidad para una entidad financiera de Colombia. A parte de lautilización del método bayesiano para la estimación de modelos, se destaca en esta aplicación laimplementación de algoritmos de agrupación para la conformación de comunidades financieras enel banco.

Por su parte, con respecto al tema de educación se responde a la pregunta acerca de cuáles sonlos determinantes del gasto por estudiante, para las escuelas públicas del estado de Ohio, EEUU,en el año 2000, así como también se respondió a la pregunta acerca de cómo conformar grupos deescuelas cercanas (o similares) teniendo en cuenta como criterios la distancia espacial y las carac-terísticas socio-económicas de las escuelas.

Desde otro punto de vista, se considera importante anotar que, aunque el estudio de interaccio-nes sociales y sus efectos ha sido ampliamente investigado de forma transversal en muchas de lasdisciplinas de las ciencias sociales, no existe un consenso unánime acerca del enfoque metodológi-co óptimo a utilizar para la selección de variables (ejemplos interesantes de aplicación en las áreasde educación, empleo, finanzas y economía se encuentran en los trabajos de Sacerdote (2011), To-pa (2001), Cingano and Rosolia (2012), Kuan and Liu (1995), Ahelegbey (2015)).

En este sentido, esta investigación, permite realizar economías de escala al tender puentes entretodas las disciplinas interesadas, y ofrecer soluciones unificadas y académicamente sólidas a pro-blemas de común interés. El proveer una metodología que eventualmente permita decidir entrediferentes especificaciones de modelos de interacción social, ayudaría, indudablemente, a dar cla-ridad acerca de la dinámica de interacciones sociales, y permitiría mejoras en el diseño de políticassociales y económicas. De otra parte, la industria se beneficiaría en lo que tiene que ver con latoma de decisiones mejor informadas y orientadas a la consecución de sus objetivos específicos.

Page 15: Model selection in social interaction frameworks: a

3

Hartmann et al. (2008).

La estructura de esta tesis es la siguiente: 1) Contextualización de los modelos de interacción yexposición de los métodos frecuentista y bayesiano para la estimación de los parámetros del mo-delo objeto de estudio. 2) Marco teórico utilizado para el análisis del problema de investigación,los métodos de Markov chain Monte Carlo model composition y bayesian model averaging. 3)Resultados de las simulaciones para la estimación de parámetros y para la selección de modelos.4) Ilustración de la metodología mediante dos casos de aplicación. 5). Finalmente, se presentan lasconclusiones, recomendaciones y direcciones futuras de investigación.

Page 16: Model selection in social interaction frameworks: a

2 Modelos de interacción social

2.1. Introducción a los modelos de interacción social

La importancia del estudio de los modelos de interacción social es innegable. Múltiples y diver-sos ejemplos han sido presentados por Jackson (2010). Esto se explica, ya que las interaccioneseconómicas, políticas y sociales están formadas por una estructura de relaciones, representadaspor diversos conjuntos de conexiones (directas e indirectas), generalmente definidas a través deprecios, cantidades e información (De Paula, 2016).

Las redes sociales permean continuamente nuestras vidas en los ámbitos social y económico (Jack-son, 2010). Algunos ejemplos mencionados por Jackson (2010) que evidencian cómo las redespueden impactar las vidas de las personas hoy en día se enuncian a continuación: la transmisiónde información acerca de oportunidades de empleo, la realización de transacciones de bienes yservicios, la provisión de seguros en países en desarrollo, el contagio de enfermedades, el tipode productos que compramos, los idiomas que hablamos, la forma en que votamos, el nivel deeducación que recibimos, si nos convertirnos en criminales o no, la probabilidad de nuestro éxitoprofesional, etc.

De acuerdo con esto, son innumerables las situaciones en nuestras vidas que se ven afectadaspor las interacciones con otros individuos; y, por tanto, se hace necesario comprender cómo la es-tructura de las redes sociales pueden impactar nuestro comportamiento y cómo dichas estructurasde redes emergen en una comunidad determinada. Los modelos de interacción social tienen la po-sibilidad de proveer un marco de análisis de redes, área relativamente nueva de la economía social(Blume et al., 2011). Esta área fue desarrollada inicialmente por sociólogos, quienes han trabaja-do en la conceptualización de cómo una persona puede modificar su comportamiento cuando espermeable a los efectos grupales, así como también por los economistas, que han desarrollado me-todologías que tienen en cuenta explícitamente las interacciones sociales como las variables dentrodel modelo.

Recientemente, los modelos de interacción social han aumentado su aplicación, y considerandoque las redes se pueden representar mediante grafos (De Paula, 2016), componente básico de losmodelos de interacción social, en la siguiente sección se presentan conceptos y terminología bá-sica relacionada con la teoría de grafos, así como también preliminares estadísticos que permitenintroducir y comprender la estructura econométrica de los modelos de interacción social.

Page 17: Model selection in social interaction frameworks: a

2.2 Preliminares estadísticos de modelos lineales 5

2.2. Preliminares estadísticos de modelos lineales

Los modelos de interacción social parten de los modelos lineales en econometría, cuya especifica-ción basada en la notación utilizada en Wooldridge (2010) se presenta a continuación:

yi = β0 + β1xi1 + β2xi2 + . . . βkxik + εi, i = 1, 2, . . . , n (2-1)

donde yi es la variable dependiente para la observación i, y xij , j = 1, 2, . . . , k, son las varia-bles independientes. Como de costumbre, β0 es el intercepto y β1, . . . , βk denotan los paráme-tros de pendiente. Para cada i, se define un vector 1 × (k + 1), xi = (1, xi1, . . . , xik), y seaβ = (β0, β1, . . . , βk)

′ el vector (k + 1) × 1 de todos los parámetros. Finalmente, el término deerror, εi, se asume independiente y estadísticamente distribuido con media cero y varianza σ2 paratodo i. Por tanto, podemos escribir (2-1) como

yi = xiβ + εi, i = 1, 2, . . . n (2-2)

En general, en la literatura se prefiere definir xi como un vector de columna, en cuyo caso xise reemplaza por x′i en (2-2). Matemáticamente, tiene más sentido definirlo como un vector fila.Análogamente se puede escribir (2-2) en notación matricial completa definiendo apropiadamentevectores de datos y matrices. Sea y el vector n × 1 de observaciones en y, en el cual el i-ésimoelemento de y es yi. Sea X el vector n× (k+ 1) de observaciones sobre las variables explicativas.En otras palabras, la i-ésima fila de X consiste en el vector xi como se puede ver a continuación.

Xn×(k+1) ≡

x1

x2

...xn

=

1 x11 x12 . . . x1k

1 x21 x22 . . . x2k

...1 xn1 xn2 . . . xnk

(2-3)

Entonces podemos escribir (2-2) en notación matricial para n observaciones de la siguiente forma:

y = Xβ + ε (2-4)

Donde ε = (ε1, . . . , εn)′ es un vector de términos de pertubación, en el cual se asume que εi se

encuentra independiente y estadísticamente distristribuido con media cero y varianza σ2. Igual-mente, se considera importante mencionar que X tiene una dimensión n× (k+ 1), β presenta unadimensión (k + 1)× 1, y la dimensión de Xβ es n× 1.

Por otro lado, a partir de (2-4) y bajo los spuestos para la estimación por mínimos cuadrados or-dinarios, se obtiene el estimador β = (X ′X)−1Xy del vector de parámetros β = (β0, β1, . . . , βk)

que es un estimador insesgado, es decir E(β) = β, con matriz de varianzas y covarianzas∑

β =

σ2(X ′X)−1 = 1n−k−1

(ε′ε)(X ′X)−1. Por definición, el estimador MCO maximiza el coeficientede determinanción R2, que mide la propoción de variación de la variable dependiente explicada

Page 18: Model selection in social interaction frameworks: a

6 2 Modelos de interacción social

por el modelo, este se puede utilizar para seleccionar variables considerando su contribución a lavariación total explicada.

El error cuadrático medio (ECM) del estimador β con respecto a β se define como: ECM(β) =

E[β − E(β)]2 = V ar(β) + [Sesgo(β)]2 que se utiliza para evaluar la calidad de un estimadorconsiderando su varianza y sesgo.

Con relación con el estimador β, al considerar el problema de optimización y teniendo como refe-rencia uno de los criterios para la selección de variables, en el contexto MCO (Mínimos cuadradosordinarios) se tiene:

minβL(β) = minβ

n∑i=1

[yi − β0 − x′iβ]2 (2-5)

donde xi tiene 1 como primer elemento y k entradas más, cada una dando los valores de las varia-bles explicatorias, de modo que este vector xi es de dimensión (k+ 1), y donde β0 es el interceptodel modelo.

Ahora bien, si consideramos que la complejidad de un modelo está en el número de variables ex-plicativas, la técnica conocida como LASSO (Least Absolute Shrinkage and Selection Operator)permite estimar un modelo y seleccionar las mejores variables a retener (reducir su complejidad),similarmente a la práctica de estimar un modelo predictivo con el menor ECM que considera todaslas variables explicativas y se queda con aquellas que cumplen con el criterio de optimización:

minβL(β) = minβ

(n∑i=1

[yi − β0 − x′iβ]2

)sujeto a que

n∑i=1

|βs|6 λ (2-6)

Ahora bien, la ecuación (2-1) en un contexto temporal se puede escribir como:

yt = f(xt1, xt2, xt3 + · · · xtk) = β0 + β1xt1 + β2xt2 + · · · βkxtk + εt t = 1, 2, · · · , T (2-7)

donde εt : 1, 2, . . . , t es una secuencia i.i.d con media cero y varianza σ2. También se asume que εtes independiente de y0 y que E(y0) = 0. Un problema común que puede aparecer en este contextotemporal se puede definir como:

cov(εt, ε′t) 6= 0, t 6= t′

Bajo la anterior situación, se puede considerar la especificación de un modelo autorregresivo deorden p, asi:

yt = f(yt−1, yt−2, · · · yt−p, εt) = φ0 + φ1yt−1 + · · ·+ φpyt−p + εt, yt ∼ ar(p) (2-8)

en el cual εt : 1, 2, . . . , t es una secuencia i.i.d con media cero y varianza σ2. También se asumeque εt es independiente de y0 y que E(y0) = 0. Consideramos el caso particular yt = ar(1) sin in-tercepto yt = φ1yt−1 + εt que en términos del operador de razagos L equivale a yt = φ1yt−1 + εt =

Page 19: Model selection in social interaction frameworks: a

2.2 Preliminares estadísticos de modelos lineales 7

φLyt + εt, yt = φ1Lyt + εt

En la especificación del modelo (2-1), cuando las unidades i hacen referencia a unidades geo-gráficas puede ocurrir que cov(εi, εj) 6= 0, i 6= j, y por tanto, de manera análoga al procesoyt = φ1yt−1 + εt se puede considerar y = λ0Wy + u, donde W es la matriz de contigüidad espa-cial, y en términos de econometría espacial y = λ0Wy + u se conoce como el modelo SAR(1).Este modelo espacial y = λ0Wy + u se puede extender y obtener uno más complejo como elmodelo general de Clifford-Ord (Cliff, 1973) cuya especificación es:

y = λ0W1y +Xβ +W1XΘ + u (2-9)

u = ρW2u+ ε

ε ∼ N (0, σ2In) (2-10)

En la cual y es un vector de la variable dependiente con dimensión n× 1, X representa una matrizn× k de variables explicativas. W1 y W2 son matrices de ponderaciones espaciales conocidas condimensiones n× n, que generalmente contienen relaciones de contigüidad de primer orden o fun-ciones de distancia. Con base en la definición de adyacencia o contigüidad adoptada en un estudioen particualar, una matriz de adyacencia de primer orden (también conocida como de contigüidadde primer orden), se caracteriza porque en aquellas posiciones de la matriz en las cuales las obser-vaciones son vecinas se asigna un uno y en caso contrario se asigna un cero.

En ese sentido, W1y: representa el efecto de interación endógeno. W1X: son los efectos de inter-acción exógenos. W2u: es el efecto de interacción espacial en el término de error o efecto espacialresidual. λ0: se denomina coeficiente de rezago espacial. ρ: es el coeficiente de autocorrelación es-pacial de los errores. Θ: son los coeficientes espaciales de dependencia local. La ecuación (2-9) enla taxonomía de los modelos de econometría espacial corresponde a un modelo del tipo Clifford-Ord. Un caso particular de esta ecuación se presenta cuando ρ = 0. Por otra parte, esta ecuacióntambién se puede extender para considerar multiples grupos, R, en la muestra con característicashomogéneas dentro de cada grupo y heterogéneas entre grupos, así:

Yr = λ0WrYr + β10Xr,1 + β20WrXr,2 + lmrαr + εr r = 1, . . . , R (2-11)

εr ∼ N (0, σ2Imr) (2-12)

Se considera importante destacar que, en esta ecuación se tiene en cuenta la interacción endógenagrupal y los factores contextuales (o exógenos). Para efectos de claridad, se ilustra el caso en queR = 1, donde se tiene que:

Y1 = λ0W1Y1 + β1,0X1,1 + β20W1X2,1 + α1 + ε1 (2-13)

Page 20: Model selection in social interaction frameworks: a

8 2 Modelos de interacción social

Las matrices de contigüidad espacial que en el contexto de los modelos de interacción social sedenominan matrices de interacción social, en este caso son: W1, W2, W3 . . .WR, que se organizanen una matriz diagonal por bloques, W , así

W =

W1 · · ·

W2 · · ·...

... . . . ...· · · WR

En la literatura se cuenta con diferentes algoritmos para realizar la agrupación de los individuos porgrupos en una muestra. Los procedimientos utilizados en este trabajo se describen a continuación.

2.3. Especificación de la matriz de interacción social

Uno de los elementos esenciales de los modelos de interacción social es la matriz de interacción,la cual permite incorporar la estructura de las relaciones entre los agentes objeto de estudio para deesta forma evidenciar su impacto en la respuesta de los mismos. Según Hepple (1995), la construc-ción de estas matrices podría basarse en diferentes criterios en consideración con el problema deinvestigación como son: la similitud del grupo lingüístico en un estudio intercultural, similitudesen los ingresos, similitudes en un grupo étnico particular, etc. Por tanto, siguiendo a Anselin andGriffith (1988) se podría concluir que la decisión acerca de la especificación de la matriz debeapoyarse en la conceptualización teórica de la estructura de la dependencia, a priori, y teniendo encuenta las características propias del fenómeno de estudio.

De acuerdo con Griffith and Lagona (1998); Stakhovych and Bijmolt (2009) citado por Hepple(1995)), desde la literatura se han planteado estrategias para elegir la matriz de interacción. Noobstante, aún no existe un concenso generalizado y en muchos de los casos se ha concluido que nofue posible obtener una matriz de interacción definitiva que explique adecuadamente las interac-ciones entre individuos. Las redes de cualquier tipo, sin embargo, pueden modelarse como grafos,y en este sentido se hace uso de esta herramienta para la detección de comunidades en este trabajo.A continuación se presentan los conceptos básicos sobre el tema traducidos y adaptados de losartículos de De Paula (2016) y Held et al. (2016).

Siguiendo la notación y definiciones propuestas por Held et al. (2016), un grafo se define como unatupla ordenadaG = (V,E), donde V es un conjunto de vértices o nodos únicos y E ∈ V ×V es unconjunto de aristas o enlaces. Los vértices suelen representar las entidades de interés: individuos,hogares, empresas, etc. El conjunto de nodos podrá ser finito o infito. Los enlaces o cononexionesentre dos nodos en V son representdos por lo que se conoce como una arista. De acuerdo con laliteratura, se clasifica un grafo como no dirigido cuando V es el conjunto de pares desordenadoscon elementos en V , por ejemplo i, j con i, j ∈ V . Este tipo de grafos se consideran apropiados

Page 21: Model selection in social interaction frameworks: a

2.3 Especificación de la matriz de interacción social 9

para representar relaciones recíprocas entre dos vértices.

De acuerdo con De Paula (2016) para adaptar mejor las relaciones direccionales, los enlaces po-drían modelarse como pares ordenados, (i, j) ∈ V × V , en el plano cartesiano. Este tipo de grafosha sido denominado en la literatura como dirigidos (o dígrafos), los cuales se caracterizan porconsiderar relaciones que no requieren reciprocidad o para cuya dirección tiene un significadoparticular. Las generalizaciones adicionales, entre las que se cuentan las interacciones sociales,permiten vínculos ponderados, quizás representando distancias entre dos individuos o la intensi-dad de una relación particular. Dichos pesos se pueden representar en función del espacio de pares(ordenados o desordenados) en la recta de los reales. Una representación común de un grafo V ×Ves a través de su matriz de adyacencia, W , donde cada fila de la matriz representa un nodo diferen-te. Los componentes de W señalan si un link entre los nodos i y j (o de i a j en un dígrafo) estápresente o no y posiblemente su peso (en grafos ponderados).

La matriz de adyacencia permite traducir operaciones combinatorias en algebraicas lineales y pue-de ser muy útil en varios entornos. De acuerdo con De Paula (2016) Para pasar de una matriz deadyacencia W a un grafo simple (es decir, sin autovínculos y como máximo un vínculo entre cual-quier par de nodos), el elemento i, j de la matriz Wk, k ∈ 1, . . . , N − 1, por ejemplo, produce elnúmero de caminos de longitud k entre i y j.

Una de las principales tareas del análisis de grafos es encontrar la estructura de una comunidado más específicamente encontrar clusters o grupos de nodos asociados de alguna forma. SiguiendoHeld et al. (2016). Sea un grafo G = (V,E), y un subgrafo C = (V c,Ec) con V c ∈ V y Ec ∈ E.El grado interno de C es el número de aristas que van de un nodo en C a otro nodo en C. Elgrado externo, por otro lado, es el número de aristas desde los nodos en C que van hasta el restodel grafo. Estos valores pueden indicar que C es un buen clúster. Si el grado interno es muy altoy el grado externo es muy bajo, C podría ser un grupo apropiado. La tarea principal es encontraruna agrupación, es decir, una división en agrupaciones, de modo que cada nodo se asigne a unaagrupación. Este agrupamiento debe representar las comunidades presentes en el grafo de la mejormanera posible.

A continuación se presentan los algoritmos utilizados en este trabajo para la detección de co-munidades en las matrices de interacción social. Según Blondel et al. (2008) se pueden distinguirvarios tipos de algoritmos de detección de comunidades, cuya calidad de las particiones resultantesse mide por la modularidad de la partición. En primer lugar, se encuentran los algoritmos divisi-vos los cuales detectan los enlaces entre comunidades y los eliminan de la red. En segundo lugar,se encuentran los algoritmos aglomerativos los cuales fusionan nodos/comunidades similares deforma recursiva, y en tercer lugar, se encuentran los métodos de optimización que se basan en lamaximización de una función objetivo.

Page 22: Model selection in social interaction frameworks: a

10 2 Modelos de interacción social

2.3.1. Algoritmo de Louvain

De acuerdo con Junker (2020), este es un algoritmo sencillo de utilizar con capacidad para encon-trar clústeres que presenten alta modularidad en grandes redes y de forma rápida. Fue desarrolladopor Blondel et al. (2008) y siguiendo a Held et al. (2016), este algoritmo presenta un enfoque deagrupamiento jerárquico aglomerativo que utiliza como criterio la medida de modularidad.

El concepto de modularidad se puede entender como la métrica que mide la densidad de cone-xiones dentro de los clústeres en comparación con la densidad de conexiones que se presenta entreclústeres (Blondel et al., 2008), la cual de acuerdo con Junker (2020), se suele utilizar como fun-ción objetivo para la detección de comunidades por parte de algunas técnicas aglomerativas. Lasiguiente ecuación muestra el cálculo de la medida de modularidad, donde nc es el número deconglomerados, lc es el número de aristas intragrupo, dc es la suma de todos los nodos en c y m esel número de aristas (Junker, 2020).

Q =nc∑c=1

[lc

m−(dc

2m

)](2-14)

La modularidad varía entre −1 y 1. Un valor de 1 representaría el agrupamiento perfecto sin linksentre los grupos y todos los grupos densamente conectados. La medida más baja sugiere un de-sempeño mediocre, mientras que los valores por debajo de 0 indican que prácticamente no existeuna agrupación entre las observaciones objeto de estudio, aunque, se considera importante aclararque, este tipo de situaciones no suele presentarse.

De acuerdo con Junker (2020), aunque este algoritmo se diseñó originalmente para grafos noponderados y no dirigidos es fácilmente adaptable a grafos con dichas características. Siguien-do a Junker (2020), el algoritmo se divide en dos fases, que se repiten hasta alcanzar la máximamodularidad. En la primera fase, cada objeto se considera un grupo separado. Para cada objeto(p = 1, · · · , N), se verifican sus vecinos (q = 1, · · ·N) para ver si la modularidad aumenta si p seelimina de su grupo y se asigna q al grupo de un objeto. Luego, el objeto p se asigna al clúster conla condición de que maximice el aumento de la modularidad. Si no se puede lograr un aumento po-sitivo en la modularidad mediante el desplazamiento, el objeto p permanece en su grupo anterior.Sobre la base de los clústeres formados en la primera fase, se crea una nueva red en una segunda fa-se, cuyos objetos son ahora los propios clústeres, que se formaron en la primera fase. Para obtenerponderaciones para las conexiones entre los conglomerados, se usa la suma de las ponderacionesde las conexiones entre los objetos de los conglomerados correspondientes. Si esta nueva red seformó como un “metacluster”, los pasos de la primera fase se aplicarán a la nueva red a continua-ción, y la modularidad se optimizará aún más. Dichos pasos se llevan a cabo repetidamente hastaque no haya más cambios en el clúster y se logre un máximo de modularidad.

Page 23: Model selection in social interaction frameworks: a

2.4 Modelo lineal en medias y el problema de reflexión 11

2.3.2. Algoritmo Infomap

Fueron Rosvall and Bergstrom (2008) quienes introdujeron por primera vez el algoritmo de In-fomap, el cual es en esencia idéntico al procedimiento propuesto por Blondel et al. (2008). Estese centra en la información necesaria para comprimir el movimiento de una caminata aleatoria.Según Junker (2020), el algoritmo repite las dos fases descritas hasta que se optimiza una funciónobjetivo. Sin embargo, como función objetivo a optimizar, Infomap no utiliza la modularidad sinola denominada ecuación de mapa. La ecuación del mapa explota la dualidad entre encontrar es-tructuras de conglomerados en redes y comprimir el movimiento de un llamado paseo aleatorio(Bohlin 2014). Cuanto más se pondera la conexión de un objeto, más probable es que la caminataaleatoria utilice esa conexión para alcanzar el siguiente objeto Junker (2020).

Siguiendo Junker (2020), el objetivo es formar grupos en los que la caminata aleatoria perma-nezca el mayor tiempo posible, es decir, los pesos de las conexiones dentro del grupo deben tomarvalores mayores que los pesos de las conexiones entre objetos de diferentes grupos. La estructuradel código de la ecuación del mapa está diseñada para comprimir el movimiento de la caminataaleatoria cuando dura períodos de tiempo prolongados en ciertas regiones de la red. Por lo tanto,el objetivo es minimizar la ecuación del mapa.

De acuerdo con esta breve revisión acerca de la forma en que se construyen las matrices de interac-ción social, se puede concluir que efectivamente existe incertidumbre con respecto a la elección dela matriz, y por tanto existe la necesidad de un marco general sólido para la selección del modelode interacción social.

2.4. Modelo lineal en medias y el problema de reflexión

La representación canónica para la determinación conjunta de resultados mediados por interac-ciones sociales se basa en la especificación lineal presentada en Manski (1993), modelo que hasido estudiado recurrentemente en la literatura. A continuación se toma la descripción y notaciónpresentada por Bramoullé et al. (2009):

yi = α + γxi + δ1

di

∑j∈N

xj + β1

di

N∑j=1

yj + εi (2-15)

εi ∼ N (0, σ2)

en el cual se considera una sola característica y se asume que ningún individuo se encuentra aisla-do. Por otro lado, se consideran N agentes, cuyas características se reflejan en x, y sus resultadosen y. Igualmente, se presenta una red dirigida binaria que conecta a los agentes. Sea Ni el conjuntode agentes que afectan a i, de tamaño di = |Ni|. Por otro lado, G representa la siguiente matriz deinteracción: gij = 1/di si j ∈ Ni y 0 en caso contrario. Siguiendo a Bramoullé et al. (2020), supo-nemos que las características, los resultados y la red (x, y,G) han sido generados por un proceso

Page 24: Model selection in social interaction frameworks: a

12 2 Modelos de interacción social

estocástico. En un modelo lineal en medias con efectos de pares, el resultado de un agente depen-de de sus propias características, las características de sus pares y los resultados de sus compañeros.

En resumen, en este caso se tiene una característica y 4 parámetros a estimar: el intercepto α,el efecto individual γ, el efecto contextual de pares, δ, y el efecto endógeno de pares, β. El mo-delo se construye bajo el supuesto de exogeneidad estricta (E(εi|x,G) = 0), que significa que lascaracterísticas x y la red G son exógenas en relación con el resultado y. Esto implica que no sepresenta el problema de los efectos correlacionados.

De acuerdo con Manski (1993), el problema de la reflexión surge cuando un investigador queobserva la distribución del comportamiento en una población, intenta inferir si el comportamientopromedio en algún grupo influye en el comportamiento de los individuos que lo componen. Se en-cuentra que la inferencia no es posible a menos que el investigador tenga información acerca de lacomposición de los grupos de referencia. Si esta información está disponible, las posibilidades deinferencia dependen fundamentalmente de la relación entre las variables que definen los grupos dereferencia y las que afectan directamente los resultados. La inferencia es difícil o imposible si estasvariables son funcionalmente dependientes. Las perspectivas son mejores si las variables que de-finen los grupos de referencia y las que afectan directamente los resultados están moderadamenterelacionadas en la población. Siguiendo con la definición propuesta por Manski (1993), el términoreflexión es apropiado porque el problema es similar al de interpretar los movimientos casi simul-táneos de una persona y su reflejo en un espejo. ¿La imagen del espejo provoca los movimientos dela persona o los refleja? Un observador que no entienda algo de óptica y comportamiento humanono podría decirlo.

Un ejemplo muy ilustrativo acerca del problema de reflexión, presentado por De Paula (2016)tiene que ver con el rendimiento escolar. En este caso, surgen efectos endógenos si el rendimientode uno de los estudiantes tiende a variar con el rendimiento promedio en el grupo de referencia deesa persona; y por otro lado, si el logro se ve afectado por el entorno socioeconómico del grupode referencia, entonces se presenta un efecto exógeno o contextual. Finalmente, también puedensurgir efectos correlacionados porque los alumnos están expuestos al mismo maestro o tienen ca-racterísticas similares que son relevantes para el rendimiento, pero que el investigador no observa.

Por último, se considera importante mencionar que en el artículo Bramoullé et al. (2020), se dis-cuten diversas estrategias utilizadas en la literatura con el fin de solucionar el problema de iden-tificación descrito en esta sección. En particular, se describen estrategias como la exogeneidad dealguna de las características (choques aleatorios) o de la red (pares aleatorios), así como tambiénse plantea que la separación de los dos parámetros analizados podría hacerse más difícil debido auna posible correlación de los factores inobservables.

Page 25: Model selection in social interaction frameworks: a

2.5 Efectos de interacción y Modelos de interacción social 13

2.5. Efectos de interacción y Modelos de interacciónsocial

En el caso de los modelos de interacción basados en los modelos espaciales, la ecuación de re-gresión lineal se amplía hasta incluir efectos de interacción social, y en este sentido se incluirá laexplicación asociada a cada uno de los efectos siguiendo a Elhorst (2014), con el fin de ilustrar lautilidad de cada uno de los efectos.

En el caso de los modelos con correlación espacial, por ejemplo, no es posible asumir el supuestode exogeneidad estricta, ya que grandes unidades espaciales no podrían asumirse como muestrasindependientes tomadas de una gran población. Un claro ejemplo de esto, es aquél proporciona-do por Wooldridge (2010) , en el cual teniendo como unidades geográficas los 50 estados de losEstados Unidos, se concluye que es razonable asumir que el desempleo en un estado debe estarcorrelacionado con el desempleo de los estados vecinos. De acuerdo con Wooldridge (2010), aun-que en estos casos se podrían utilizar métodos de estimación como mínimos cuadrados ordinarios(OLS), dichos métodos podrían alterar las propiedades asintóticas de los estimadores.

De acuerdo con Elhorst (2014), existen tres tipos diferentes de efectos de interacción que puedenexplican las razones de dependiencia de una observación asociada a una ubicación específica conrespecto a observaciones asociadas a otras ubicaciones. El primer efecto se denomina interacciónendógena, en el cual la variable dependiente de una unidad A depende de la variable dependientede otras unidades, por ejemplo, la unidad B, y viceversa. El efecto de interacción endógena seconsidera, en este sentido, el resultado de equilibrio de un proceso de interacción social, en elque el valor de la variable dependiente para un agente se determina conjuntamente con el de losagentes vecinos. En la literatura empírica sobre interacción estratégica entre gobiernos locales, porejemplo, los efectos de interacción endógena son teóricamente consistentes con la situación en laque los impuestos y los gastos en servicios públicos interactúan con los impuestos y los gastos enservicios públicos en jurisdicciones cercanas (Brueckner, 2003). El segundo es el efecto de inter-acción exógena, donde la variable dependiente de una unidad particular depende de las variablesexplicativas independientes de otras unidades.

El tercer tipo de efectos de interacción es aquel que se encuentra entre los términos de error.Es decir, cómo el término de error, ε, de la unidad A se relaciona con el término de error, ε, de launidad B. Los efectos de interacción entre los términos de error no requieren un modelo teórico,sino que, son consistentes con una situación en que las variables explicativas omitidas del modeloestán autocorrelacionados espacialmente, o se presenta una situación en la que los choques no ob-servados siguen un patrón específico.

La ecuación (2-9) posee una estructura similar al conocido modelo lineal en medias de Manski(1993) (linear in means, es su nombre en inglés), de efectos sociales o de interacción social. La

Page 26: Model selection in social interaction frameworks: a

14 2 Modelos de interacción social

similitud entre ambos modelos ha sido destacada por Lee (2007), y es presentada a continuación.

2.5.1. Presentación de los modelos de interacción social

Desde el punto de vista de la dimensión econométrica, el origen del marco del modelo de inter-acción se remonta al campo de la econometría espacial y a la literatura relacionada con la identi-ficación de las interacciones sociales. De hecho, siguiendo a Lee (2007), el modelo Spatial AutoRegressive (SAR) ha sido la forma funcional más ampliamente utilizada en la literatura, aunqueun modelo de SAR típico no tiene una estructura de macrogrupo, por lo que en el modelo SAR noaparecen efectos específicos de grupo. El modelo de interacción social, por el contrario, presentadichos efectos.

La estructura de los modelos de interación social, se puede explicar básicamente, mediante losmecanismos que permiten establecer las diferentes agregaciones producidas por las decisiones in-terdependientes de cada individuo dentro de un grupo. En este sentido, a continuación se describenlas unidades de observación y los diferentes términos de la ecuación de los modelos de interacciónsocial.

Yr = λ0WrYr + β10Xr,1 + β20WrXr,2 + lmrαr + εr, r = 1, . . . , R (2-16)

Las unidades de observación del modelo son individuos, que se denotan por i. Estas personasse agrupan en un solo grupo denotado r. La composición del grupo se establece antes del ejerci-cio estadístico, de acuerdo con el entorno en el que se desarrolla la interacción entre los individuos.

La especificación de las interacciones de cada grupo está representada por la matriz Wr. En estecaso en particular, en cuanto al peso de las influencias de los individuos sobre los restantes miem-bros del grupo se utilizó una versión generalizada de Lee et al. (2010). Usualmente, los modelosde interacción social no presentan información acerca de cómo los individuos interactúan en ungrupo y, por tanto, se asume que cada uno de los miembros del grupo es influenciado de la mismamanera por los otros miembros. Sin embargo, en algunas bases de datos, como aquella analizadaen Lin (2005) (Add Health), si se presenta información acerca de la estructura de las interaccio-nes y, en consecuencia, las entradas (i, j) de la matriz de pesos, presenta constantes diferentes decero. Adicionalmente, representan relaciones no necesariamente recíprocas, con lo cual la matrizde interacciones podría ser no-simétrica. Por tanto, a diferencia de la matriz de interacción socialpresentada en Lee (2007), esta podría ser asimétrica y sus entradas por fuera de la diagonal podríanser ceros.

Tal como Lin (2010) establece, dichos pesos reflejan un enfoque más realista con respecto alcomportamiento de las interacciones sociales, debido a que se considera su carácter asimétrico.Además, de acuerdo con Lee et al. (2010), este tipo de matriz permite la identificación de variosefectos de interacción social más allá de la variación en los tamaños de los grupos, debido a la

Page 27: Model selection in social interaction frameworks: a

2.5 Efectos de interacción y Modelos de interacción social 15

presencia de la no linealidad en la composición de la matriz.

Cada persona decide sobre Wri, se asume que esta decisión se basa en dos factores diferentes:factores individuales y factores grupales. El primer tipo de factores se subdivide, a su vez, unaparte determinista y una parte aleatoria (para el modelador). La primera parte está representadapor las características asociadas a cada individuo i en el grupo r, denotado por Xr,1, la cual es unamatriz con mr observaciones.

En el caso de factores específicos del grupo, el término WrXr,2, denominado “efecto contextual",refleja el efecto de interacción social a través de las características observadas en el vecindario.En otras palabras, el proceso de toma de decisiones para un individuo i podría verse influido porlas características de los miembros del grupo. Por su parte, la segunda parte de dicho factor estárepresentada por εir, que consiste en las características no observables y aleatorias con respecto alindividuo i. Se supone que estos términos aleatorios son independientes y se distribuyen de maneraidéntica entre los individuos. Esta suposición es coherente con la suposición teórica de que “la dis-tribución dentro del grupo de εir no depende de las características del individuo ni de la identidaddel grupo del que es miembro” (Blume et al., 2011).

Este modelo presenta la flexibilidad de incluir los efectos no observados de los grupos que com-ponen macrogrupos, denotados en este caso por r como por ejemplo los grados escolares, aunqueesta especificación se puede generalizar si hay varios componentes de red en un macrogrupo. Deacuerdo con Lee (2007), en la terminología de estos modelos, un componente está formado porun conjunto máximo de individuos directa o indirectamente relacionados entre sí. Un macrogrupopuede considerarse como la plataforma de una red social, y una red social puede tener uno o varioscomponentes. En algunas aplicaciones, se puede preferir introducir una variable ficticia separadapara cada componente dentro de un grupo en lugar de una variable ficticia de un solo grupo, queen este caso se denota por αr.

Ahora bien, λ0 captura el efecto endógeno que mide el impacto que otros miembros del mismogrupo r ejercen directamente sobre uno de los miembros, con r = 1, 2, 3, . . . , R; en relación coneste término el modelo incluye un vector de efectos endógenos, WrYr, que representa una combi-nación lineal de valores del vector de la variable dependiente de observaciones vecinas. Adicional-mente, la ecuación también incluye una matriz de características propias de la comunidad Xr, yuna matriz de las características de comunidades vecinas (WrXr) como variables explicativas adi-cionales. En este sentido, el coeficiente β10 denota el efecto exógeno o contextual ejercido por lascaracterísticas de los miembros del grupo sobre la variable respuesta del individuo, y el coeficienteβ20 denota el efecto de las características de los miembros del grupo en la respuesta del individuodel grupo.

Por otro lado, R es el número total de grupos, mr es el número de individuos por grupo en la

Page 28: Model selection in social interaction frameworks: a

16 2 Modelos de interacción social

muestra y n =∑R

r=1mr es el número total de observaciones en la muestra. Yr = (y1r, . . . , ymrr)′

es un vector mr-dimensional de yir, el cual representa el resultado observado del i-ésimo términodel grupo r. Wr es la matriz no estocástica de dimensión mr×mr de ponderación de interaccionessociales, cuyos elementos de la diagonal son cero, y que adicionalmente se encuentra normalizadapor filas. Xr,1 es la matriz de variables exógenas de dimensión mr × k1, y Xr,2 es la matriz devariables exógenas de dimensión mr × k2.

Finalmente, como lo señala Lee (2007), este tipo de especificación no es apropiada en todos los ca-sos, pues variables inobservables podrían generar perturbaciones correlacionadas dentro del grupoy en consecuencia afectar los resultados observables (el denominado problema de identificación).De acuerdo con lo visto en la subsección “Modelo lineal en medias y el problema de reflexión”, al-gunos problemas de identificación en dicho modelo (“linear-in-means”), se debe a que el resultadoesperado del equilibrio social podría depender linealmente de las variables exógenas observadasde un grupo en el modelo. Recordemos, que este problema se refiere a la dificultad para identificarseparadamente factores endógenos y factores contextuales. Otra preocupación principal son losposibles aspectos inobservables en un grupo, ya que estos pueden tener un efecto directo sobre losresultados observados. Los aspectos inobservables pueden hacer que las perturbaciones se corre-lacionen entre los individuos de un grupo. La discusión acerca del origen de este problema, y surelación con el proceso de autoselección de individuos en el grupo de análisis y factores ambienta-les comunes no observables, se desarrolla ampliamente en Manski (1993), y Moffitt et al. (2001).Por lo tanto, Lee (2007) propone un modelo que controla los factores correlacionados no observa-bles a través de un efecto fijo de grupo. Siguiendo con los términos de la ecuación, lmr es un vectormr-dimensional de unos y αr captura los efectos fijos del grupo, los cuales comprenden aquellosefectos observables y no observables de los factores comunes que afectan a todos miembros delgrupo. Finalmente, εr = (ε1r, ε2r, . . . , εmr,r)

′ es el vector mr-dimensional de perturbaciones, don-de εir para cada individuo es i.i.d con media cero y varianza σ2

0 .

Las observaciones se pueden organizar en bloques donde cada bloque incluye a todos los miem-bros en un solo grupo Elhorst (2014). Las interrelaciones de cada uno de los individuos con surespectivo grupo están representadas por Wr, y con base en este arreglo, denotamos W la matrizdiagonal por bloques, que reune a todos los grupos de la muestra. Siguiendo a Elhorst (2014), endichas matrices, cada bloque representa un grupo de unidades que interactúan entre sí, pero nocon las observaciones de otros grupos. En cuanto a su estructura, generalmente, las matrices deponderaciones sociales son simétricas, pero hay excepciones en las que la matriz de ponderacio-nes sociales es asimétrica. Un ejemplo es la matriz de interacción que se construye en la primeraaplicación presentada en el capítulo 5. Una matriz simétrica tiene la propiedad de que todas susraíces características son reales, incluso cuando se normaliza por filas, mientras que una matrizasimétrica tiene raíces características complejas (Elhorst, 2014).

Page 29: Model selection in social interaction frameworks: a

2.6 Estimación bayesiana de modelos de interacción social 17

2.6. Estimación bayesiana de modelos de interacciónsocial

Uno de los objetivos del enfoque bayesiano consiste en estructurar los problemas de estimación detal manera que se genere una distribución posterior que pueda descomponerse en una secuencia dedistribuciones condicionales. Dichas distribuciones condicionales caracterizan la distribución deun único parámetro dados todos los demás parámetros del modelo, y son extremadamente útilestanto desde una perspectiva teórica como aplicada LeSage (2008). Desde una perspectiva aplicada,por ejemplo, se requieren distribuciones condicionales para la estimación de parámetros por mediodel método Markov Chain Monte Carlo (MCMC).

De acuerdo con LeSage (2008), Hastings demostró que este enfoque de muestreo esta representa-do por una cadena de Markov que permite obtener la distribución de equilibrio correcta, capaz deproducir muestras a partir de la posterior (θ|D). Una implicación de esto es que se puede hacer usode Metropolis-Hastings (M-H) para muestrear distribuciones condicionales en las cuales se desco-noce la forma de su distribución, como es el caso del parámetro λ0 en el modelo de interacciónsocial planteado.

A continuación se obtiene la distribución posterior del modelo, la cual se descompondrá en unconjunto de distribuciones condicionales para cada parámetro en el modelo, con el fin de obtenerestimaciones válidas de los parámetros.

2.6.1. Eliminación del parámetro incidental

Antes de realizar la estimación de los parámetros por el método bayesiano, es necesario abordarel problema del parámetro incidental. El tratamiento formal de dicho problema se puede estudiaren Neyman and Scott (1948). Según Lancaster (2000), Neyman y Scott establecieron dos propo-siciones sobre la estimación de parámetros estructurales por máxima verosimilitud. La primera deellas definió el problema del parámetro incidental. Esta dice que, las estimaciones vía máxima ve-rosimilitud de parámetros estructurales relacionados con una serie de observaciones parcialmenteconsistentes no es necesariamente consistente.

Igualmente, de acuerdo con Lancaster (2000), en econometría, el problema del parámetro inci-dental suele surgir en los modelos de regresión con datos de panel. En estos, las observacionesentre agentes, dados los parámetros específicos del agente, los parámetros comunes y los valoresde las covariables, son independientes. Siguiendo a Lancaster (2000), la densidad conjunta de lasT observaciones suministradas por cada agente se suele especificar de forma paramétrica en tér-minos de los parámetros mencionados y las covariables. El “problema” es la inconsistencia de losestimadores de los parámetros estructurales de máxima verosimilitud.

Page 30: Model selection in social interaction frameworks: a

18 2 Modelos de interacción social

En el caso en específico de este trabajo, tal como en el trabajo de Lee et al. (2010) hay muchosgrupos en la muestra, y por tanto, será necesario realizar una estimación conjunta de los efectosfijos y los parámetros estructurales. Considerando la dificultad para la estimación de este tipo demodelos debido a la gran cantidad de coeficientes, se podrían presentar problemas en las propieda-des estadísticas de los estimadores. Para resolverlo se siguió el enfoque más común proporcionadopor la econometría frecuentista, en el cual los efectos fijos se asumen como parámetros de moles-tia, de modo que se pueden eliminar mediante una transformación del vector propio ortonormal.Adicionalmente, se realizó un análisis bayesiano condicionado. Utilizando los términos de Zellner(1999), este método presenta dos ventajas: primero, evita un patrón de dependencia específico en-tre la heterogeneidad no observada y las variables explicativas; y segundo, mejora las propiedadesde mezcla del método MCMC cuando es necesario controlar por heterogeneidad no observada.Con el fin de eliminar dicho parámetro de molestia, realizamos la transformación sugerida por Leeet al. (2010). Dicho procedimiento consiste en utilizar la desviación con respecto al operador del

grupo promedio Jr = Imr −1

mr

lmr l′mr , para realizar una transformación de los datos, que permita

eliminar los efectos fijos sin que se incurra en problemas de dependencia lineal entre los términosde perturbación estocásticos de los diferentes grupos.

Según Lee et al. (2010), la matriz ortonormal de Jr esta dada por [Fr, lmr/√mr], donde Fr es

una submatrix que corresponde a los primeros, mr − 1, vectores propios de Jr. Se puede probarque F ′rlmr = 0, F ′rFr = Im∗r y FrF ′r = Jr.

Por tanto, si se posmultiplica la ecuación (2-16) por Fr, se obteniene:

YrFr = λ0WrYrFr + β10Xr,1Fr + β20WrXr,2Fr + εrFr r = 1, . . . , R

Sea: Y ∗r = YrFr, X∗r,1 = Xr,1Fr, X∗r,2 = Xr,2Fr, y ε∗r =εrFr. Es importante tener en cuenta que esposible eliminar el término lmrαr dado que l′mrFr = 0. Además, debe señalarse que Y ∗r y ε∗r son(mr − 1) - vectores dimensionales, y X∗r1 es una matriz de dimensión (mr − 1)× k1 y X∗r2 es unauna matriz de dimensión (mr − 1)× k2. Por tanto:

Y ∗r = λ0WrY∗r + β10X

∗r,1 + β20WrX

∗r,2 + ε∗r r = 1, . . . , R

Luego, con el fin de simplificar, se denota:Z∗r = [X∗r,1,WrX∗r,2] y β = [β′10, β

′20]′, y en consecuencia

se tiene:

Y ∗r = λ0WrY∗r + Z∗rβ + ε∗r r = 1, . . . , R (2-17)

2.6.2. Función de verosimilitud y distribuciones apriori

Con el objetivo de derivar la distribución posterior del modelo, se calcularon cada uno de los ele-mentos fundamentales que la constituyen como son la función de verosimilitud y la distribución a

Page 31: Model selection in social interaction frameworks: a

2.6 Estimación bayesiana de modelos de interacción social 19

priori. En el caso específico del modelo que nos interesa, (2-16), y suponiendo una distribución es-tocástica Gaussiana con ε∗r ∼ N(0, σ2

0I) para el vector de errores en cada grupo con θ = (β, λ0, σ20),

y donde m∗r = mr − 1, la función de verosimilitud se puede representar como:

Lr(θ) = (2πσ20)(−m∗r/2) | Imr−λ0Wr | exp

(− 1

2σ20

((Imr − λ0Wr)Y∗r − Z∗rβ)′((Imr − λ0Wr)Y

∗r − Z∗rβ))

)(2-18)

Por tanto, la función de log-verosimilitud para el grupo r se puede expresar como:

ln(Lr(θ)) = −m∗r

2ln(2πσ0)2+ln|Imr−λ0Wr|−

1

2σ20

[((Imr−λ0Wr)Y∗r −Z∗rβ)′((Imr−λ0Wr)Y

∗r −Z∗rβ))]

Entonces, la función de log-verosimilitud general se puede expresar de la siguiente forma:

lnR∏r=1

(L(θ)) =R∑r=1

ln(Lr(θ))

2.6.3. Distribuciones a priori de los parámetros

Por otro lado, y con el fin también de derivar la distribución posterior de los parámetros, se asig-nó como distribución a priori una distribución conjugada no informativa para los parámetros,π(β, σ0, λ0), la cual presenta la siguiente estructura:

π(β, σ20, λ0) = π(β | σ2

0)π(σ20)π(λ0)

Donde π(β|σ20) es N (µ, σ2

0T ), π(σ20) es IG(α/2, δ/2), y π(λ0) es U(−1, 1). Se seleccionó la dis-

tribución apriori uniforme, considerando el espacio factible para el parámetro (LeSage and Parent,2007a).

Por otro lado, se estableció µ = 0, lo cual implica que se centra esta distribución previa so-bre la hipótesis de que las variables explicativas no tienen efecto sobre la variable dependiente yT = 1, 000I , lo cuál implica una distribución normal difusa. Por su parte, se usó una distribuciónprevia “no informativa” en el parámetro de varianza α → 0 y δ → 0. En particular, se establecióσ2

0 ∼ IG (0.001,0.001).

Por tanto, la distribución a priori puede ser expresada como:

π(β, σ20) ∼ NIG(µ, T, α/2, δ/2) (2-19)

= π(β|σ20)π(σ2

0) (2-20)

Page 32: Model selection in social interaction frameworks: a

20 2 Modelos de interacción social

= N (µ, σ20T )IG(α/2, δ/2) (2-21)

=1

(2π)k/2 | T |1/2(σ20)k/2

× exp(− 1

2σ2)(β − µ)

′T−1(β − µ)× (δ/2)α/2

Γ(α/2)(σ2

0)−(α/2+1) exp

(−δ/2σ2

0

)(2-22)

=(δ/2)α/2

(2π)k/2 | T |1/2 Γ(α/2)(σ2

0)−(α+(k/2)+1) × exp

[−((β − µ)

′T−1(β − µ)

)2σ2

0

− δ/2

σ20

](2-23)

=(δ/2)α/2

(2π)k/2 | T |1/2 Γ(α/2)(σ2

0)−(α/2+(k/2)+1) × exp

[−((β − µ)

′T−1(β − µ) + δ

)2σ2

0

](2-24)

donde σ20 > 0, y α/2, δ/2 > 0

π(σ2) =(δ/2)α/2

Γ(α/2)(σ2

0)−(α+1) exp

(−δ/2σ2

0

)(2-25)

π(λ0) ∼ U(−1, 1) (2-26)

2.6.4. Distribuciones posteriores de los parámetros

Ahora bien, teniendo en cuenta que la distribución posterior constituye la base de toda inferenciaen el método bayesiano, ya que contiene toda la información relevante sobre el problema de es-timación, se calcula el teorema de Bayes combinando la distribución de los datos incorporada enla función de verosimilitud con las distribuciones previas asignadas para los parámetros. En estecaso, se toma θ = (β, σ0, λ0) para denotar los parámetros del modelo, de tal forma que el teoremade Bayes se puede expresar así:

p(θ|Y ) =p(Y |θ)p(θ)p(Y )

(2-27)

Por tanto,

p(β, σ20, λ0|Y ) =

p(Y |β, σ20, λ0)π(β, σ2

0)π(λ0)

p(Y )(2-28)

p(β, σ20, λ0|Y ) ∝ (σ2

0)−(α∗+(k/2)+1)

R∑r=1

| Ar | × exp

(− 1

2σ20

[(β − µ)

′T−1(β − µ) + δ

])×

(2-29)

Page 33: Model selection in social interaction frameworks: a

2.6 Estimación bayesiana de modelos de interacción social 21

exp

(− 1

2σ20

R∑r=1

((ArY∗r − Z∗rβ)′(ArY

∗r − Z∗rβ))

)× π(λ0) (2-30)

Factorizando se obtiene:

p(β, σ20, λ | Y ) ∝ (σ2

0)−(α∗+(k/2)+1)

R∑r=1

| Ar | × exp

(− 1

2σ20

[(β − µn)′Σ−1

n (β − µn)]− b∗

σ20

)(2-31)

donde:

µn = E−1l = (∑R

r=1 Z∗′r Z

∗r + T−1)−1(

∑Rr=1 Z

∗′r ArY

∗r + T−1µ)

Σn = E−1 = (∑R

r=1 Z∗′r Z

∗r + T−1)−1

α∗ =α

2+n

2

Ar = Imr − λ0Wr

n =(∑R

r=1mr

)b∗ = δ + [µ′T−1µ+

∑Rr=1 Y

∗′r A

′rArY

∗r − (µ′nΣ−1

n µn)]/2

La ecuación (2-31) representa la distribución posterior para θ, la cual implica una actualizaciónde la distribución previa para el parámetro θ después de ajustar los datos de la muestra. De acuer-do con LeSage (2008), el enfoque bayesiano se fundamenta en la probabilidad condicional paraproveer una estructura formal de reglas que permita aprender y actualizar el conocimiento previoacerca de una variable desconocida, como θ, utilizando adicionalmente tanto el modelo como losdatos. Con el fin de implementar el muestreo por MCMC, se derivaron las distribuciones con-dicionales para el modelo de interacción social, teniendo como base la distribución posterior, yconsiderarando los otros parámetros como conocidos.

Dado que las distribuciones condicionales de β y de σ20 , corresponden a distribuciones conjugadas

se usó un muestreador de Gibbs (Gelfand and Smith, 1990), el cual permite tomar muestras a partirde las distribuciones condicionales de los parámetros. En este caso específico, las distribucionescondicionales presentan las siguientes expresiones:

p(β|λ0, σ20) ∼ N (µn, σ

20Σn)

donde

µn = (R∑r=1

Z∗′

r Z∗r + T−1)−1(

R∑r=1

Z∗′

r ArY∗r + T−1µ)

Page 34: Model selection in social interaction frameworks: a

22 2 Modelos de interacción social

Σn = (R∑r=1

Z∗′

r Z∗r + T−1)−1

Ar = Imr − λ0Wr (2-32)

y

p(σ20|β, λ0) ∼ IG(α∗, b∗)

α∗ =α

2+n

2

b∗ = δ + [µ′T−1µ+∑R

r=1 Y∗′r A

′rArY

∗r − (µ′nΣ−1

n µn)]/2

En este punto se considera importante anotar que, al considerar la forma adoptada por la distri-bución condicional para el parámetro β, se tratan los parámetros restantes σ0 y λ0 como si fueranconocidos. Por otro lado, cuando se fija λ0, se puede verificar que la distribución conjugada deβ y σ2

0 conlleva a una distribución NIG conjunta (condicional a λ0) para β y σ20 . Por supuesto,

la distribución conjunta NIG(µn,Σ, α∗, b∗) conduce a una distribución condicional para β que esuna distribución normal k-dimensional, N (µn∗,Σn) y una IG (α∗, b∗) distribución condicionalpara σ2

0 . La distribución condicional restante que se requeriere es la del parámetro λ0.

Por otro lado, se hizo uso del algoritmo Metropolis-Hastings (M-H) (Metropolis et al., 1953) (Has-tings, 1970), para muestrear el parámetro de interacción social, λ0, considerando el hecho de quela distribución condicional de λ0 no es estándar, debido a la presencia de W (la matriz diagonalpor bloques). Es importante mencionar que para llevar a cabo el procedimiento de muestreo deMetropolis Hasting para λ0, se utilizó una distribución normal con un procedimiento de caminataaleatoria sintonizada (tuned random walk), calibrada para obtener una tasa de aceptación razona-ble, es decir entre 40 % y 60 %.

La distribución condicional para λ0 esta dada por:

p(β, σ0, λ0) ∝ p(Y |β, σ0, λ0)π(β, σ0)π(λ0)

∝ |R∑r=1

A|exp

[− 1

2σ20

R∑r=1

(AY ∗r − Z∗rβ)′(AY ∗r − Z∗rβ)

]

2.6.5. Probabilidad posterior de los modelos

Considerando la incertidumbre que se presenta en las matrices de interacción social y las variablesexplicativas a la hora de incluirlas en la especificación de los modelos de interacción social, seusan técnicas bayesianas, con el fin de determinar las probabilidades posterior para cada una de

Page 35: Model selection in social interaction frameworks: a

2.6 Estimación bayesiana de modelos de interacción social 23

las especificaciones; no obstante, en lugar de utilizarlas para seleccionar un único modelo con lasprobabilidades posterior más altas, se calcula el promedio ponderado de las probabilidades poste-rior de los modelos potenciales mediante el método BMA.

En cuanto a las distribuciones a priori, dado que lo que se busca es que sean los datos de la muestralos que determinen las probabilidades a posteriori del modelo, se hace uso, en primer lugar, de unade las previas más simples y de uso común, la previa uniforme discreta, la cual asigna la mismaprobabilidad de selección a cada uno de los modelos. Las distribuciones a priori se establecen en1Q

, donde Q es el número de especificaciones de los modelos. De acuerdo con esto, a cada uno delos modelos se le asigna la misma probabilidad a priori. Esta previa se considera una representa-ción natural de la ignorancia de los investigadores, sin embargo no tiene en cuenta las similitudesentre los modelos, simplemente, mediante este tipo de previas se asignan probabilidades iguales ala inclusión de cada variable, debido a que es la práctica más común y requiere menos esfuerzo deelicitación por parte del usuario.

Por otro lado, de acuerdo con Chipman et al. (2001), el incluir previas independientes para losregresores podría ser controvertido en contextos en que se analizan interacciones, o en que algunascovariables son colineales. En particular, recomiendan usar a prioris de “dilución”. La etiqueta “di-lución” se deriva de la observación de que estas a prioris funcionan disipando las probabilidadesde vecindad entre modelos con estructuras específicas similares, o en otras palabras, funcionan ha-ciendo que las diferencias entre las probabilidades de una vecindad pierdan importancia hasta queno que no puedan percibirse. Según George (2010), tal dilución parece deseable porque mantienela asignación de probabilidades posterior entre vecindarios de modelos similares. La probabilidaddel conjunto resultante de modelos equivalentes no debera cambiar, y es la dilución lo que evitaque esto suceda. Tenga en cuenta que este fenómeno de dilución se haría mucho más pronunciadocuando se consideren muchas variables altamente correlacionadas. Un claro ejemplo se presentaen Brock and Durlauf (2001) y Durlauf (2006), quienes construyen sus modelos con base en teo-rías económicas más no en regresores individuales. Esto implica una estructura de árbol jerárquicapara las previas en el espacio de modelos.

En el caso específico de los modelos de interacción social, en el que, igualmente se pueden pre-sentar altas correlaciones entre las variables, y no se cumple el supuesto de exogeneidad estricta(E(εi|Z∗,W ) = 0), es decir que las caraterísticas X y la matriz de interacción son exógenas conrespecto al resultado, y, es esencial considerar este tipo de previas. Siguiendo la explicación y nota-ción utilizadas en George (2010), una de las alternativas para la construcción de previas de diluciónconsiste en reducir la probabilidad de inclusión de i (i-ésimo modelo) en la medida en se presentecolinealidad en Z∗i . En este sentido, se construye la métrica |Ri| que refleja la colinealidad. Paracada i, sea Ri la matriz de correlación tal que Ri ∝ Z∗TZ∗. Cuando |Ri|= 1 las columnas de Ri

son ortogonales y en el caso en que |Ri| tienda a 0, las columnas de Xi presentan cierto nivel de

Page 36: Model selection in social interaction frameworks: a

24 2 Modelos de interacción social

redundancia. Este último resultado sugiere modificaciones en la previa de la siguiente forma:

πR(i) ∝ h(|Ri|)πpγ=1wδγγ (1− wγ)1−δγ (2-33)

para alguna función monótona h que satisfaga h(1) = 1 y h(0) = 0 (δγ = I(Z∗γ en i)). Las op-ciones naturales simples para h, serían h(r) = r y h(r) = r

12 , las cuales controlan la magnitud de

la reducción en la ponderación. Siguiendo a George (2010), en comparación con πV (donde, πVasigna probabilidades uniformes a vecindarios en lugar de modelos, diluyendo así la probabilidadde conglomerados de modelos similares), y las previas relacionadas, πR ofrece grandes ventajascomputacionales. Por lo tanto, es ideal para algoritmos de Metropolis-Hastings donde no se ne-cesita la constante de normalización. Además, de acuerdo con George (2010), métodos rápidospara la actualización secuencial de |Ri| están disponibles y se pueden utilizar con distribucio-nes de propuestas que cambian agregando o eliminando variables. El proceso anterior denominadoSpinner puede ser de hecho una propuesta efectiva con esta previa en el procedimiento Metropolis-Hastings.

Según George (2010), aunque πR es una previa de dilución en el sentido de reducir la ponderaciónde los modelos redundantes, no es una previa de dilución en el sentido de asignar una probabilidaduniforme a las vecindades como lo hace πV . Esto se debe a que πR no tiene en cuenta modelossimilares cercanos que utilizan conjuntos de variables muy diferentes. Por lo tanto, se parece másal proceso de giro local en el sentido de que su dilución ocurre en algunos modelos cercanos, perono en todos. También cabe mencionar que la penalización de despido por πR puede ser de interésen sí mismo.

Finalmente, al combinar dichas distribuciones con la función de verosimilitud de los modelos,se obtiene la expresión siguiente:

p(Mi|y) =p(y|Mi)p(Mi)∑Q

j=1 p(y|Mj)(p(Mj)

Donde p(y|Mi) es la función de verosimilitud para el modelo i, y p(Mi) denota su probabilidad apriori. Por otra parte, de acuerdo con Koop (2003), la distribución marginal para el modelo i estadada por:

p(y|Mi) =

∫p(y|θ,Mi)p(θ|Mi)dθ

p(y|Wi) =

∫(−1,1)

∫Rk

∫R+

f(β, σ20, λ0)π(β|σ2

0)π(σ20)π(λ0)dσ2

0dβdλ0

=

∫(−1,1)

∫Rk

∫R+

(2πσ20)−n/2(

R∑r=1

|Ar|)n−1 exp

(− 1

2σ20

R∑r=1

(ArY∗r − Z∗rβ)′(ArY

∗r − Z∗rβ)

)

Page 37: Model selection in social interaction frameworks: a

2.6 Estimación bayesiana de modelos de interacción social 25

1

(2π)k/2(σ20)k/2 | T |1/2

exp

(− 1

2σ20

((β − µn)′Σn(β − µn))

)1

2

(δ/2)α/2

Γ(α2)σ

2−(α+2)

20 exp

(−δ2σ2

0

)1

2dσ2

0dβdλ0

=

∫(−1,1)

∫Rk

(2π)−( (n−1)+2k2 )(

R∑r=1

|Ar|)n−1|T |−12

1

22

(δ/2)α/2

Γ(α/2)

∫R+

(σ20)−( (n−1)+2k+α

2+1)exp

{− 1

2σ20

{(β − µn)′Σn(β − µn)} − δ

2σ20

}dσ2

0dβdλ0

=

∫(−1,1)

(2π)−( (n−1)+2k2 )(

R∑r=1

|Ar|)n−1|T |−12

1

22

(δ/2)α/2

Γ(α/2)Γ

((n− 1) + 2k + α

2

)∫Rk

((β − µn)′Σn(β − µn) + δ)

2

)−( (n−1)+2k+α2 )

dβdλ0

=

∫(−1,1)

(2π)−( (n−1)+2k2 )(

R∑r=1

|Ar|)n−1|T |−12

1

22

(δ/2)α/2

Γ(α/2)Γ

(α + 2k

2

)

(z(λ0)∗α

2

)−(α+2k2 ) ∫

Rk

1 +(β − µn)′

(Σn

2(λ0)∗

)(β − µn)

α

(−α+2k2 )

dβdλ0

= (π)−( (n−1)2 ) Γ(δ/2)

Γ(α/2)(δ)(α/2) 1

22|T |−1/2

∫(−1,1)

(R∑r=1

|Ar|)(n−1)δ(λ0)−(α/2)|Σn|−1/2dλ0

∝∫

(−1,1)

(R∑r=1

|Ar|)(n−1)δ−(α/2)|Σn|−(1/2)dλ0

donde

Z(λ0)∗ =

(R∑r=1

Z∗r′Z∗r

)−1 R∑r=1

Z∗r′(Imr − λWr)Y

∗r

Teniendo en cuenta a las ventajas metodológicas, filosóficas y pedagógicas del enfoque bayesiano(Hassan, 2017), el método de estimación de los parámetros del modelo de interacción social sellevó a cabo mediante el método Metropolis-Hastings (Metropolis et al., 1953), anidado con Gibbs(Gelfand and Smith, 1990), el cual conoce como el método “Metropolis within Gibbs” (Gilks et al.,1995).

Page 38: Model selection in social interaction frameworks: a

3 Selección de modelos de interacciónsocial mediante un enfoquebayesiano

Los temas de investigación en muchas áreas de las ciencias sociales, así como también en la eco-nometría y la estadística espaciales, presentan datos que suelen ser dependientes del espacio y/ovariables socioeconómicas o culturales. Estos datos se suelen tratar, hoy en día, mediante los mode-los de regresión espacial, base de los modelos de interacción social, entre ellos, el modelo espacialautorregresivo (SAR) Y = λWY +Xβ + ε, estudiado en el primer capítulo.

Uno de los aspectos fundamentales de la inferencia y predicción de dichos modelos es su especifi-cación que se compone fundamentalmente de dos tipos de elementos, la matriz de ponderacionesespaciales W y las covariables. Tal como se describió en el capítulo “Estimación de modelos deinteracción social”, la matriz de ponderaciones espaciales se construye a partir de información geo-gráfica o económica para caracterizar la dependencia espacial. En muchas ocasiones se presentandiferentes alternativas posibles para la matriz de ponderaciones espaciales, y no una única opción.

De acuerdo con la literatura, existen dos tipos de métodos para seleccionar la matriz de ponde-raciones espaciales. El método bayesiano y el no bayesiano. En cuanto al método no bayesiano,Kelejian (2008) selecciona la verdadera matriz de ponderaciones espaciales utilizando estimacio-nes mediante el Método generalizado de los momentos (MGM). En este último método se sugiereutilizar una prueba J no anidada para probar un modelo SAR específico frente a un conjunto demodelos alternativos con diferentes matrices de ponderaciones espaciales.

Kelejian and Piras (2011) sugieren una modificación de la prueba J de Kelejian usando la in-formación disponible de una manera más eficiente, y posteriormente Kelejian and Piras (2014) laextienden a una configuración de datos de panel.

Por otra parte, el segundo tipo de métodos, el método bayesiano, estima una matriz de ponderaciónpromediando diferentes matrices de ponderaciones espaciales. Zhang and Yu (2018), específica-mente, proponen un procedimiento de promediado de modelos con el fin de reducir el error deestimación. Este tipo de métodos superan la dificultad de que la verdadera matriz de ponderacio-nes espaciales no se encuentra entre los candidatos.

Page 39: Model selection in social interaction frameworks: a

27

Ahora bien, en cuanto a los modelos de regresión lineal clásicos, se presenta una gran cantidadde trabajos en los cuales se explora y se proponen métodos de selección de variables. Uno de losmétodos más utilizados es la regresión penalizada, en el que se pueden elegir varias opciones defunciones de penalización para la selección de variables, como son el “least absolute shrinkageand selection operator”(LASSO) (Tibshirani, 1996), “smoothly clipped absolute deviation” (Fanand Li, 2001) y LASSO adaptativo (Zou, 2006). Debido a la dependencia espacial, los métodospenalizados anteriores podrían usarse directamente en la selección de variables del modelo SAR.

Por otra parte, teniendo en cuenta que los métodos clásicos de selección de variables se afec-tan significativamente por el ruido y los valores atípicos, se han propuesto varios enfoques sólidos,como es el caso de estudios que adoptan la función de pérdida de Huber (Huber, 2004). No obstan-te, el método de Huber tiene limitaciones en términos de eficiencia, y por tanto, Wang et al. (2013)propusieron una clase de estimadores robustos basados en la función de pérdida exponencial alcuadrado, que se usa ampliamente en el algoritmo denominado de impulso (Friedman et al., 2000).

Ahora bien, en cuanto a la selección de variables para el modelo espacial autorregresivo (SAR),en la actualidad, se presentan, igualmente dos tipos de métodos de selección de variables para elmodelo. El método bayesiano y no bayesiano. En lo que respecta al método bayesiano, se presentafundamentalmente el método de selección realizado por LeSage and Parent (2007a).

LeSage and Parent (2007a) desarrollaron una metodología de composición de modelos de Markovchain Monte Carlo (MC3), así como una técnica de promediado de modelos bayesiano (BMA)específica para los modelos SAR y de errores espaciales, sin embargo, los autores se centraronexclusivamente en uno de los elementos de la especificación del modelo, como es la elección devariables explicativas como en el caso de los modelos lineales convencionales. En contraposición,teniendo en cuenta que las técnicas BMA para los modelos SAR se basan en el cálculo de pro-babilidades marginales, se presenta una gran carga computacional al incluir un gran número decovariables como candidatas potenciales de la especificación.

Posteriormente, Piribauer and Crespo Cuaresma (2016) propusieron un modelo basado en el crite-rio de información bayesiano y estimaciones por máxima verosimilitud de la matriz de interacción(ver LeSage and Parent (2007a)). Piribauer and Crespo Cuaresma (2016) utilizaron la selecciónde variables de búsqueda estocástica (SSVS) a priori para abordar el problema de la selección devariables en los modelos SAR, lo que evita el complejo cálculo de probabilidades marginales enBMA. De acuerdo con Song et al. (2021), estos métodos se ven afectados por valores atípicos enmuestras finitas. De hecho, los valores atípicos o el ruido intenso plantean desafíos en la estima-ción de parámetros y la selección de variables para el modelo SAR. En su trabajo, se presenta unmétodo robusto de selección de variables para modelos espaciales autorregresivos basados en unafunción de pérdida exponencial al cuadrado y una penalización adaptativa del método LASSO, el

Page 40: Model selection in social interaction frameworks: a

28 3 Selección de modelos de interacción social mediante un enfoque bayesiano

cual permite seleccionar predictores importantes y, simultáneamente, estimar los coeficientes deregresión.

Por otra parte, en el marco del enfoque bayesiano, Krisztin (2017) proporcionó un método deselección de variables bayesianas para un modelo espacial autorregresivo semiparamétrico. Aun-que los métodos bayesianos han logrado un gran progreso en la selección de variables y modelospara los modelos de SAR, existen algunas dificultades para evaluar la calidad de los antecedentesy elegir las distribuciones a priori adecuadas para las diferentes aplicaciones.

El pensamiento bayesiano ha tenido un gran desarrollo en procedimientos como diseño y selecciónde modelos (Marden, 2000). En el aspecto de comparación de modelos, el enfoque bayesiano sebasa originalmente en el concepto del factor de Bayes, que es una proporción que muestra cómose actualizan las probabilidades de un modelo con respecto a otro en función de los datos. SegúnBerger and Pericchi (2015), el logaritmo del factor de Bayes se considera como “el peso de laevidencia ofrecida por los datos ”.

Para encontrar el mejor modelo en el marco de una teoría social, en particular, y generar cono-cimiento en presencia de la incertidumbre cuando tenemos diferentes especificaciones de la matrizde interacción social, así como de las covariables, se utilizan los conceptos y herramientas propor-cionados por los métodos: Bayesian Model Averaging (BMA) y Markov chain Monte Carlo modelComposition (MC3).

Desde esta perspectiva, en este trabajo se toma como marco teórico el enfoque bayesiano, graciasa que ofrece numerosas ventajas teóricas y metodológicas con respecto a los enfoques alternativos(Hassan, 2017). En el caso concreto de los modelos de interacción social, el enfoque bayesianoofrece: 1) Un diseño de un método simple para seleccionar en presencia de muchas variables. Deacuerdo con Withers (2002), los procedimientos estándar de elección de variables (como el stepwise regression) podrían resultar muy engañosos en comparación. 2) Tienen en cuenta la incer-tidumbre del modelo, que se ignora en gran medida cuando se desarrolla un modelo único pararepresentar una teoría (Raftery et al., 1997). 3) Presentan la capacidad de comparar modelos noanidados (Raftery, 1995); (Hepple, 1995).

3.1. El Método Bayesian Model Averaging (BMA)

Según Raftery et al. (1997), fundamentar las inferencias en los resultados de un solo modelo comosi fuera el único, ignora todas las otras alternativas posibles de especificación, y por tanto, no tieneen cuenta la incertidumbre del modelo. El enfoque Bayesiano plantea una solución estándar a esteproblema, Leamer and Leamer (1978), la cual consiste, básicamente, en un promedio de las distri-buciones posterior de cada modelo, ponderados por las correspondientes probabilidades posterior

Page 41: Model selection in social interaction frameworks: a

3.1 El Método Bayesian Model Averaging (BMA) 29

de los modelos (LeSage and Parent (2007a)). A este procedimiento se le conoce como BayesianModel Averaging (BMA).

Estas técnicas de promediado de modelos bayesianos se han utilizado cada vez más en la in-vestigación empírica (por ejemplo, LeSage and Fischer (2008); Crespo Cuaresma and Feldkircher(2013); Piribauer and Fischer (2015); Piribauer and Crespo Cuaresma (2016)), donde los marcosteóricos alternativos a menudo suelen ser muy similares entre sí. De acuerdo con Brock and Dur-lauf (2001), la inferencia basada en especificaciones individuales puede sobrestimar la precisiónde las estimaciones obtenidas. como se muestra a continuación en su artículo.

Sin embargo, aunque el enfoque bayesiano permite una inferencia exacta, sin necesidad de aproxi-maciones asintóticas (Piribauer and Crespo Cuaresma, 2016), y la literatura sugiere utilizar BMAen lugar de elegir un solo modelo por su capacidad predictiva superior (Raftery et al., 1997), (Fer-nandez et al., 2001); dicha técnica se ha estudiado y se ha utilizado en menor grado que otraspara la selección de modelos con especificación tipo SAR. Esto puede deberse en parte a que losmétodos estándar de promediado de modelos bayesianos implican el cálculo de probabilidadesmarginales, que no tienen soluciones de forma cerrada para modelos espaciales autorregresivos(SAR) LeSage and Parent (2007b), y a que si muchas covariables son candidatas potenciales paraformar parte de la especificación, el promedio de los modelos SAR conduce a una carga compu-tacional importante, ya que el cálculo de las probabilidades marginales correspondientes requieretécnicas de integración numérica.

Adicionalmente, podría deberse a la falta de familiaridad con los antecedentes adecuados paraeste modelo y a la falta de conocimiento sobre las propiedades frecuentistas de los procedimientosbayesianos. Sin embargo, de acuerdo con George (2010), el potencial del enfoque bayesiano radi-ca en la formulación de los elementos en los que se basa: el espacio de modelos, la distribución apriori para el espacio de modelos y las distribuciones a priori para los parámetros. El conocimientoprevio o experiencia o la incertitud del analista podría reflejarse en las distribuciones a priori, y enese sentido, las distribuciones a posteriori podrían ser diferentes. Eicher et al. (2011), argumentanque las previas pueden ser extremadamente críticas para el resultado de los análisis de BMA. Porsu parte, Steel and Ley (2007) demuestran que una comparación casual de los resultados algunasveces puede llevar a una sensación engañosa de “robustez” con respecto a los supuestos de lasprevias.

En cuanto a la formulación de previas para el espacio de modelos, el enfoque bayesiano permiteuna elección en dos áreas: la elección del factor de precisión g en lo que se denomina la g-previay los supuestos de la a priori en el espacio de modelos. Sobre este último, se suele obtener la apriori en términos del tamaño medio del modelo, que es una cantidad sobre la que los analistaspueden tener algunas preferencias subjetivas. Se considera importante en este punto, aclarar conrespecto al factor de precisión, su origen e interpretación. En 1986, Arnold Zellner propuso una

Page 42: Model selection in social interaction frameworks: a

30 3 Selección de modelos de interacción social mediante un enfoque bayesiano

forma sencilla de introducir información subjetiva en un modelo de regresión. La idea es que elinvestigador especifique la ubicación de los coeficientes β. Por ejemplo, supongamos que los co-eficientes β presentan un valor de uno, β1 = β2 = · · · = βn = 1 Este supuesto se verá reflejadoen una constante g que representa la cantidad de información en la apriori con relación a los datos.Por lo tanto, elegir un valor menor para g daría un mayor peso a este supuesto. Por el contrario,elegir valores más grandes que g tiene un efecto similar a elegir una a priori no informativa paralos parámetros, y a medida que g tienda a infinito, el impacto de la apriori tiende a desaparecer.Otros aspectos de la a priori suelen ser menos interpretables para la mayoría de los analistas espe-cializados y requerirían ajustes “automáticos”.

El desarrollo de a prioris para los parámetros ha recibido una considerable atención en la literatura,y dentro de este campo ha llamado considerablemente la atención las denominadas formulacionesprevias objetivas destinadas a ser utilizadas por defecto en ausencia de información previa per-tinente. Un ejemplo del empleo de dichas previas, se puede encontrar en Hepple (1995), quienconsideró algunos aspectos de selección de modelos espaciales basada en una distribución a prioriuniforme para los parámetros del modelo, aunque no mostró las propiedades de la distribuciónposterior resultante. De otro lado, LeSage and Parent (2007b) también consideraron problemas deselección de modelos, sin embargo, incorporaron distribuciones a priori subjetivas para los pará-metros.

Por otra parte, De Oliveira and Song (2008) derivaron dos versiones de la a priori de Jeffrey,denominadas a prioris de independencia y la regla de Jeffrey para los parámetros de los mode-los SAR. Estos autores estudiaron las propiedades de las distribuciones posteriores resultantes yla existencia de los momentos de la distribución para los parámetros de covarianza. Igualmente,analizaron y compararon las propiedades frecuentistas de las inferencias bayesianas sobre los pa-rámetros de covarianza basados en las a prioris de Jeffreys y la a priori uniforme. De Oliveira andSong (2008) encontraron que las propiedades frecuentistas de las inferencias basadas en el métodode máxima verosimilitud son en general inferiores a las de las basadas en inferencias bayesianas.

En lo que concierne el desarrollo de a prioris en el espacio de modelos, se podría afirmar, porel contrario, que ha recibido menos atención, en parte, debido a la disponibilidad de algunas op-ciones simples y convenientes. Por ejemplo, una de las previas más simples y de uso común es laprevia uniforme discreta. Aunque a menudo, esta previa se considera una representación natural dela ignorancia de los investigadores, esta no tiene en cuenta las similitudes entre los modelos; sim-plemente, se consideran a prioris que asignan probabilidades iguales a la inclusión de cada variabledebido a que es la práctica más común y requiere menos esfuerzo de elicitación por parte del usua-rio. Algunos ejemplos se presentan en el artículo de Steel and Ley (2007), en el cual las previasanalizadas se limitan a las opciones denominadas “vagas o difusas”, más comúnmente utilizadas,que requieren solo una cantidad mínima de elicitación previa (un caso contrario, de estructuras deprevias jerárquicas se puede encontrar en Brock and Durlauf (2001)).

Page 43: Model selection in social interaction frameworks: a

3.1 El Método Bayesian Model Averaging (BMA) 31

Siguiendo con las diferentes a prioris para el espacio de modelos, se resalta la distribución bino-mial, la cual constituye una alternativa muy simple y utilizada, con relación a la a priori uniforme.A fin de implementarla se parte del punto de vista de las covariables, asignándoles una probabi-lidad de inclusión común y fija, para cada regresor. En este sentido, la probabilidad previa de unmodelo de un tamaño específico se calcula, por tanto, como el producto de las probabilidades deinclusión y exclusión.

En el trabajo de Moser and Hofmarcher (2014), se implementan previas para el espacio de mo-delos que compensan la redundancia de dicho espacio, gracias a las previas de dilución propuestospor George (2010). En lugar de asignar probabilidades previas de manera uniforme entre los mo-delos, el objetivo de dichas previas es asignar probabilidades de manera más uniforme a través devecindarios de modelos. La etiqueta “dilución” se deriva de la observación de que tales previasfuncionan diluyendo (o entras palabras redistribuyendo la concentración o uniformizando) las pro-babilidades de vecindad entre los modelos dentro de ellos, mientras que la a priori uniforme puedeasignar un exceso de probabilidad a vecindarios de modelos redundantes.

A fin de tener en cuenta el problema de la multicolinealidad en los regresores, George (2010),propone utilizar previas de dilución, como la denominada TESS (del inglés dilution-defined tesse-llation prior), la cual proyecta la matriz de diseño de un modelo Mj a la superficie de una esferaunitaria. Asigna a cada punto de la superficie precisamente ese modelo, cuyo subespacio expandi-do minimiza la distancia (euclidiana) a un punto considerado. Esto da como resultado regiones delmodelo en la superficie de la esfera unitaria que forman lo que se denomina una teselación de Vo-ronoi y entregan las probabilidades del modelo previo diluidas deseadas. Al hacerlo, las regionesdel modelo en la esfera se definen como el conjunto de puntos en la superficie que están más cercade una especificación de un modelo en particular que de cualquier otra especificación. El área dela región de cada modelo de la teselación (Voronoi tessellation) define la probabilidad previa paraeste modelo. De esto se deduce que TESS “diluye las probabilidades (de la previa del modelo) deagrupaciones de modelos similares” George (2010).

De acuerdo con Moser and Hofmarcher (2014), el efecto de una previa con dilución (uniformi-zación) sobre la posterior se manifiesta, por supuesto, a través de la regla de Bayes p(Mi|y) ∝p(y|Mi)p(Mi). Debido a que la distribución marginal p(y|Mi) no se ve afectada por cambios en elespacio modelo, cualquier efecto de dilución (de uniformización) se controla completamente en laprevia del espacio modelo de p(Mi). De hecho, no se producirá ninguna dilución de las probabili-dades posteriores bajo una a priori uniforme, ya que conduce a p(Mi|y) ∝ p(y|Mi).

Según George (2010), entre las ventajas que presentan las a prioris de dilución se encuentra queéstas evitan asignar muy poca probabilidad a modelos buenos, pero únicos, como consecuencia deacumular un exceso de probabilidad en grandes conjuntos de modelos malos, pero similares. Por

Page 44: Model selection in social interaction frameworks: a

32 3 Selección de modelos de interacción social mediante un enfoque bayesiano

lo tanto, las a prioris de dilución pueden ser útiles para promediar los modelos y evitar sesgar lospromedios lejos de los buenos, pero aislados. George (2010), argumenta también que estas previaspueden ser útiles para el muestreo de MCMC considerando que las cadenas de Markov gravitanhacia regiones de alta probabilidad. No diluir la probabilidad entre grupos de muchos modelosmalos sesgará tanto la búsqueda del modelo como las aproximaciones de promediado del modelohacia modelos defectuosos; y por tanto, teniendo en cuenta todas estas ventajas, y que hasta ahoraen la literatura no se han empleado este tipo de a prioris en el método BMA para los modelosde interacción social, se introducirá este tipo de a priori en este caso a modo de contribución. Acontinuación, se presentará la estructura básica del procedimiento.

Sea M = {M1,M2, · · · ,MQ} el conjunto de todos los modelos considerados y θ los paráme-tros de interés. Luego, la distribución posterior de θ dados los datos, y, es:

p(θ | y) =

Q∑i=1

p(θ |Mi, y)p(Mi | y) (3-1)

Todas las probabilidades están condicionadas implícitamente por M , cantidad que denota el con-junto de todos los modelos. De esta manera, dicho promedio proporciona una mejor capacidad depredicción, medida por una regla de escala logarítmica, en lugar de usar un modelo único Mi:

−E[log

Q∑i=1

p(θ |Mi, y)p(Mi | y)] 6 −E[log(p(θ |Mi, y))] (i = 1, . . . , Q) (3-2)

Donde θ es la parte observable que se puede predecir y la esperanza se da con respecto aQ∑k=1

p(θ |

Mi, y)p(Mi | y). La desigualdad en (3-2) se desprende de la no negatividad de la divergencia deinformación de Kullback-Leibler.

3.2. El Método de Markov chain Monte Carlo modelComposition

Siguiendo a Raftery et al. (1997), esta metodología desarrollada por Madigan et al. (1995) tiene porobjetivo generar un proceso estocástico que se mueve a través del espacio de modelos. Por tanto, deacuerdo con Raftery et al. (1997), se puede construir una cadena de Markov M(i), i = 1, 2, . . . conespacio-estadoM y distribución de equilibrio p(Mi|y), entonces simulando una cadena de Markovpara i = 1, . . . , N , y bajo ciertas condiciones de regularidad, para cualquier función g(Mi) definidaenM, el promedio

G =1

N

N∑t=1

g(M(i)) (3-3)

Page 45: Model selection in social interaction frameworks: a

3.3 Promedio de modelos con efectos inciertos de interacción social 33

es una estimación consistente de Eg(M). Para construir la cadena de Markov, definimos un ve-cino por cada M ∈ M que consiste en el modelo en sí mismo y el conjunto de modelos con unavariable más o una variable menos que M . Denotamos nbd(M) como el vecindario de M .

Se define una matriz de transición s estableciendo s(M −→ M ′) = 0 para todos M ′ 6∈ nbd(M)

y s(M −→ M ′) constante para todos M ′ ∈ nbd(M). Si la cadena se encuentra actualmente en elestado M , procedemos extrayendo M ′ de s(M −→M ′). Entonces se acepta con probabilidad:

min

(1,p(M ′|y)

p(M |y)

)(3-4)

De lo contrario el proceso se mantiene en el estado M .

Por lo tanto, para implementar las técnicas MC3 y BMA para modelos de interacción social,se proponen algoritmos computacionalmente eficientes, tal como se muestra en la siguiente sec-ción. La implementación de las técnicas MC3 para este tipo de modelos requiere una evaluaciónrepetida de la distribución posterior marginal en el contexto del muestreo de Metropolis-Hasting yla integración numérica sobre el parámetro de dependencia λ0.

3.3. Promedio de modelos con efectos inciertos deinteracción social

Supongamos que estamos interesados en cierto grupo de parámetros βk, donde k representa elnúmero de posibles variables explicativas y Z es el número potencial de matrices de interacciónsocial Wr, z = 1, ..., Z. La cardinalidad deM es, por tanto, 2k × Z, que representa el número decombinaciones de k variables en grupos de tamaños 2 a k multiplicado por el número de posiblesmatrices de interacción social. En nuestro modelo en particular,M se caracteriza por un vector deparámetros Θ = (α, β, λ0), que corresponde al intercepto que se incluye en todos los modelos, loscoeficientes de los regresores que entran en el modelo y el coeficiente del témino de endogenidad.

Luego, la distribución a posteriori de θ toma ahora la siguiente forma en el contexto de BMA:

p(θ|y) =2k−1∑j=1

Z∑z=1

p(θ|M zj , y)p(M z

j |y) (3-5)

donde y denota los datos y β representan los coeficientes de interés. La inferencia de β se basaen inferencias simples de los modelos j = 1, . . . , 2k−1 × Z ponderadas por sus respectivas proba-bilidades posterior del modelo, p(M z

j |y), que a su vez dependen de la matriz correspondiente deinteracciones sociales. Podemos construir (3-5) haciendo uso del hecho de que

p(M zj |y) =

p(y|M zj )p(M z

j )∑2k

j=1

∑Zz=1 p(y|M z

j )p(M zj )

(3-6)

Page 46: Model selection in social interaction frameworks: a

34 3 Selección de modelos de interacción social mediante un enfoque bayesiano

donde p(M zj ) denota la distribución a priori asignada al modelo M z

j y p(y|M zj ) es la función de

verosimilitud marginal del modelo. En este caso, las probabilidades posterior son simplemente da-das por el producto del factor de Bayes con las probabilidades a priori. Para obtener (3-6) y, por lotanto, (3-5), necesitamos especificar las distribuciones a priori para los coeficientes de regresión,la varianza y el espacio de modelos M. Como es práctica común en la literatura sobre estadísti-ca, se usó la estructura g-prior de Zellner (Zellner, 1986) para los coeficientes de regresión, quesimplemente requiere la elección del hiperparámetro g, especificando β|σ2

0 ∼ N (0, σ20g(X ′X)−1),

donde g = 1max([g1,g2])

, g1 = número de observaciones y g2 = (k × k). Luego, se asumime una apriori para los modelos (p(M)) igual a 1/Q, en la que Q es el número total de especificacionesconsideradas.

En muchas aplicaciones, la cardinalidad del espacio modelo hace que la evaluación de (3-5) seaintratable. Se han propuesto varios métodos para superar este problema y los algoritmos de Mar-kov chain Monte Carlo model composition (MC3) se han convertido en una herramienta útil paraevaluar los subconjuntos del espacio modelo que representan una gran masa de probabilidad delmodelo posterior. Modificamos el habitual método MC3 para tener en cuenta la incertidumbresobre un conjunto de matrices de interacción social, específicamente, seguimos la propuesta deCotteleer et al. (2011); no obstante, tomamos otra especificación para el modelo y trabajamos enotro contexto, (Cotteleer et al. (2011), adapta el algoritmo para modelos espaciales). El algoritmoprocede de la siguiente manera:

3.3.1. El Algoritmo

Comenzando con un modelo según lo definido por un grupo de regresores y el conjunto dematrices de interacción social W , en cada paso de iteración se obtiene un regresor candidatode un conjunto de posibles covariables. Agregamos el regresor candidato al modelo actualM z

j , en caso de aún no se hubiese incluido en ese modelo. Por otro lado, el regresor can-didato se elimina del modelo si ya está incluido en M z

j . Es importante tener en cuenta queambos modelos están condicionados por el mismo conjunto de matrices de interacción. Porlo tanto, el modelo candidato siempre se extrae de una vecindad del actual, definido comoel subconjunto del espacio del modelo formado por modelos que difieren solo en un soloregresor. El modelo candidato M z

c está sujeto a la siguiente probabilidad de aceptación:

pcj = min

[1,p(M z

c )p(y|M zc )

p(M zj )p(y|M z

j )

](3-7)

Se puede observar que la penalización potencial por el tamaño del modelo tiene en cuentatanto la previa del modelo como en el factor de Bayes.

En el segundo paso, se calcula una probabilidad uniforme para la matriz de interacción can-didata Wc a partir del conjunto de matrices restantes W−z := {Wi}Zi 6=1. Se resalta la impor-tancia de tener en cuenta la incertidumbre en las diferentes especificaciones deW . El modelo

Page 47: Model selection in social interaction frameworks: a

3.3 Promedio de modelos con efectos inciertos de interacción social 35

aceptado en el primer paso, indicado por M zj , se compara con el modelo que contiene los

mismos regresores pero un conjunto diferente de matrices de interacción. La probabilidadde aceptación viene dada por:

pcz = min

[1,p(y|M z

c )

p(y|M zj )

](3-8)

Dado que ambos modelos consisten en el mismo número de regresores, el proceso de mues-treo hace que las odds previas se cancelen. La gananacia por la parsimonia con respecto ala matriz de pesos de interacción se rige únicamente por el factor de Bayes. Adicionalmentea una previa uniforme sobre el espacio de modelos, se incluyó una distribución previa dedilución, la cual tal como se discutió en la sección “El método de Bayesian Model Avera-ging (BMA)”, tiene en cuenta posibles problemas de multicolinealidad entre las covariablesy presenta importantes ventajas con respecto a evitar sesgos en el proceso de promediado demodelos y en cuanto al muestreo MCMC.

Se Repiten los pasos 1) y 2) una gran cantidad de veces y se calculan las estadísticas deBMA correspondientes en función del conjunto de modelos considerados, en lugar del espa-cio completo del modelo.

Page 48: Model selection in social interaction frameworks: a

4 Ejercicios de simulación

Se realizaron ejercicios de simulación para la estimación de los parámetros del modelo, y para laselección de modelos de interacción social mediante el método bayesiano propuesto. Esto con elfin de explorar la capacidad de la metodología para lograr dichos fines. En este estudio se adoptó elmétodo bayesiano, que a diferencia del enfoque de estimación clásico que emplea el concepto deestimación de extremos mediante una función objetivo, la estimación bayesiana se basa puramenteen conceptos de probabilidad y las inferencias estadísticas que se calculan con base en distribu-ciones posteriores de parámetros (Hsieh and Lee, 2016). Igualmente, el método bayesiano permiteutilizar el método de Markov Chain Monte Carlo (MCMC) para extraer muestras de distribucionesposteriores y luego calcular las medias posteriores de la muestra como estimaciones de paráme-tros. La facilidad para tratar con modelos complejos es la razón principal por la que se adopta laestimación bayesiana en lugar de la estimacin clásica.

4.1. Ejercicios de simulación para la estimación deparámetros

A continuación, se realizaron experimentos numéricos de Monte Carlo con el fin de explorar eldesempeño de los métodos de estimación bayesiana y máxima verosimlitud. La especifición delproceso generador de los datos se presenta en la ecuación (4-1):

Yr = 0.5WrYr +Xr,1 −Xr,2 +WrXr,1 −WrXr,2 + lmrαr + εr (4-1)

o, equivalentemente, en términos de cada uno de los individuos del grupo r.

yri = 0.5

(1

mr − 1

mr∑j=1,j 6=i

yrj

)+xri,1−xri,2+

(1

mr − 1

mr∑j=1,j 6=i

xrj,1

)−

(1

mr − 1

mr∑j=1,j 6=i

xrj,2

)+αr+εri

(4-2)

donde εir ∼ N (0, 1). Adicionalmente, i, j representan los vecinos (individuos del mismo grupo).Por otro lado,Xr,1, yXr,2 son generadas a partir de una distribuciónN (0, σ2

0Imr). Adicionalmente,el término lmrαr, representa los efectos fijos, los cuales son eliminados posteriormente medianteel procedimiento de transformación descrito en la sección de estimación. Finalmente, los datos songenerados con λ0 = 0.5, β11 = 1, β12 = −1, β21 = 1, β22 = −1.

Page 49: Model selection in social interaction frameworks: a

4.1 Ejercicios de simulación para la estimación de parámetros 37

Con el fin de tener una referencia para los resultados de la simulación, se utilizó un escenariosimilar al empleado por Lee et al. (2010). En nuestro escenario la muestra se subdividió en dossubmuestras, la primera con 102 grupos y la segunda con 67 grupos, en las cuales todos los gru-pos presentaron diferentes tamaños, especificamente entre: 2 y 10, 2 y 15, 2 y 30, y, 2 y 50. Estopermitió inspeccionar el efecto de aumentar el número de grupos y aumentar y variar el tamañopromedio del grupo por separado, para de esa manera facilitar la comparación de los diferentesmétodos de estimación. El número de simulaciones que se llevó a cabo fue de 1000.

Con el fin de evaluar el desempeño del método de estimación, y cuantificar en qué medida seacerca el valor del parámetro al valor promedio del estimador (calculado a partir del número totalde iteraciones), se utilizó una de las medidas más frecuentes en este tipo de procedimientos, la raízdel error cuadrático medio (RMSE):

RMSE =

√√√√ 1

n

n∑i=1

(βi − E(β))2 (4-3)

El procedimiento mediante el cual se calculó dicha métrica consistó básicamente en comparar Laraíz del error cuadrático medio se calculó para cada uno de los parámetros del proceso generadorya presentado utilizando las 1000 simulaciones. Adicionalmente, se obtuvieron las estimacionespromedio de los parámetros λ0, β y σ0 junto con sus correspondientes desviaciones estándar esti-madas.

Las estimaciones de la especificación propuesta con efectos fijos se realizaron por los métodosbayesianos y de máxima verosimilitud. Específicamente, se implementó el algoritmo de “Gibbswithin Metropolis” utilizando 20,000 iteraciones y un “burn-in”de 2,000. Se calcularon diagnós-ticos para evaluar la convergencia y la estacionariedad de las cadenas como son los gráficos deestimación de densidad, autocorrelaciones y el diagnóstico de convergencia de Gelman and Rubin.De acuerdo con los resultados, todas las cadenas parecen estables y los diagnósticos indican quelas cadenas tienen un buen comportamiento en términos de convergencia. Con base en los resulta-dos presentados en la Tabla (4-1), se puede afirmar que la precisión del parámetro de interacción,λ0, mejora, a medida que aumenta el número de grupos y cuando el tamaño de esos grupos esmenor. Adicionalmente, aunque la precisión de los parámetros es básicamente la misma para am-bos métodos, el enfoque Bayesiano permite obtener las distribuciones completas de los parámetrosy considera la incertidumbre del modelo. Finalmente, se resalta el hecho que se obtuvieron me-jores resultados para la estimación del término de interacción social mediante el método bayesiano.

Por otro lado, en cuanto a los errores cuadráticos medios reportados para los parámetros β2,1 yβ2,2, se puede observar que entre mayor sea el tamaño del grupo, el valor de la métrica RMSEtiende a aumentar ligeramente para ambos métodos, indicando que disminuye la precisión en laestimación. Estos resultados coinciden con aquellos presentados en Lee (2007). Estos autores afir-man que si bien la introducción de factores contextuales adicionalmente a regresores individuales

Page 50: Model selection in social interaction frameworks: a

38 4 Ejercicios de simulación

Tabla 4-1: Raíz cuadrada del error cuadrático medio (RMSE) para cada uno de los parámetros delmodelo de interacción social (1000 simulaciones)

Tamaño grupo Número grupos Método λ0 β11 β12 β21 β22 σ0

2 to 10

67ML 0.3344 0.0796 0.0850 0.2546 0.2677 0.0687

Bayes 0.2405 0.0626 0.0747 0.2647 0.2743 0.0599

102ML 0.2565 0.0588 0.0677 0.1771 0.2080 0.0523

Bayes 0.1911 0.0519 0.0534 0.2199 0.1981 0.0510

2 to 15

67ML 0.3138 0.0559 0.0590 0.2975 0.3413 0.0480

Bayes 0.2156 0.0554 0.0508 0.2752 0.2871 0.0395

102ML 0.2297 0.0476 0.0480 0.2526 0.2463 0.0375

Bayes 0.1906 0.0466 0.0434 0.2166 0.2388 0.0321

2 to 30

67ML 0.3435 0.0416 0.0411 0.3438 0.3469 0.0346

Bayes 0.2226 0.0326 0.0330 0.3678 0.3506 0.0267

102ML 0.2961 0.0287 0.0286 0.2871 0.2949 0.0240

Bayes 0.2030 0.0311 0.0266 0.2725 0.2897 0.0240

2 to 50

67ML 0.4567 0.0326 0.0257 0.4665 0.4176 0.0214

Bayes 0.2276 0.0264 0.0276 0.4346 0.4604 0.0188

102ML 0.3319 0.0251 0.0239 0.3666 0.3374 0.0175

Bayes 0.1878 0.0195 0.0218 0.3580 0.3201 0.0151

Page 51: Model selection in social interaction frameworks: a

4.2 Ejercicios de simulación para encontrar la matriz de interacción social 39

no crea problemas de identificación y estimación sí se presentaría una baja tasa de convergenciaen la estimación del efecto contextual (exógeno) al igual que sucede con el efecto endógeno, cuan-do los tamaños de los grupos aumentan. Estos resultados fueron apoyados por los resultados delexperimento de Monte carlo llevado a cabo en el artículo mencionado.

4.2. Ejercicios de simulación para encontrar la matrizde interacción social

Con el fin de ilustrar y validar el método propuesto para selección de modelos de interacción social,se realizaron ejercicios de simulación, en los cuales se presenta el siguiente proceso de generaciónde datos para la variable dependiente:

Yr = 0.5WrYr +Xr,1 − 0.5Xr,2 + 3Xr,3 − 2Xr,4 + 2Xr,5 + 0.5WrXr,1 − 3WrXr,2+

0.4WrXr,3 + 3WrXr,4 +WrXr,5 + lmrαr + εr

donde εir ∼ N (0, 1). Por otro lado, Xir,1, y Xir,2 son generadas a partir de una distribuciónN (2, 10) cada una, Xir,3, y Xir,4, generadas a partir de una distribución B(10, 2) y Xir,5 generadaa patir de una distribución Poiss(5). Adicionalmente, el término lmrαr, representa los efectos fijos,los cuales son eliminados posteriormente mediante el procedimiento de transformación descrito enla sección de estimación. Finalmente, los datos son generados con λ0 = 0.5, β11 = 1, β12 = −0.5,β13 = 3, β14 = −2, β15 = 2, β21 = 0.5, β22 = −3, β23 = 0.4, β24 = 3 y β25 = 1.

Con respecto al espacio potencial de matrices de interacción social, este se restringió a 20. Debetenerse en cuenta que la matriz de interación social para cada grupo se denota Wr, y la estructurade la matriz que incluye la totalidad de los grupos, W , es una matriz diagonal por bloques. Parafacilitar la interpretación de los resultados se estandarizó cada una de las matrices por fila. Losgrupos fueron generados aleatoriamente. Se definió W0 como la verdadera matriz de interacciónsocial en el ejercicio de simulación.

Al gual que en el ejercicio de simulación anterior, se llevó a cabo la estimación Bayesiana yde Máxima verosimilitud del modelo de interacción social con efectos fijos, utilizando la matrizde interacción social correcta. Específicamente, se implementó el algoritmo de “Gibbs within Me-tropolis” con 22,000 iteraciones y un “burn-in” de 2,000. Se calcularon varios diagnósticos paraevaluar la convergencia y la estacionariedad de las cadenas.

Considerando el conjunto de 2k × Z = Q modelos rivales, donde M es una variable aleatoriadiscreta que toma el valor i, i = 1, 2, . . . , Q, y cuya probabilidad previa está dada por p(Mi), conp(Mi) > 0 y

∑ki=1 p(Mi) = 1. La probabilidad de cada uno de los modelos es la misma.

Page 52: Model selection in social interaction frameworks: a

40 4 Ejercicios de simulación

Si M es el espacio de modelos y por tanto, M captura modelos formados por todos los sub-conjuntos de covariables potenciales en X y matrices de ponderación espacial alternativas W ,específicamente, se asume que están disponibles k variables explicativas potenciales (no constan-tes) y Z matrices de ponderación. La cardinalidad deM en nuestro caso es entonces 2k−1 × Z,el número de combinaciones de k variables en grupos de tamaños 2 a k − 1 multiplicado por elnúmero de posibles matrices de interacción.

En el caso específico de este trabajo, el conjunto de covariables potenciales incluidas en la simula-ción tiene una cardinalidad de 15. Es importante anotar en este punto, que aunque la especificacióndel modelo inicial (el modelo generador de los datos) presenta solo 10 variables, se agregaron 5variables adicionales (“ incidentales”) para verificar la validez de la metodología empleada, puesesta debería seleccionar las 10 variables que realmente generaron los datos del modelo. En cuantoa la selección de la matriz de interacción social, es importante anotar que se tomaron 20 especi-ficaciones diferentes de dicha matriz, y en consecuencia, el espacio de modelos se corresponde a655,360 modelos.

De acuerdo con los resultados obtenidos mediante el método MC3, los cuales se presentan enla Tabla 4-2, las probabilidades de las variables especificadas en el modelo se encuentran por en-cima de 70 %; mientras que las proabilidades de las variables no incluidas en el modelo inicial seencuentran por debajo de 32,96 %. Entonces, se puede concluir que el método permite seleccionaradecuadamente las variables del modelo.

En cuanto a la selección de matrices, el proceso estocástico generado por el método MC3 exploralas regiones del espacio de modelos con las mayores probabilidades a posteriori, y en consecuen-cia, efectivamente, asigna mayores probabilidades a los modelos con las matrices más similares ala matriz especificada en el modelo. Dichos resultados se evidencian en la primera fila de la Tabla(4-2).

Los resultados se presentan en la Tabla 4-2, en la cual se indica el valor de 1, si la especiacificacióndel modelo con la matriz de interacción indicada en la columna izquierda contiene la variable, y seindica con cero si dicha variable no se incluye en el modelo. Esta tabla también permite observar lasprobabilidades posterior de los modelos con diferentes especificaciones de la matriz de interacciónsocial. Es importante aclarar que en la Tabla 4-2 sólo se presentan los modelos con probabiliadesposterior más altas. De acuerdo con estos resultados podemos concluir, que el procedimiento deselección de modelos de interacción social utilizando el método MC3 identifica correctamente laestructura de interacción social subyacente, asignándole una probabilidad a posteriori de 34,6 %,la cual, aunque no es muy alta, es la mayor probabilidad encontrada por el método.

A continuación, se procede a llevar a cabo el método BMA, cuyos resultados se presentan enLa Tabla 4-3 . Dicha tabla presenta las estimaciones promedio de los modelos de interacción so-cial seleccionados por el método MC3 ponderado por las probabilidades a posteriores más altas.

Page 53: Model selection in social interaction frameworks: a

4.2 Ejercicios de simulación para encontrar la matriz de interacción social 41

Tabla 4-2: Selección de la matriz de interacción social mediante el método de MC3

Matrices Var1 Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 Var11 Var12 Var13 Var14 Var15 Probs.

W0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0.346W1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0016W2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0017W3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0016W4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0016W5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0016W6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0017W7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0017W8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0017W9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0017

W10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0019W11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0018W12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0018W13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0018W14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0018W15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0019W16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0019W17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0018W18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0020W19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0020PIP 0.9640 0.9273 0.9277 0.9271 0.9290 0.8176 0.9282 0.7202 0.9306 0.9286 0.3296 0.2559 0.2568 0.3196 0.3018

En este caso, las estimaciones Bayesianas se implementaron considerando una distribución g-priorde Zellner (Zellner, 1986), una distribución previa U(−1, 1) para λ0 y un burn-in de 2000. Comose puede ver, la magnitud de los coeficientes estimados en la Tabla 4-3 se acercan mucho a losvalores verdaderos de los parámetros, así como también conservan los mismos signos. Se consi-dera importante anotar, sin embargo, que los valores previos de referencia suponen una media decero para todos los coeficientes, ya que no tenemos previas informativas sobre los coeficientes deinterés; debido a esto, se esperaría que algunas variables sean estadsticamente irrelevantes (Koop,2003).

Page 54: Model selection in social interaction frameworks: a

42 4 Ejercicios de simulación

Tabla 4-3: Estimaciones obtenidas mediante el método BMA

Indentificación del parámetro Valor verdadero del parámetro Estimador (media de la distribución)

β1,1 1 0.9598β1,2 -0.5 -0.4606β1,3 3 3.0423β1,4 -2 -2.0639β1,5 2 1.9498β2,1 0.5 0.4935β2,2 -3 -2.7801β2,3 0.4 0.2968β2,4 3 2.9953β2,5 1 0.9843λ0 0.5 0.5064

Page 55: Model selection in social interaction frameworks: a

5 Aplicaciones de modelos deinteracción social

En la siguiente sección, se muestran y explican dos análisis desarrollados en el contexto de estainvestigación, con el objetivo de ilustrar posibles aplicaciones del enfoque bayesiano. En primerainstancia, ilustrando la estimación de los modelos de interacción social, se presenta un caso deestudio en el cual se exploran y analizan los determinantes de los rendimientos de un Banco, con-siderando las interrelaciones entre los clientes corporativos, inferidas a partir de las transaccionesrealizadas por estos.

En segundo lugar, con el fin de ilustrar la selección de modelos, a partir de datos públicos y dispo-nibles del sistema escolar en Ohio, se analizaron los determinantes del gasto total por estudianteen el contextos de las escuelas públicas de secundaria del estado de Ohio (EE.UU). En este caso,entre las variables explicativas se consideraron las interrelaciones entre las escuelas más cercanasy con un mayor número de características comunes.

5.1. Estimación bayesiana de un modelo de interacciónen comunidades financieras para la identificaciónde los determinantes de la rentabilidad

Un caso de aplicación interesante y pertinente para este tipo de modelos consiste en el impacto delefecto de la interacción entre individuos en la generación de la rentabilidad bancaria. El papel delos bancos sigue siendo central en varios aspectos importantes para la economía, como lo son partedel financiamiento de la actividad económica, contribuir a la estabilidad del sistema financiero yresistir a choques externos negativos. Todo esto a pesar de una creciente tendencia hacia la desin-termediación bancaria observada en muchos países.

Por otra parte, la mayoría de los estudios sobre la rentabilidad de los bancos, estiman el impactode numerosos factores que pueden ser importantes para explicar las ganancias utilizando modeloslineales (Short (1979), Bourke (1989), Molyneux and Thornton (1992) y Goddard et al. (2004).

No obstante, Athanasoglou et al. (2008), argumentan que, a pesar de que estos estudios mues-

Page 56: Model selection in social interaction frameworks: a

44 5 Aplicaciones de modelos de interacción social

tran que es posible realizar un análisis en términos de rentabilidad, que agrege valor para el bancoy la sociedad, en general, todavía hay algunos problemas que se deben abordar. Entre estos seencuentran el proceso de selección de las variables explicativas. En gran parte de la literatura nose tienen en cuenta las característcas fundamentales de las ganancias bancarias, implicando esti-maciones sesgadas e inconsistentes y evidenciando la falta de consistencia interna y claridad endescripción de la metodologaía econométrica utilizada.

El concepto de rentabilidad implica la diferencia entre las comisiones que el banco cobra porsus servicios adicional al interés que gana sobre sus activos, y el interés que el banco paga so-bre sus pasivos. Esta definición deja de lado, sin embargo, el comportamiento de los clientes, entérminos de la maximización de su rentabilidad y su impacto en el comportamiento de los otrosclientes del banco. El hecho de excluir esta relación de la especificación del modelo también podríarepresentar un sesgo de variables omitidas. Por este motivo, se propone un modelo que incorporetanto la interacción entre los clientes corporativos de un banco (efectos endógenos), a partir de sustransacciones, como los efectos de las variables financieras pertinentes de cada uno de los clientesy su efecto sobre los vecinos o comunidades financieras.

Teniendo en cuenta que el interés radica en la magnitud y la importancia de los efectos de lasinteracciones entre los clientes corporativos del banco y de las variables, la especificación del mo-delo de interacción social es apropiada. En este sentido, el objetivo de esta aplicación es estimarlos efectos de las interacciones comerciales entre los clientes corporativos del banco y los efectosde algunas variables financieras en la rentabilidad de uno de los bancos más grandes de Colom-bia. Para lograr este objetivo, se utilizó un conjunto de datos que contiene información financierapara 18,576 clientes corporativos del banco, en el cual las variables más importantes son la renta-bilidad del banco, las características financieras de clientes corporativos y las transacciones entreclientes. Por tanto, la estimación del modelo permite comprobar la existencia de un efecto comer-cial, respondiendo a la pregunta: ¿Es importante el efecto que los otros clientes ejercen sobre larentabilidad que un determinado cliente le proporciona al banco? y en caso afirmativo, el modelotambién permite responder a la pregunta: ¿Cuál es el mecanismo de transmisión de dichos efectoscomerciales?

Sin embargo, para responder las preguntas anteriores, es necesario, en primer lugar, establecerel grupo de referencia para cada cliente y el peso que cada uno de los miembros del grupo ejer-ce sobre los demás integrantes del grupo. En la mayoría de los estudios de este tipo, el grupo dereferencia es determinado de acuerdo con la disponibilidad de datos y no de acuerdo a un cono-cimiento claro y completo de la estructura de las interacciones entre los clientes. En este caso, sesupera dicha dificultad utilizando diferentes algoritmos de reconocimiento de comunidades pararedes pesadas en las transacciones realizadas por los clientes. Específicamente los algoritmos utili-zados para generar las diferentes matrices de interación comercial son el algoritmo de Infomap y elalgoritmo de Louvain, para mayor ilustración acerca de estos algoritmos, favor referirse al capítulo

Page 57: Model selection in social interaction frameworks: a

5.1 Estimación bayesiana de un modelo de interacción en comunidades financieras parala identificación de los determinantes de la rentabilidad 45

2. Igualmente, se considera importante anotar que el paquete estadístico utilizado es igraph (Csárdiand Nepusz, 2006)). Finalmente gracias a la metodología presentada en este estudio se pudo deter-minar la matriz de interacción más adecuada para representar las interacciones comerciales entrelos clientes corporativos del Banco.

5.1.1. Especificación del modelo

La especificación del modelo estimado es la siguiente (la descripción de las variables se encuentraen la Tabla (5-1):

Profitr = λ0WrProfitr + β1CashF lowr + β2WorKCr + β3Leverager + β4EBITDAint+

β5ROAr + +β11WrCashF lowr +β12WrWorKCr +β13WrLeverager +β14WrEBITDAintr+

β15WrROAr + lmr + αr + εr (5-1)

Recordemos que en la terminología del modelo, λ0 captura el efecto endógeno o de comportamien-to social que mide el impacto que ejercen los miembros de un grupo sobre uno de sus miembros(recordemos que los grupos se denotan por r = 1, 2, 3, . . . , R); mientras que las betas capturanel efecto exógeno o contextual que ejercen las características de los miembros del grupo r, sobrela variable respuesta del individuo. En el contexto del banco, λ0 mide en cuánto la rentabilidadde uno de los clientes corporativos podría ser afectado por la rentabilidad de los otros clientes dela misma comunidad de esta entidad financiera. Mientras que las betas capturan el efecto que lascaracterísticas financieras, como el apalancamiento o los intereses sobre el EBITDA de los clien-tes de la comunidad, por ejemplo, ejercen sobre la rentabilidad de un determinado individuo de lacomunidad.

La identificación de estos dos tipos diferentes de efectos es crucial para la evaluación e imple-mentación de políticas de mejoramiento. En particular, los efectos endógenos generan efectosmultiplicadores, como por ejemplo, en el caso de un efecto endógeno, se podría implementar unprograma de auditoría que mejore directamente el desempeño de los clientes que generen menorrentabilidad, lo cual repercutiría significativamente en el rendimiento de todas las comunidadesfinancieras, en general. En contraste, es importante anotar que los efectos contextuales no generandicho mecanismo multiplicador de forma directa, sólo a través del efecto de interacción comercial.

Ahora bien, en lo que corresponde a la estructura de la matriz de interacción social,Wr cabe ano-tar que, dentro de cada comunidad se les asigna un valor de 1 a las unidades identificadas como“socias”. En este sentido a cada entrada de la matriz Wr,ij se le asigna 1

mr, siendo mr el núme-

ro de entidades al interior de la comunidad r, en el caso que la empresa i, y la empresa j, seanidentificadas “socias” dentro de la comunidad y 0 en caso contrario. La definición de pesos deinteracción entre empresas para el caso específico de esta aplicación se determinó considerandoque la estimación del parámetro de interacción presenta un menor sesgo en la medida en que el

Page 58: Model selection in social interaction frameworks: a

46 5 Aplicaciones de modelos de interacción social

tamaño de los grupos sea pequeño, y en este sentido, se incluyó como restricción que el tamaño delas comunidades no superare 30 empresas por grupo. De otro lado, si se presenta el caso en cual eltamaño de los grupos sea muy grande, la definición de los pesos de interacción propuesta en estaaplicación no sería la más adecuada, pues conduciría a un valor de cero. Con el fin de especificarel modelo que se va a probar, se plantean las siguientes hipótesis:

En lo que se refiere a los efectos endógenos, se asume implícitamente la existencia de una in-teracción comercial entre los clientes corporativos del banco. Sin embargo, considerando que nose tiene clara la dirección de los signos y valores de los parámetros desde la teoría, se exploran to-dos los casos significativos que se relacionen con los comportamientos de los clientes corporativosdel banco como se presenta a continuación.

Se explora el caso en que λ0 = 0, que implica que los clientes corporativos no se identificandentro de una comunidad financiera al realizar sus transacciones. También, se considera el caso deλ0 > 0, que implica que ciertas características en las transacciones de los clientes corporativos delbanco permiten clasificar los clientes dentro de determinadas comunidades financieras. Finalmen-te, se considera el caso en que λ0 < 0, el cual no tendría significado financiero o económico y,suele, considerarse empíricamente imposible. Teniendo en cuenta todo lo anterior, el modelo supo-ne que las transacciones de los clientes corporativos del banco siguen una tendencia autorregresivade acuerdo con sus propias transacciones y las de sus vecinos.

En segundo lugar, se incluyen las variables exógenas que afectan la rentabilidad del banco (medi-da como la diferencia entre las tasas de interés de captación y las tasas de interés de colocación),y las variables contextuales (podrían ser las mismas o no que las variables exógenas), las cualesal interactuar con la matriz de interacción social, reflejan cómo las características de los vecinosafectan la respuesta media en términos de rentabilidad de un cliente corporativo de una comunidaden particular. La descripción, definición, y tipo de variable se encuentra en la Tabla (5-1).

A continuación se presentan las variables explicativas incluidas en el modelo con el respectivoanálisis acerca de su correlación con la rentabilidad del banco. Es importante mencionar que parala mayoría de las variables (indicadores financieros de empresas, en este caso) es difícil determi-nar, a priori, si el impacto sobre la rentabilidad del banco es positivo o negativo en el momento deanálisis pues su influencia se desarrolla en el mediano y largo plazo.

Tomando la definición de Kiziryan (2015), el flujo de caja, hace referencia a las salidas y entradasnetas de dinero que tiene una empresa o proyecto en un período determinado. Específicamente, seidentifican 3 tipos de flujo de caja según las actividades financieras realizadas:

De operaciones: tiene en cuenta los dineros que ingresan o se gastan en operaciones propiasde la empresa.

Page 59: Model selection in social interaction frameworks: a

5.1 Estimación bayesiana de un modelo de interacción en comunidades financieras parala identificación de los determinantes de la rentabilidad 47

De Inversión: es el dinero que se genera para la compañía o se gasta como resultado de uncapital invertido en un producto, bien o servicio que brindará beneficios en el corto, medianoo largo plazo. Un ejemplo de ello es la inversión en maquinaria y equipos.

Financiero: aquí se tiene en cuenta el efectivo que ingresa o se gasta como parte de lastransacciones financieras, como la compra o la venta de acciones de la compañía, los pagosde préstamos o de intereses sobre créditos.

Con relación al signo, es posible que se evidencie una correlación negativa entre este indicador yla rentabilidad del banco en el momento de análisis, pues en el corto plazo una empresa con un altonivel de flujo de caja y dependiendo de su ciclo productivo, podría no optimizar su flujo de cajacon el banco y, en este sentido, no participaría activamente y directamente en sus transacciones. Encontraste, las empresas que manejan un nivel bajo de flujo de caja podrían tener acceso a diferentesproductos que ofrece el banco para optimizar este indicador mediante cupos de crédito para capitalde trabajo que se ajustan a los ciclos productivos de cada actividad y la opción de factoring, con elfin de negociar la factura expedida por un cliente al empresario en condiciones muy convenientes.Adicionalmente, es posible que se evidencie una correlación positiva entre la rentabilidad de laempresa y del banco en el mediano y largo plazo, teniendo en cuenta que estas salidas de efectivoson inversiones en operaciones futuras de la empresa (u otra empresa) y que, por tanto, puedenpresentar un impacto positivo en el largo plazo.

Otro indicador incluido en el modelo es el capital de trabajo, entendido como los recursos emplea-dos por una empresa en particular para hacer frente a compromisos propios de su labor productiva,de acuerdo con Westreicher, G. (2020). Toda empresa cuenta con distintas rubros contables des-tinados a favorecer o posibilitar el abastecimiento de insumos para poner en marcha su actividad,posibilitando el funcionamiento habitual de una compañía. En cuanto a la dirección del impacto,este podría cambiar con el tiempo y con el ciclo productivo de la empresa. En el corto plazo, lacorrelación de la rentabilidad del banco con este indicador, en general, podría ser negativa debidoa que una empresa con un alto capital de trabajo puede presentar una menor necesidad de recu-rrir al banco para financiar sus actividades productivas como, por ejemplo, el pago de sueldos,la compra de activos, mercadería, tecnología para realizar teletrabajo,etc, y por tanto, habría unamenor participación de la empresa en las transacciones del banco, haciendo que se reduzcan lasposibilidades de obtener rentabilidades positivas para el mismo. Por el contrario, una empresa conbajos niveles de capital de trabajo podría tener acceso a un completo portafolio de soluciones porparte del banco direccionado a obtener el capital de trabajo que necesita. Asimismo, en el medianoy largo la correlación podría ser positiva, teniendo en cuenta las repercusiones de un sano nivel decapital de trabajo en la productividad de las empresas.

Adicionalmente se presenta el apalancamiento financiero, que de acuerdo con Arias (2015), con-siste en utilizar algún mecanismo (como deuda) para aumentar la cantidad de dinero que podemosdestinar a una inversión. Es la relación entre capital propio y el realmente utilizado en una opera-

Page 60: Model selection in social interaction frameworks: a

48 5 Aplicaciones de modelos de interacción social

ción financiera. Considerando que el principal mecanismo para apalancarse es deuda, y que, en lamayoría de los casos dicha deuda se contrata con bancos, en cuyo proceso es necesario pagar unosintereses por este servicio, se espera que el signo de la relación entre este indicador y la rentabili-dad del banco sea positivo.

También se incluye el indicador intereses sobre el EBITDA, que tomando las palabras de Man-jares (2020), consiste en medir la durabilidad financiera de una empresa en cuanto a su capacidadde ser lo suficientemente rentable como para pagar sus gastos financieros. Altos niveles de esteindicador, por tanto, estarían asociados a una buena capacidad de la empresa para hacer frente asus gastos financieros, y en consecuencia, se esperaría que se presentara una mayor rentabilidadpara el banco. En este sentido se concluye que en el corto plazo existe una correlación positivaentre los intereses sobre el EBITDA y la rentabilidad del banco.

Por último, se presenta la rentabilidad de los activos o ROA, que según Westreicher (2018), midela capacidad de generar ganancias considerando dos factores: los recursos propios de la empresay el beneficio neto obtenido en el último ejercicio. Al igual que en el caso de los indicadores flujode caja y capital de trabajo, el signo de la relación entre este indicador y la rentabilidad del bancopodría variar según el momento de análisis y el ciclo productivo de la empresa. En el corto plazo,considerando que este indicador muestra cómo se está comportando la empresa en términos deconvertir sus activos en capital neto, altos niveles de este indicador implicarían una menor nece-sidad de la empresa para recurrir a los servicios de un banco para financiarse, lo cual tendría unimpacto negativo en la rentabilidad del banco. El caso contrario ocurriría en el mediano y largoplazo, pues altos niveles de ROA repercurían favorablemente en la rentabilidad de la empresa y enla rentabilidad del banco dadas sus consecuencias sobre la productividad de la empresa.

En tercer lugar, en cuanto al componente de efectos fijos, la incorporación de dicho término seexplica considerando que este tipo de modelo permite una correlación arbitraria entre αr y las va-riables explicativas Xr en cualquier período de tiempo. En este caso, los efectos fijos de grupo,αr, capturan todas las variables comunes observables e inobservables, que se encuentran correla-cionadas, en primer lugar, con el desempeño del cliente corporativo, en términos de la rentabilidadque le genera al banco, en segundo lugar, con la forma como se relaciona con sus socios transac-cionales, y en tercer lugar, con las variables ambientales que hacen que el grupo permanezca unido.

Finalmente εr, representa un ruido aleatorio con media cero. Se asume en este caso un problemade endogeneidad por la simultaneidad de las transacciones por parte de los clientes corporativosdel banco. El promedio ponderado de las transacciones actuales (rezago del modelo) es endógenoy está correlacionado con el término de error en la ecuación econométrica, por lo que se presentala estructura de un proceso autorregresivo simple de primer orden.

Page 61: Model selection in social interaction frameworks: a

5.1 Estimación bayesiana de un modelo de interacción en comunidades financieras parala identificación de los determinantes de la rentabilidad 49

Tabla 5-1: Descripción de las variables analizadasVariable Descripción Definición Tipo de variableNIT Nit anonimizado Número identificador de las empresas Cuantitativa, discreta

Industrycode Tiene 531 valores diferentes. Algunos deellos numéricos que varían entre dos ycuatro cifras y otros alfanuméricos queconstan de 4 números y dos letras al final.

Código que clasifica los diferentessegmentos de la industria

Cuantitativa, discreta

Sector Variable categórica. Tiene valores de 1 a19

Identificación categórica del sector de laindustria

Variable nominal, categórica

Subsegmento Variable categórica. Desde 1 a 22 Identificación categórica del subsectorde la industria

Variable nominal, categórica

Profit Rentabilidad financiera del banco Diferencia entre las tasas de captación ylas tasas de colocación.

Variable cuantitativa, continua

WorKC Capital de Trabajo / Total Activos “Es una magnitud contable referida aaquellos recursos económicos con losque cuenta una empresa dentro de supatrimonio para afrontar compromisosde pago en el corto plazo y relacionadoscon su actividad económica”.Definición tomada de Westreicher, G.(2020).

Variable cuantitativa, continua

CashFlow Flujo de Caja / Total Pasivo “Hace referencia a las salidas y entradasnetas de dinero que tiene una empresa oproyecto en un período determinado”.Definición tomada de Kiziryan (2015)

Variable cuantitativa, continua

ROA Retorno sobre los activos “La rentabilidad de los activos o ROAes un ratio financiero que mide lacapacidad de generar ganancias. Esto,tomando en cuenta dos factores: Losrecursos propiedad de la empresa y elbeneficio neto obtenido en el últimoejercicio”. Definición tomada deWestreicher (2018)

Variable cuantitativa, continua

Leverage Total Pasivo / Total Activo “Es una estrategia utilizada paraaumentar las ganancias y pérdidas deuna inversión. Consiste en utilizarcréditos, costes fijos o cualquier otraherramienta a la hora de invertir quepermita multiplicar la rentabilidad finalde esa inversión, ya sea positiva onegativamente”. Definición tomada deArias (2015)

Variable cuantitativa, continua

Page 62: Model selection in social interaction frameworks: a

50 5 Aplicaciones de modelos de interacción social

Descripción de las variables analizadasVariable Descripción Definició Tipo de variable

EBITDAint Utilidad antes de intereses, impuestos,depreciación y amortización sobre Interesespagados en el periodo

“Es un indicador contable de la rentabilidad deuna empresa. Se calcula como ingresos menosgastos, excluyendo los gastos financieros(impuestos, intereses, depreciaciones yamortizaciones de la empresa)”. Definicióntomada de Manjares (2020)

Variable cuantitativa, continua

En cuanto al proceso de estimación del modelo, se siguió el método presentado en la sección deestimación de modelos de interacción social, en el cual se derivó de forma analítica la distribuciónposterior de los parámetros, y a su vez se implementó la herramienta MCMC para la estimación delparámetro λ0. En cuanto a la distribución previa de los parámetros se aplicó la distribución Normal-Inversa-gamma (NIG) para β y σ0, y uniforme en el rango de −1 a 1 para λ0. Los resultadosestimados con el modelo propuesto son presentados en la Tabla (5-2) y se analizan a continuación.

Tabla 5-2: Estimación BMA de los parámetros del modelo de interacción comercial del banco

M-H Bayesiano Percentiles de la distribuciónParámetros Media 2.50 % 25 % 50 % 75 % 97.50 %

λ0 0.9986 0.9946 0.9980 0.9990 0.9996 1.0000σ0 1.053 1.0440 1.0500 1.0530 1.0560 1.0620β1 -0.0257 -0.0486 -0.0339 -0.0256 -0.0178 -0.0025β2 -0.0071 -0.0270 -0.0148 -0.0073 -0.0003 0.0152β3 0.0296 0.0093 0.0223 0.0294 0.0370 0.0487β4 0.0335 0.0150 0.0276 0.0337 0.0397 0.0512β5 -0.1039 -0.1243 -0.1110 -0.1038 -0.0970 -0.0840β6 -0.0364 -0.1718 -0.0783 -0.0404 0.0086 0.0838β7 -0.3436 -0.1348 -0.0825 -0.0372 0.0022 0.1046β8 -0.0111 -0.1134 -0.0447 -0.0069 0.0299 0.0714β9 0.0512 -0.0687 -0.0060 0.0519 0.0993 0.1831β10 -0.1142 -0.2379 -0.1470 -0.1104 -0.0752 -0.0125

Con base en los valores de λ0, el efecto de interacción comercial es estadísticamente relevante, eindica que la estructura transaccional de los clientes del banco afecta la rentabilidad que cada unode sus clientes le genera a la institución financiera. Es decir, la detección de comunidades transac-cionales es una buena señal para implementar políticas de segmentación de mercado a partir de lastransacciones de los clientes.

En lo que tiene que ver con β1 (coeficiente de flujo de caja), se cumple con las expectativas deuna relación negativa entre dicho indicador financiero y la rentabilidad del banco en el corto plazo.

Page 63: Model selection in social interaction frameworks: a

5.1 Estimación bayesiana de un modelo de interacción en comunidades financieras parala identificación de los determinantes de la rentabilidad 51

Dicha relación podría explicarse, tal como se argumentó anteriormente, ya que las empresas quemanejan un bajo nivel bajo de flujo de caja podrían tener acceso a diferentes productos que ofreceel banco para optimizar este indicador mediante cupos de crédito para capital de trabajo acordescon los ciclos productivos de la empresa, y otras opciones como el factoring. Esta interacción des-encadena un impacto positivo en la rentabilidad del banco. En contraste, altos niveles de capital detrabajo por parte de los clientes corporativos repercuten en un impacto negativo en la rentabilidaddel banco en el corto, probablemente, por la menor interacción en términos de transaccionalidadcon el banco.

Por su parte, en lo que tiene que ver con β2 (coeficiente del capital de trabajo), se cumple conla hipótesis de que la relación entre el capital de trabajo y la rentabilidad del banco es negativa enel corto plazo. Esto podría explicarse pues los clientes corporativos con bajos niveles de capitalde trabajo tenderían a realizar más transacciones con el banco tratando de optimizar su capital detrabajo y de esa forma mejorar su productividad en el mediano y largo plazo. Por otro lado, clientescon un nivel de capital de trabajo elevado podrían no ser tan rentables para el banco, en el momentode análisis, pues una administración eficiente del capital de trabajo implica una menor necesidadde la empresa para recurrir al banco a fin de financiar sus inversiones.

Ahora bien, al analizar la magnitud del coeficiente y la significancia estadística del apalancamientofinanciero, β3 se observa una relación positiva y económicamente significativa con la rentabilidaddel banco. Dicha relación se explica, como se expuso anteriormente, por el impacto positivo de lageneración de intereses sobre la deuda contratada por las empresas, que finalmente contribuye alaumento de los ingresos del banco.

En la misma línea, con respecto a β4, los clientes que presentan mayores niveles de intereses sobreel EBITDA, luego de controlar por todas aquellas otras variables financieras mencionadas, son másrentables para el banco. Esto se debe muy posiblemente a los ingresos generados por las empresasal banco por concepto de pago de intereses, como en el caso del indicador anterior. Recordemosque, altos niveles de este indicador estarían asociados a una buena capacidad de la empresa parahacer frente a sus gastos financieros, y en consecuencia, a una mayor rentabilidad del banco.

Por otra parte, en lo que tiene que ver con, β5, clientes con un mayor ROA son menos rentablespara el banco. Tal como se argumentó anteriormente, altos niveles de este indicador implicaríanuna menor necesidad de la empresa para recurrir a servicios del banco para financiarse, lo cualtendría un impacto negativo sobre la rentabilidad del ente financiero. Finalmente, en lo que serefiere a β10, empresas caracterizadas por tener socios transaccionales con un ROA elevado sonmenos rentables para el banco, quizás también explicado por el hecho de que un mejor compor-tamiento de la empresa en términos de convertir sus activos en capital neto, le asegura una menordependencia financiera, traduciéndose en un impacto negativo para la rentabilidad del banco. Esimportante resaltar que las variables asociadas a los parámetros β6, β7, β8 y β9 no resultaron ser

Page 64: Model selection in social interaction frameworks: a

52 5 Aplicaciones de modelos de interacción social

estadísticamente significativas para explicar la variable dependiente de interés.

5.2. Determinantes del gasto total por estudiante en lasescuelas públicas secundarias del Estado de Ohio(EEUU), en el año 2000

La siguiente aplicación de la metodología propuesta examina la relación entre el gasto total porestudiante, realizado por escuelas públicas de secundaria del estado de Ohio (605 escuelas), y lainteracción entre pequeños grupos de esas escuelas, así como variables relacionadas con el desem-peño de los estudiantes en términos académicos, los ingresos medios de las escuelas y sus serviciosestudiantiles.

La interacción estratégica entre los gobiernos estatales y locales ha sido un foco importante detrabajo teórico, con un creciente interés por parte de la investigación emprica en el ámbito de lasfinanzas públicas (Brueckner, 2003). De acuerdo con Weisbrod (1964), una gran cantidad de lite-ratura teórica postula la existencia de externalidades presupuestarias, sin embargo, solo unos pocosestudios empíricos examinan sus consecuencias. Resultados interesantes se pueden encontrar enWeisbrod (1964), quien proporciona evidencia de que los distritos escolares que tienen gastos másbajos presentan tasas más altas de emigración así como también concluye que, aunque una juris-dicción elige su propio nivel de gasto, ésta se ve directamente afectada por el nivel de gasto elegidopor sus vecinos.

Siguiendo a Weisbrod (1964), otro trabajo relacionado, es aquel realizado por Case et al. (1993), enel cual se concluye que los niveles de utilidad de los gobiernos estatales estadounidenses dependende su propio gasto y del gasto de otros estados similares en un modelo estático. Adicionalmente,encuentran que el gasto per cápita de un estado se ve positiva y significativamente afectado por losniveles de gasto de sus vecinos. En particular, un aumento de un dólar en el gasto en educación delos vecinos de un estado aumenta su propio gasto en educación en más de 70 centavos.

Por otro lado, la importancia del rubro de la educación primaria y secundaria entre los componen-tes del gasto público local, se evidencia en su participación en el PIB, el cual se estima alrededordel 3.17 % del PIB de los gastos directos locales en el año 2017 para todo el país y del 3.33 % paraOhio, de acuerdo con datos de National Science Board. Es importante también destacar que, engeneral, los gobiernos locales de los Estados Unidos son responsables de decidir los gastos de lasescuelas públicas (Weisbrod, 1964). Por ejemplo, Ohio tiene una Asociación de Juntas Escolaresen todo el estado, las cuales pueden ejercer autonomía en la financiación de las escuelas públicas.

Teniendo en cuenta los argumentos anteriores, se propone a modo de aplicación de la metodo-

Page 65: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 53

logía propuesta en este trabajo, el anásis del gasto local escolar del Estado de Ohio y sus efectosen la interacción estratégica entre sus diferentes distritos. Adicionalmente, se busca establecer siquienes ejecutan la política del gasto a nivel local toman sus decisiones con respecto al gasto deforma estratégica al considerar la decisión de sus vecinos en el caso específico planteado. Estoteniendo como hipótesis el planteamiento de que a diferencia de los hogares y las empresas, losgobiernos estatales y locales podrían comportarse estratégicamente, y en consecuencia su gasto severía afectado por el gasto de sus vecinos, así como por sus propios ingresos.

Con el fin de plantear el modelo que se va a probar, a continuación se realizará un análisis delas variables pertinentes a incluir:

En primer lugar, en cuanto a los efectos endógenos, en este análisis se ha supuesto implícita-mente la existencia de una interacción estratégica en las decisiones de política local. No obstante,los signos y valores de los parámetros son a priori desconocidos, y en consecuencia, se tienen queexplorar todos los casos significativos que se relacionen con los comportamientos de los responsa-bles políticos locales así:

Se explora el caso en que λ0 = 0, que implica que los formuladores de políticas locales sonactores no estratégicos. También, se considera el caso de λ0 > 0, que implica que los responsablespoltícos locales son actores estratégicos. Finalmente, se considera el caso en que λ0 < 0, el cualno tendría significado económico y, a menudo, es empíricamente imposible. Por tanto, el modeloimplica que la trayectoria del gasto de un distrito escolar local sigue un patrón autorregresivo, se-gún su propio gasto y el gasto actual de sus vecinos.

En segundo lugar, se incluyen las variables exógenas que afectan el gasto actual de la comuni-dad r, y las variables contextuales (podrían ser las mismas o no que las variables exógenas), lascuales al interactuar con la matriz de interacción social, reflejan cómo las características de losvecinos afectan la respuesta media en términos de gasto de un distrito de una comunidad en parti-cular. La descripción, definición, y tipo de variable se encuentra en la Tabla (5-3).

En tercer lugar, en cuanto al componente de efectos fijos, denotado por αr, se incorpora dadala existencia de una posible correlación entre las características observadas Xr y los efectos noobservados. De cuerdo con los supuestos del modelo, el estimador de efectos fijos permite una co-rrelación arbitraria entre αr y las variables explicativas, Xr, en cualquier período de tiempo, razónpor la cual se decidió por esta especificación en lugar de aquella de un modelo de efectos aleato-rios, la cual asume que el efecto no observado no está correlacionado con ninguna de las variablesexplicativas. Es importante anotar que denotamos el término de efectos fijos, por αr representalas características específicas del distrito no observadas que tienen influencia sobre la variable res-puesta.

Page 66: Model selection in social interaction frameworks: a

54 5 Aplicaciones de modelos de interacción social

Finalmente εr, representa un ruido aleatorio con media cero. El problema de endogeneidad sur-ge, en este caso, a partir de las decisiones simultáneas de gasto corriente por parte de todos lossujetos de estudio (en este caso distritos públicos). El promedio ponderado del gasto vecinal ac-tual (rezago del modelo) es endógeno y está correlacionado con el término de error en la ecuacióneconométrica, lo cual se puede entender como un proceso autorregresivo simple de primer orden.

Por otra parte, con respecto a la matriz de interacción, su especificación representa un desafío,pues es necesario asignar los vecinos para cada una de las unidades de estudio y su poderaciónrespectiva. Según Weisbrod (1964), un candidato obvio es la proximidad geográfica. Los distritosescolares locales a menudo ven a sus vecinos que comparten un límite común como oponentesestratégicos. No obstante, de acuerdo con Wilson (1975), citado por Weisbrod (1964), aunque lageografía puede ser relevante, no es el único factor que puede determinar los vecinos. Los dis-tritos escolares locales con características económicas o demográficas similares también puedeninfluirse entre sí a cierta distancia. En el campo de Ohio, los distritos escolares rurales vecinos amenudo tienen características económicas o demográficas muy similares. Los vecinos geográficosa menudo coinciden con los vecinos económicos o demográficos, pero es importante también te-ner en consideración que, dentro de las áreas metropolitanas, la similitud económica puede ser másrelevante que la cercanía geográfica al especificar los vecinos de los distritos escolares urbanos.En este sentido, se especificó el vecindario de los distritos escolares locales por su proximidadgeográfica, económica y demográfica, siguiendo el trabajo de Case et al. (1993).

De acuerdo con lo anterior, se estableció, por ejemplo, la junta escolar de Upper Arlington co-mo vecina estratégica de la ciudad de Columbus y la ciudad de Bexley, teniendo en cuenta sussimilitudes geográficas y socioecónimicas. Específicamente, aunque Bexley y Upper Arlington nocomparten una frontera común, sus residentes tienen ingresos y niveles de educación similares yparecen tener una mayor demanda de educación (Weisbrod, 1964). Por consiguiente, en este ca-so se construye la matriz de interacción basada en la contigüidad geográfica, y el ingreso per cápita.

De acuerdo con este análisis, se presenta el modelo a continuación:

Exppupilr = λ0WrExppupilr+β1Incomer+β2Stud/Teachr+β3TeacAttendr+β4Advwritingr+

β5WorksF irstr+β6TCertCorer+β7Reqwritingr+β8Reqmathr+β9Reqreadingr+β10Halfyearr+

β11StudDisabi+ β12FreeLunch+ β13FedRevenue+ β14AdvScienc+ β15AdvMath+

β16AdvReading + β17Reqscience + lmrαr + εr (5-2)

Nota: no se incluyeron las variables ID, Long, y Lat, pues no proporcionan información al modelo.La variable ID corresponde al número de identificación de los distritos y las variables Long y Latcorreponden respectivamente a la longitud y latitud de la ubicación geográfica de cada distrito.

Page 67: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 55

Figura 5-1: Distritos escolares del estado de Ohio durante el período 2000-2001 ubicados en elmapa

5.2.1. Datos

Los datos consisten en información acerca de gastos, ingresos y otras variables relacionadas coneducación de 605 distritos escolares del estado de Ohio durante el período 2000-2001 (ver descrip-ción y definición de las variables en la Tabla (5-3). Es importante resaltar que los ingresos totalespara cada distrito escolar local son la suma de los ingresos de fuentes locales, intermedias, estata-les y federales, incluidos los subsidios locales y estatales, fondos estatales y federales, servicio decomidas, loterías y tarifas. Los gastos operativos corrientes totales para el distrito escolar local enel año descrito, se expresan en dólares por alumno y se ajustan desde el año fiscal 2000. En la figu-ra (5-1) se presenta el mapa de Ohio y la ubicación de cada uno de los distritos escolares estudiados.

El procedimiento llevado a cabo usando la metodología consistió en los siguientes pasos:

1. Se realizó la limpieza y pre-procesamiento de la base de datos, tomando las variables másrelevantes, de acuerdo con la literatura sobre el tema.

2. Se llevó a cabo un proceso de exploración los datos (EDA), analizando las distribuciones delas variables, así como sus correlaciones.

3. Se estructuraron las diferentes matrices de interacción entre las escuelas de acuerdo con sudistancia espacial y similitudes socio-económicas, específicamente se estructuraron matricescon 6,7,8,9,10,11,12,13,14 y 15 vecinos de interacción.

4. Se aplicó la metodología de selección de modelos propuesta para escoger la matriz de inter-acción más adecuada, así como las variables que mejor explican el gasto público en educa-cónó secundaria, de forma simultánea.

5. A partir de los resultados arrojados en el paso anterior, se especifica y se estima el modelomediante el método BMA.

Page 68: Model selection in social interaction frameworks: a

56 5 Aplicaciones de modelos de interacción social

Tabla 5-3: Descripción de las variables analizadasVariable Descripción Definición Tipo de variableID ID de la escuela distrito Identifficación númerica de las escuelas Variable numérica, discreta

Exppupil Gasto en dólares americanos (USD) Total del gasto por estudiante Variable numérica, continua

Long Medición de la longitud desde el centroide Longitud del centroide del distrito Variable numérica, continua

Lat Medición de la latitud desde el centroide Latitud del centroide del distrito Variable numérica, continua

StudDisabi. Porcentaje de estudiantes Estudiantes con al menos una de las 20discapacidades más frecuentes entre losestudiantes

Variable numérica, continua

Halfyear Porcentaje de estudiantes que han permanecidoen el distrito por lo menos medio año

Estudiantes en el distrito por lo menos medioaño

Variable numérica, continua

FreeLunch Porcentaje de estudiantes aprobados para elprograma de reducción en el costo del almuerzo

Estudiantes aprobados para el programa dereducción en el costo del almuerzo

Variable numérica, continua

Income Logarítmo del promedio del ingreso de lainstitución

Promedio de los ingresos percibidos por lainstitución

Variable numérica continua

Stud/Teach Número promedio de estudiantes por profesor enun salón de clase

Estudiantes por profesor en un salón de clase Variable numérica continua.

FedRevenue Ingreso en dólares (USD) Ingresos por estudiante por parte del gobiernofederal

Variable numérica continua

TeachAttend Porcentaje de asistencia Asistencia a clase por parte de profesores Variable numérica continua

Advscienc Porcentaje de estudiantes Estudiantes matriculados en el curso nivelavanzado de ciencias

Variable numérica continua

AdvWriting Porcentaje de estudiantes Estudiantes matriculados en el curso nivelavanzado de escritura

Variable numérica continua

AdvMath Porcentaje de estudiantes Estudiantes matriculados en un curso de nivelavanzado de matemáticas

Variable numérica continua

AdvReading Porcentaje de estudiantes Estudiantes matriculados en un curso de nivelavanzado de lectura

Variable numérica continua

WorksFirst Porcentaje de estudiantes Estudiantes con familias inscritas en OhioWorks First

Variable numérica continua

TCertCore Porcentaje de profesores Profesores certificados en cursos de áreasbásicas

Variable numérica continua

Reqwriting Porcentaje de estudiantes Estudiantes que requieren tomar un curso deescritura en grado 12

Variable numérica continua

Reqmath Porcentaje de estudiantes Estudiantes que requieren tomar un curso dematemáticas en grado 12

Variable numérica continua

Reqreading Porcentaje de estudiantes Estudiantes que requieren tomar un curso delectura en grado 12

Variable numérica continua

Reqscience Porcentaje de estudiantes Estudiantes que requieren tomar ciencias engrado 12

Variable numérica continua

Enrollment Porcentaje de estudiantes Estudiantes inscritos Variable numérica continua

Page 69: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 57

Con el fin de explorar la estructura de los datos, se calcularon las estadísticas descriptivas, las co-rrelaciones entre las variables y se realizó un gráfico de caja y bigotes, ver figura (5-2), para cadauna de las variables continuas de la base de datos. Este último gráfico, nos permitió identificar valo-res atípicos o errores tipográficos, y analizar el impacto de dichos valores en los modelos, teniendoen cuenta la sensibilidad de las medidas de tendencia central y de localización ante la presencia dedatos extremos. En este caso específico, las estimaciones de los parámetros no presentaron un nivelde sensibilidad significativo, posiblemente debido a la pequeña proporción de estos con respecto ala totalidad de datos de la muestra, y a que la magnitud de dichos datos, en general, no se encuentramuy alejada de la media.

De acuerdo con la información presentada en la Figura (5-2), se puede observar la presencia devalores atípicos (representados por los puntos negros) en las variables: Exppupil (gasto total porestudiante), Halfyear (estudiantes en la misma institución con una duración de menos de un año),WorkFirst (estudiantes cuyas familias están inscritas al programa Ohio Works first) , TCertCore(profesores certificados en cursos de áreas básicas), FedRevenue (ingresos por estudiante por par-te del gobierno federal), ReqMath (estudiantes que requieren tomar un curso de matemáticas enel grado 12), ReqWriting (estudiantes que requieren tomar un curso de escritura en el grado 12),ReqSciences (estudiantes que requieren tomar un curso de ciencias en el grado 12).

5.2.2. Selección de variables mediante Markov chain Monte Carlomodel composition

El propósito de usar previas de dilución, en el caso específico de los modelos de interacción social,consiste en asignar probabilidades para los modelos de manera más uniforme entre sus vecin-darios, en lugar de asignar probabilidades previas de manera uniforme entre modelos. Esto estárelacionado con el tratamiento de la redundancia del espacio de modelos debido a regresores co-rrelacionados. Es importante, no obstante, enfatizar que los tipos de a priori propuestos puedenpreferir modelos diferentes. Por ejemplo, las previas tipo TESS (tessellation prior) pueden penali-zar la multicolinealidad dentro de los modelos; mientras que las a priori SH (strong heredity prior)suelen, en contraposición, favorecer dichos modelos porque los efectos principales a menudo estánaltamente correlacionados con los términos de interacción asociados.

Utilizando el conjunto de datos de esta aplicación (gasto total por estudiante en las escuelas pú-blicas secundarias de Ohio, EEUU), se evalúan las previas consideradas ( uniform prior, UP ytessellation prior, TESS) comparando las probabilidades posterior de inclusión (PIP), y probabi-lidades posterior de los modelos mediante el método MC3, en las Tablas (5-4) y (5-5). En estastablas se presentan las especificaciones de los 10 modelos con las probabilidades posterior másaltas que resultan del método MC3. Se indica la inclusión de una variable con el número uno y laexclusión con un cero. Con base en este método se calcula la probabilidad de que una variable enparticular sea incluida en el modelo (PIP), p(βj 6= 0|y), mediante la suma de las probabilidades

Page 70: Model selection in social interaction frameworks: a

58 5 Aplicaciones de modelos de interacción social

Figura 5-2: Gráfico de caja y bigotes para las variables continuas

Page 71: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 59

posterior de todos los modelos que contienen dicha variable. En este sentido, en la última columnase muestran las probabilidades de inclusión para cada una de las variables disponibles en los 10modelos con mayores probabilidades posterior. Se considera importante resaltar en este punto quees posible obtener un valor mayor que cero para el PIP de una variable en particular, aunque losvalores que se presten en la tabla para esa variable sean cero. Esto se explica ya que la suma delas probabilidades posterior se calcula a partir de todos los modelos evaluados y no sobre los 10modelos presentados en la tabla. Por ejemplo, aunque en Tabla (5-4), se muestren valores de ceropara las variables Halfyear, FreeLunch y TeachAttend, sus PIP son mayores que cero. Por otraparte, en la última fila se presentan las probabilidades posterior de los 10 mejores modelos, cuyasespecificaciones difieren fundamentalmente en las variables explicativas incluidas en los modelos,en cuanto a la matriz de interacción social esta es la misma para todos. Dichas matrices están con-formadas por comunidades de 6,7,8,9,10,11,12,13,14 y 15 de escuelas. Se resalta el hecho de quelas matrices seleccionadas por el método propuesto, de acuerdo con las probabilidades posterioresmás altas, son aquellas conformadas por comunidades de 6 y 7 vecinos, en este caso, por razonesde claridad solo se presentarán los resultados asociados con la especiaficación que incluye la ma-triz de interación con 7 vecinos.

En primer lugar, se presenta la previa uniforme (UP), la cual asigna la misma probabilidad deselección a cada uno de los modelos; y en segundo lugar, se presenta la a priori de dilución TESS,la cual tiene en cuenta, de manera particular, el problema de la multicolinealidad en los regresoresque se suele presentar cuando la especificación del modelo contiene términos de interacción.

De acuerdo con los resultados, en cuanto a la importancia de las variables para explicar la variabledependiente, utilizando la métrica PIP, se observó que las variables ingreso de la escuela (Income),estudiantes por profesor (Stud/Teach), ingresos por parte del gobierno federal (FedRevenue) y por-centaje de estudiantes con nivel avanzado en escritura (AdvWriting) presentan probabilidades deinclusión iguales a 1, para los dos tipos de previas. Por tanto, se prefiere su inclusión en el modelo.

Siguiendo con la importancia de las variables para explicar la variable dependiente (gasto totalpor estudiante), se puede observar que las siguientes variables presentan probabilidades de inclu-sión que se encuentran en un rango entre 0.1 y 0.45 para los tres tipos de previas: porcentaje deestudiantes que requieren tomar el curso de lectura en el grado 12 (Reqreading), porcentaje deestudiantes cuyas familias están inscritas en el programa Ohio Works first (WorksFirst), aunqueno en el caso de la previa TESS, cuyo PIP es de 0.0373. Siguiendo con el listado se encuentra elporcentaje de estudiantes que requieren tomar el curso de ciencias en el grado 12 (Reqscience),porcentaje de estudiantes que requieren tomar el curso de matemáticas en el grado 12 (Reqmath)y porcentaje de estudiantes que requieren tomar escritura en el grado 12 (Reqwriting), aunque nopara la previa TESS, cuyo PIP es 0.0020.

Las probabilidades de inclusión (PIP) del resto de variables se encuentran por debajo de 0.10,

Page 72: Model selection in social interaction frameworks: a

60 5 Aplicaciones de modelos de interacción social

y es importante notar que en este caso el orden de importancia de las variables no coincide exacta-mente para los dos tipos de previas analizadas. A continuación, se describen las variables resultadodel método MC3 utilizando la previa TESS, con el fin de ilustrar los resultados. Las variables semuestran a continuación: estudiantes aprobados para el programa de reducción en el costo delalmuerzo (FreeLunch), porcentaje de profesores certificados en cursos de áreas básicas (Tcert-Core), asistencia a clase por parte de profesores (TeacAttend), porcentaje de estudiantes inscritos(Enrollment), porcentaje de estudiantes matriculados en el curso de nivel avanzado en lectura (Ad-vReading), porcentaje de profesores certificados en todos los cursos (TCertifiedALL), porcentajede estudiantes con diferentes tipos de discapacidades (Stud/Teach), porcentaje de estudiantes quehan permanecido en el distrito por lo menos medio año (Halfyear), porcentaje de estudiantes en uncurso de nivel avanzado en ciencias (Advsciences), porcentaje de estudiantes en un curso de nivelavanzado en matemáticas (Advmath).

Tabla 5-4: Selección de modelos de interacción social mediante el método MC3 para el modelode educación previa uniforme (UP, uniform prior)

Variable m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 PIP

Halfyear 0 0 0 0 0 0 0 0 0 0 0.0246FreeLunch 0 0 0 0 0 0 0 0 0 0 0.0440Income 1 1 1 1 1 1 1 1 1 1 1.0000Stud/Teach 1 1 1 1 1 1 1 1 1 1 1.0000TeacAttend 0 0 0 0 0 0 0 0 0 0 0.0110FedRevenue 1 1 1 1 1 1 1 1 1 1 1.0000AdvScienc 0 0 0 0 0 0 0 0 0 0 0.000AdvWriting 1 1 1 1 1 1 1 1 1 1 1.0000AdvReading 0 0 0 0 0 0 0 0 0 0 0.0376AdvMath 0 0 0 0 0 0 0 0 0 0 0.0000StudDisabi 0 0 0 0 0 0 0 0 0 0 0.0436Enrollment 0 0 0 0 0 0 0 0 0 0 0.0616TCertifiedALL 0 0 0 0 0 0 0 0 0 0 0.0070WorksFirst 1 0 1 0 1 1 0 1 1 0 0.3373Censuspop 0 0 0 0 0 0 0 0 0 0 0.0030TCertCore 0 0 0 0 0 0 0 0 0 0 0.1233Advcitizenship 0 0 0 0 0 0 0 0 0 0 0.0046Reqwriting 1 1 1 1 1 1 1 1 1 1 0.1143Reqmath 0 0 0 0 0 0 0 1 0 0 0.2233Reqreading 1 1 1 1 1 0 1 0 0 0 0.4456Reqscience 1 1 1 1 0 0 0 0 1 0 0.4020Prob. Modelo 0.0643 0.083 0.034 0.025 0.003 0.024 0.018 0.004 0.004 0.017

Page 73: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 61

Tabla 5-5: Selección de modelos de interacción social mediante el método MC3 para el modelode educación con previa TESS ( tessellation prior) para el espacio de modelos

Variable m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 PIP

Halfyear 0 0 0 0 0 0 0 0 0 0 0.0290FreeLunch 0 0 0 0 0 0 0 0 0 0 0.0746Income 1 1 1 1 1 1 1 1 1 1 1.0000Stud/Teach 1 1 1 1 1 1 1 1 1 1 1.0000TeacAttend 0 0 0 0 0 0 0 0 0 0 0.0700FedRevenue 1 1 1 1 1 1 1 1 1 1 1.0000AdvScienc 0 0 0 0 0 0 0 0 0 0 0.0703AdvWriting 1 1 1 1 1 1 1 1 1 1 1.0000AdvReading 0 0 0 0 0 0 0 0 0 0 0.0476AdvMath 0 0 0 0 0 0 0 0 0 0 0.0093StudDisabi 0 0 0 0 0 0 0 0 0 0 0.0330Enrollment 0 0 0 0 0 0 0 0 0 0 0.0893TCertifiedALL 0 0 0 0 0 0 0 0 0 0 0.0556WorksFirst 1 0 0 0 0 0 0 1 1 0 0.0373Censuspop 0 0 0 0 0 0 0 0 0 0 0.3990TCertCore 0 0 0 0 0 0 0 0 0 0 0.0056Advcitizenship 0 0 0 0 0 0 0 0 0 0 0.0716Reqwriting 0 0 1 0 0 0 0 0 0 0 0.0020Reqmath 0 0 0 1 0 0 0 0 0 0 0.1296Reqreading 0 1 0 0 0 1 1 1 1 1 0.4336Reqscience 0 0 0 0 1 1 1 1 1 0 0.4113Model Prob 0.053 0.089 0.043 0.057 0.059 0.073 0.050 0.026 0.039 0.022

Page 74: Model selection in social interaction frameworks: a

62 5 Aplicaciones de modelos de interacción social

Tabla 5-6: Estimaciones BMA para cada una de las previas analizadas

VariableUP TESS

Media Dev. Estand. Media Dev. Estand.

Interac. Term 0.1299 0.1023 0.0582 0.0926Halfyear -0.0004 0.0056 -0.0010 0.0095Freelunch 0.0056 0.0290 0.0029 0.0209Income 0.4531 0.0485 0.4594 0.0508Stud/Teach -0.4423 0.0485 -0.4413 0.0309TeachAttend 0.0008 0.0071 0.0001 0.0019FedRevenue 0.3011 0.0690 0.3150 0.0694AdvScienc 0.0004 0.0081 0.0000 0.0030AdvWriting 0.1732 0.0360 0.1768 0.0359AdvReading -0.0005 0.0074 -0.0002 0.0062AdvMath 0.0010 0.0097 0.0000 0.0018StudDisab 0.0010 0.0147 0.0000 0.0000Enrollment -0.0004 0.0137 0.0033 0.0202TCertitiedALL 0.0011 0.0098 0.0003 0.0052WorksFirst 0.0772 0.0772 0.0724 0.0878Censuspop 0.0006 0.0093 0.0000 0.0000TCertCore -0.0052 -0.0052 -0.0025 0.0132advcitizenship 0.0013 0.0102 0.0005 0.0065Reqwriting -0.2529 2.4585 -0.0389 1.5766Reqmath -0.5863 3.3998 -0.3152 2.1439Reqreading 9.8419 11.4905 3.8391 8.5608Reqscience -8.9026 11.6915 -3.4023 8.3165

Page 75: Model selection in social interaction frameworks: a

5.2 Determinantes del gasto total por estudiante en las escuelas públicas secundarias delEstado de Ohio (EEUU), en el año 2000 63

Con respecto al efecto de interacción, considerando su significancia estadística y la magnitud desu coeficiente, se puede concluir que este es importante para explicar la variable dependiente ypresenta un signo positivo tal como se esperaba. Por lo tanto, se prefieren los modelos que inclu-yen efectos de interacción a aquellos que no los tengan. De la misma manera, el método MC3 ylas probabilidades posterior para los modelos se pueden utilizar para determinar las formas másadecuadas de la estructura de interacción (matriz de ponderación). Las estimaciones basadas enBMA se proporcionan en la Tabla (5-6). Específicamente se presentan las medias y las desviacio-nes estandar del modelo bayesiano para cada uno de los tipos de previas analizadas. En esta semuestran los coeficientes promediados sobre todos los modelos, incluidos los modelos en los quela variable no estaba contenida (lo que implica que el coeficiente es cero en este caso).

En primer lugar, en cuanto a los signos de los coeficientes, estos presentan la misma direcciónen todas las variables, a excepción de “Enrollment” que muestra un signo negativo para el casode previa uniforme y signo positivo en el caso de la previa TESS. Esto podría deberse al hechode que aquellas variables que no resultaron significativas para explicar la variable dependiente, deacuerdo con las probabilidades de inclusión en el modelo PIP, presentaron leves diferencias en estesentido. Por el contrario, las variables que resultaron importantes para explicar la variable depen-diente (Income, Stud/Teach, FedRevenue, AdvWriting), mostraron una alta consistencia en cuantoa la magnitud de sus coeficientes. De otro lado, en lo que concierne, el patrón observado en eltamaño de los modelos, se puede concluir que, en el caso de la previa uniforme, si bien el modeloa priori implica una distribución simétrica alrededor de k / 2, al actualizarlo con los datos, arrojauna a posteriori que le da más importancia a los modelos parsimoniosos. Por su parte, igualmentese constata que la previa TESS, suele penalizar la multicolinealidad dentro de los modelos.

Por otro lado, en lo que concierne el orden de importancia, de acuerdo con la magnitud de loscoeficiente de la estimación por BMA, entre las variables con mayor PIP, es el siguiente: Income(0.4531), Stud/Teach (-0.4423), FedRevenue (0.3011), y AdvWriting (0.1732). Según lo anterioir,la variable que presenta mayor impacto (en este caso positivo) en la variable dependiente (gastototal por estudiante de las instituciones de Ohio) es el ingreso medio de las isntituciones; seguidopor el ratio estudiante por profesor, cuyo impacto es negativo. Es decir que a mayor proporción deestudiantes por profesor menor sería el gasto total por estudiante, lo cual es coherente con la lógicaeconómica. Posteriormente, se sigue en importancia la variable ingresos por parte del gobierno fe-deral y porcentaje de estudiantes que deben tomar un curso avanzado de escritura, las cuales tienenun impacto positivo en el gasto.

Para finalizar, se exhibe en la figura (5-3) un mapa de calor de la variable gasto por parte delas escuelas. Mediante esta figura se busca detectar la ubicación de las escuelas que realizan ma-yores gastos, los cuales están denotados por los colores más cálidos. En el caso especfico de estailustración, los niveles de gasto paracen ser uniformes, siendo un poco mayores en las zonas máscentrales del Estado.

Page 76: Model selection in social interaction frameworks: a

64 5 Aplicaciones de modelos de interacción social

Figura 5-3: Heatmap del gasto por estudiante de los distritos de Ohio, el cual nos da una idea decuan importantes son cada una las escuelas de Ohio

Page 77: Model selection in social interaction frameworks: a

6 Conclusiones, recomendaciones ydirecciones futuras de investigación

En el proceso de selección de modelos, la incertidumbre que se asocia a la inclusión de variablesimportantes para explicar un fenómeno de interés es crucial. Herramientas bayesianas como Mar-kov chain Monte Carlo model composition (MC3), facilitan el proceso de exploración del espaciode probabilidades de todos los modelos posibles. En este sentido, los modelos de interacción socialpueden beneficiarse debido a la alta dimensionalidad que presentan tanto en sus variables explica-tivas, como en sus matrices de interacción.

La especificación de modelos de interacción social, además de identificar las variables explica-tivas relacionadas a los efectos contextuales, requiere también establecer, de manera imperativa,las matrices de interacción pertinentes, por lo cual las posibilidades de especificación pueden ele-varse hasta un nómero de 2k×Z, donde k es el número de covariables y Z es el número de matricesalternativas.

Por otro lado, el análisis de dichos modelos mediante el enfoque bayesiano con fines de infe-rencia, ofrece ventajas interesantes para el investigador, entre las cuales cabe destacar, en primerlugar, la posibilidad de obtener la distribución completa para cada uno de los parámetros de interés,y en segundo lugar, la posibilidad de incluir distribuciones a priori de los parámetros, de acuerdocon el conocimiento y experiencia del investigador.

Adicionalmente, teniendo en cuenta que uno de los aspectos más importantes en el proceso deselección de modelos es el principio de parsimonia, herramientas como MC3 y BMA logran ob-tener un balance útil y significativo entre parsimonia y precisión. Desde esta perspectiva no todoslos predictores son estrictamente necesarios, en vez de ello, una combinación de estos produce losefectos esperados. En este sentido, la adaptación de este tipo de herramientas a los modelos deinteracción social, constituye uno de los aportes más importantes que se logra realizar desde esteestudio.

Es pertinente señalar, que la primera de las aplicaciones desplegadas en el contexto de este es-tudio permite entender la magnitud y la naturaleza de los efectos de los pares sociales en lastransacciones realizadas por los clientes corporativos (lo cual se evidenció al analizar los patro-nes de interacción en uno de los bancos más grandes y prestigiosos del país). Dicha identificación

Page 78: Model selection in social interaction frameworks: a

66 6 Conclusiones, recomendaciones y direcciones futuras de investigación

podría permitir a usuarios de este tipo (i.e. bancos e instituciones financieras), explorar diferentesoportunidades para aumentar su rentabilidad, luego de la implementación de estrategias y políticastendientes a generar impactos multiplicadores entre los clientes. En cuanto a la aplicación acercade los determinantes del gasto por estudiante en las escuelas públicas, se destaca la utilidad delmétodo bayesiano para identificar efectos poco tradicionales entre los determinantes del gasto porestudiante, como son las interacciones entre escuelas públicas vecinas.

Estos resultados afianzan la posibilidad y pertinencia de realizar estudios del tipo propuestos enesta investigación y explorar aplicaciones con datos que tal vez presenten otro tipo de patrones,tales como aquellos relacionados con diferentes áreas del conocimiento; por ejemplo, aquellosprovenientes del áre de la salud, la epidemiología, la educación, el mercadeo, y la sicología entreotros. Estudios sectoriales y comparativos permitirían explorar el alcance de la identificación delos efectos endógenos y contextuales por parte del modelo de interacción social. Adicionalmente,sería de gran interés observar cómo se comporta la metodología propuesta en casos en los cualespudiesen presentarse datos faltantes, e imprecisos; especialmente aquellos relacionados con la ma-triz de interacción social.

A lo largo de la historia de diferentes áreas de las ciencias sociales y biológicas, el análisis delas dinámicas de las interacciones sociales ha sido de gran relevancia para la implementación depolíticas y programas que permitan el mejoramiento del bienestar de comunidades. Los modelosde interacción social, mediante su especificación econométrica SAR, propuesta inicialmente porLee et al. (2010), presentan la gran ventaja de abordar el complejo proceso de identificación porseparado de importantes efectos, tales como son los efectos endógenos y contextuales. Esto gra-cias a la no linealidad en sus variables, que permite romper con la dependencia lineal entre dichosefectos y consecuentemente solucionar el denominado problema de reflexión (Manski, 1993).

Direcciones futuras de investigación

El conocimiento imperfecto de la estructura de las interacciones de una red es una cuestión empí-rica fundamental que requiere mayor análisis por parte de la comunidad académica. La especifica-ción incorrecta de la red puede, por supuesto, invalidar la identificación y estimación de los efectosde los pares basados en la estructura de la red, tal y como lo señalan Blume et al. (2015). En estamisma línea, de acuerdo con estos últimos autores, el asumir, por ejemplo, de forma incorreca laausencia de conexiones invalida la restricción de exclusión para variables instrumentales construi-das a partir de la estructura de la red. Es decir, podría ocurrir que los pares de pares que en la redobservada no son identificados como pares, efectivamente, podrían serlo en la red real. En este ca-so la red estaría siendo mal medida con las consecuencias prácticas y teóricas que eso implicaría.El combinar información de diferentes redes para ayudar a garantizar la ausencia de conexionesentre pares de pares podría ser una alternativa de solución interesante, tal como se propone en estainvestigación.

Page 79: Model selection in social interaction frameworks: a

67

De acuerdo con Bramoullé et al. (2009), la literatura sobre los efectos de los pares en las redesestá creciendo rápidamente. Por ejemplo, todavía hay muy poca investigación sobre datos de panel(Comola and Prina, 2020), sobre errores de medición (Chandrasekhar and Lewis, 2011), o sobre lacombinación de enfoques estructurales y experimentales (Griffith and Lagona, 1998). Siguiendo aBramoullé et al. (2020), en general, se necesita mucha más investigación para comprender las im-plicaciones estadísticas y econométricas del muestreo de la red, el error de medición de la red y, demanera más general, el conocimiento imperfecto de la red sobre las regresiones del efecto de pares.

Adicionalmente, otro aspecto desafiante e importante, se refiere a los mecanismos detrás de losefectos entre pares. De manera general, se considera que el análisis, la estimación y el desarrollode modelos teóricos con nuevas especificaciones de la estructura de red podrían ser un factor clavepara desvelar las razones detrás de los efector entre pares, como son por ejemplo, la determinaciónde los roles de conformidad, complementariedad, aprendizaje social, riesgo compartido y otrosmotivos detrás de los efectos entre pares.

Page 80: Model selection in social interaction frameworks: a

7 Apéndice

Gráficas de la aplicación: determinantes del gasto por estudiante en escuelaspúblicas del Estado de Ohio

A continuación, se presentan figuras asociadas a los resultados obtenidos en la segunda aplicación,en la cual se analizaron los determinantes del gasto total por estudiante por las escuelas públicasdel estado de Ohio.

En la primera figura se muestra la capacidad predictiva del modelo de interacción social, conespecificación SAR. Cabe destacar que los datos predichos por el modelo son muy similares a losdatos observados. En la segunda figura, se muestra el comportamiento y magnitud de los residualesdel modelo.

En las figuras siguientes se exhiben las distribuciones posterior de los parámetros estimados en lasegunda aplicación.

Page 81: Model selection in social interaction frameworks: a

69

Page 82: Model selection in social interaction frameworks: a

70 7 Apéndice

Page 83: Model selection in social interaction frameworks: a

71

De acuerdo con los resultados obtenidos, se puede concluir que efectivamente las distribucionespresentan una convergencia adecuada.

Page 84: Model selection in social interaction frameworks: a

Bibliografía

Ahelegbey, D. F. (2015). The Econometrics of Networks: A Review. Working Papers, 13:27.

Anselin, L. and Griffith, D. A. (1988). Do spatial effecfs really matter in regression analysis?Papers in Regional Science, 65(1):11–34.

Arias, A. S. (2015). Apalancamiento.

Athanasoglou, P. P., Brissimis, S. N., and Delis, M. D. (2008). Bank-specific, industry-specific andmacroeconomic determinants of bank profitability. Journal of international financial Markets,Institutions and Money, 18(2):121–136.

Berger, J. and Pericchi, L. (2015). Bayes Factors. In Wiley StatsRef: Statistics Reference Online,pages 1–14. John Wiley & Sons, Ltd, Chichester, UK.

Blondel, V. D., Guillaume, J.-L., Lambiotte, R., and Lefebvre, E. (2008). Fast unfolding ofcommunities in large networks. Journal of Statistical Mechanics: Theory and Experiment,2008(10):P10008.

Blume, L. E., Brock, W. A., Durlauf, S. N., and Ioannides, Y. M. (2011). Identification of socialinteractions. In Handbook of Social Economics, volume 1, pages 853–964. Elsevier B.V.

Blume, L. E., Brock, W. A., Durlauf, S. N., and Jayaraman, R. (2015). Linear social interactionsmodels. Journal of Political Economy, 123(2):444–496.

Bourke, P. (1989). Concentration and other determinants of bank profitability in europe, northamerica and australia. Journal of Banking & Finance, 13(1):65–79.

Bramoullé, Y., Djebbari, H., and Fortin, B. (2009). Identification of peer effects through socialnetworks. Journal of econometrics, 150(1):41–55.

Bramoullé, Y., Djebbari, H., and Fortin, B. (2020). Peer effects in networks: A survey. In AnnualReview of Economics, volume 12, pages 603–629. Annual Reviews Inc.

Brock, W. A. and Durlauf, S. N. (2001). Discrete choice with social interactions. The Review ofEconomic Studies, 68(2):235–260.

Brueckner, J. K. (2003). Strategic interaction among governments: An overview of empiricalstudies. International regional science review, 26(2):175–188.

Page 85: Model selection in social interaction frameworks: a

Bibliografía 73

Case, A. C., Rosen, H. S., and Hines Jr, J. R. (1993). Budget spillovers and fiscal policy interde-pendence: Evidence from the states. Journal of public economics, 52(3):285–307.

Chandrasekhar, A. and Lewis, R. (2011). Econometrics of sampled networks. Unpublished ma-nuscript, MIT.[422].

Chipman, H., George, E., McCulloch, R., Clyde, M., Foster, D., and Stine, R. (2001). The PracticalImplementation of Bayesian Model Selection on JSTOR. Lecture Notes-Monograph Series,38:65–134.

Cingano, F. and Rosolia, A. (2012). People i know: job search and social networks. Journal ofLabor Economics, 30(2):291–332.

Cliff, A. D. (1973). Spatial autocorrelation. Technical report.

Comola, M. and Prina, S. (2020). Treatment Effect Accounting for Network Changes *. TheReview of Economics and Statistics, pages 1–25.

Cotteleer, G., Stobbe, T., and van Kooten, G. C. (2011). Bayesian model averaging in the contextof spatial hedonic pricing: an application to farmland values. Journal of Regional Science,51(3):540–557.

Crespo Cuaresma, J. and Feldkircher, M. (2013). Spatial filtering, model uncertainty and the speedof income convergence in europe. Journal of Applied Econometrics, 28(4):720–741.

Csárdi and Nepusz (2006). The igraph software package for complex network research. Interjour-nal Complex Systems, page 1695.

De Oliveira, V. and Song, J. J. (2008). Bayesian analysis of simultaneous autoregressive models.Sankhya: The Indian Journal of Statistics, Series B (2008-), pages 323–350.

De Paula, A. (2016). Econometrics of network models (no. cwp06/16). Technical report, cemmapworking paper, Centre for Microdata Methods and Practice.

Draper, D. (1995). Assessment and propagation of model uncertainty. Journal of the Royal Statis-tical Society: Series B (Methodological), 57(1):45–70.

Durlauf, S. (2006). Groups, social influences, and inequality. In Bowles, S., Durlauf, S. N., andHoff, K., editors, Poverty Traps, chapter 6, pages 141–175. Princeton University Press.

Eicher, T. S., Papageorgiou, C., and Raftery, A. E. (2011). Default priors and predictive performan-ce in bayesian model averaging, with application to growth determinants. Journal of AppliedEconometrics, 26(1):30–55.

Elhorst, J. P. (2014). Spatial econometrics: from cross-sectional data to spatial panels, volume479. Springer.

Page 86: Model selection in social interaction frameworks: a

74 Bibliografía

Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its oracleproperties. Journal of the American statistical Association, 96(456):1348–1360.

Fernandez, C., Ley, E., and Steel, M. F. (2001). Benchmark priors for bayesian model averaging.Journal of Econometrics, 100(2):381–427.

Friedman, J., Hastie, T., Tibshirani, R., et al. (2000). Additive logistic regression: a statistical viewof boosting (with discussion and a rejoinder by the authors). The annals of statistics, 28(2):337–407.

Gelfand, A. E. and Smith, A. F. (1990). Sampling-based approaches to calculating marginal den-sities. Journal of the American statistical association, 85(410):398–409.

George, E. I. (2010). Dilution priors: Compensating for model space redundancy. In Berger, J. O.,Cai, T. T., and Iain M. Johnstone, editors, Borrowing Strength: Theory Powering Applications -A Festschrift for Lawrence D. Brown, volume 6, chapter 21, pages 158–165. Institute of Mathe-matical Statistics.

Gilks, W. R., Best, N. G., and Tan, K. (1995). Adaptive rejection metropolis sampling within gibbssampling. Journal of the Royal Statistical Society: Series C (Applied Statistics), 44(4):455–472.

Goddard, J., Molyneux, P., and Wilson, J. O. (2004). The profitability of european banks: a cross-sectional and dynamic panel analysis. The Manchester School, 72(3):363–381.

Griffith, D. A. and Lagona, F. (1998). On the quality of likelihood-based estimators in spatialautoregressive models when the data dependence structure is misspecified. Journal of StatisticalPlanning and Inference, 69(1):153–174.

Hartmann, W. R., Manchanda, P., Nair, H., Bothner, M., Dodds, P., Godes, D., Hosanagar, K., andTucker, C. (2008). Modeling social interactions: Identification, empirical methods and policyimplications. Marketing letters, 19(3-4):287–304.

Hassan, A. R. (2017). The interplay between the bayesian and frequentist approaches: a generalnesting spatial panel data model. Spatial Economic Analysis, 12(1):92–112.

Hastings, W. K. (1970). Monte carlo sampling methods using markov chains and their applications.Biometrika, 57(1):97–109.

Held, P., Krause, B., and Kruse, R. (2016). Dynamic clustering in social networks using louvainand infomap method. In 2016 Third European Network Intelligence Conference (ENIC), pages61–68. IEEE.

Hepple, L. W. (1995). Bayesian techniques in spatial and network econometrics: 2. computationalmethods and algorithms. Environment and Planning A, 27(4):615–644.

Page 87: Model selection in social interaction frameworks: a

Bibliografía 75

Hodges, J. S. (1987). Uncertainty, policy analysis and statistics. Statistical science, 2(3):259–275.

Hsieh, C.-S. and Lee, L. F. (2016). A social interactions model with endogenous friendship for-mation and selectivity. Journal of Applied Econometrics, 31(2):301–319.

Huber, P. J. (2004). Robust Statistics. John Wiley & Sons, Hoboken, New Jersey.

Jackson, M. O. (2010). Social and economic networks. Princeton university press.

Junker, N. (2020). Community Detection with Louvain and Infomap | R-bloggers.

Kelejian, H. H. (2008). A spatial j-test for model specification against a single or a set of non-nested alternatives. Letters in Spatial and Resource Sciences, 1(1):3–11.

Kelejian, H. H. and Piras, G. (2011). An extension of kelejian’s j-test for non-nested spatial models.Regional Science and Urban Economics, 41(3):281–292.

Kelejian, H. H. and Piras, G. (2014). Estimation of spatial models with endogenous weightingmatrices, and an application to a demand model for cigarettes. Regional Science and UrbanEconomics, 46:140–149.

Kiziryan, M. (2015). Flujo de caja.

Koop, G. M. (2003). Bayesian econometrics. John Wiley & Sons Inc.

Krisztin, T. (2017). The determinants of regional freight transport: a spatial, semiparametric ap-proach. Geographical Analysis, 49(3):268–308.

Kuan, C.-M. and Liu, T. (1995). Forecasting exchange rates using feedforward and recurrent neuralnetworks. Journal of applied econometrics, 10(4):347–364.

Lancaster, T. (2000). The incidental parameter problem since 1948. Journal of econometrics,95(2):391–413.

Leamer, E. E. and Leamer, E. E. (1978). Specification searches: Ad hoc inference with nonexperi-mental data, volume 53. Wiley New York.

Lee, L.-f. (2007). Identification and estimation of econometric models with group interactions,contextual factors and fixed effects. Journal of Econometrics, 140(2):333–374.

Lee, L.-f., Liu, X., and Lin, X. (2010). Specification and estimation of social interaction modelswith network structures. The Econometrics Journal, 13(2):145–176.

LeSage, J. P. (2008). An introduction to spatial econometrics. Revue d’Économie Industrielle,(123):19–44.

Page 88: Model selection in social interaction frameworks: a

76 Bibliografía

LeSage, J. P. and Fischer, M. M. (2008). Spatial growth regressions: model specification, estima-tion and interpretation. Spatial Economic Analysis, 3(3):275–304.

LeSage, J. P. and Parent, O. (2007a). Bayesian model averaging for spatial econometric models.Geographical Analysis, 39(3):241–267.

LeSage, J. P. and Parent, O. (2007b). Bayesian model averaging for spatial econometric models.Geographical Analysis, 39(3):241–267.

Lin, X. (2005). Peer effects and student academic achievement: an application of spatial autore-gressive model with group unobservables. Unpublished manuscript, Ohio State University.

Lin, X. (2010). Identifying peer effects in student academic achievement by spatial autoregressivemodels with group unobservables. Journal of Labor Economics, 28(4):825–860.

Madigan, D. and Raftery, A. E. (1994). Model selection and accounting for model uncertaintyin graphical models using occam’s window. Journal of the American Statistical Association,89(428):1535–1546.

Madigan, D., York, J., and Allard, D. (1995). Bayesian Graphical Models for Discrete Data.International Statistical Review / Revue Internationale de Statistique, 63(2):215–232.

Manjares, A. (2020). EBITDA.

Manski, C. F. (1993). Identification of endogenous social effects: The reflection problem. TheReview of Economic Studies, 60(3):531–542.

Marden, J. I. (2000). Hypothesis testing: from p values to bayes factors. Journal of the AmericanStatistical Association, 95(452):1316–1320.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., and Teller, E. (1953).Equation of state calculations by fast computing machines. The journal of chemical physics,21(6):1087–1092.

Moffitt, R. A. et al. (2001). Policy interventions, low-level equilibria, and social interactions.Social dynamics, 4(45-82):6–17.

Molyneux, P. and Thornton, J. (1992). Determinants of european bank profitability: A note. Jour-nal of banking & Finance, 16(6):1173–1178.

Moser, M. and Hofmarcher, P. (2014). Model priors revisited: Interaction terms in bma growthapplications. Journal of Applied Econometrics, 29(2):344–347.

Moulton, L. H. and Zeger, S. L. (1991). Bootstrapping generalized linear models.

Page 89: Model selection in social interaction frameworks: a

Bibliografía 77

Neyman, J. and Scott, E. L. (1948). Consistent Estimates Based on Partially Consistent Observa-tions. Econometrica, 16(1):1–32.

Piribauer, P. and Crespo Cuaresma, J. (2016). Bayesian variable selection in spatial autoregressivemodels. Spatial Economic Analysis, 11(4):457–479.

Piribauer, P. and Fischer, M. M. (2015). Model uncertainty in matrix exponential spatial growthregression models. Geographical Analysis, 47(3):240–261.

Raftery, A. E. (1988). Inference for the binomial n parameter: A hierarchical bayes approach.Biometrika, 75(2):223–228.

Raftery, A. E. (1995). Bayesian model selection in social research. Sociological Methodology,25:111–164.

Raftery, A. E. (1996). Approximate bayes factors and accounting for model uncertainty in genera-lised linear models. Biometrika, 83(2):251–266.

Raftery, A. E., Madigan, D., and Hoeting, J. A. (1997). Bayesian model averaging for linearregression models. Journal of the American Statistical Association, 92(437):179–191.

Rosvall, M. and Bergstrom, C. T. (2008). Maps of random walks on complex networks revealcommunity structure. Proceedings of the National Academy of Sciences of the United States ofAmerica, 105(4):1118–23.

Sacerdote, B. (2011). Peer effects in education: How might they work, how big are they and howmuch do we know thus far? In Handbook of the Economics of Education, volume 3, pages249–277. Elsevier.

Short, B. K. (1979). The relation between commercial bank profit rates and banking concentrationin canada, western europe, and japan. Journal of Banking & Finance, 3(3):209–219.

Song, Y., Liang, X., Zhu, Y., and Lin, L. (2021). Robust variable selection with exponentialsquared loss for the spatial autoregressive model. Computational Statistics and Data Analy-sis, 155:107094.

Stakhovych, S. and Bijmolt, T. H. (2009). Specification of spatial models: A simulation study onweights matrices. Papers in Regional Science, 88(2):389–408.

Steel, M. F. and Ley, E. (2007). On the effect of prior assumptions in Bayesian model averagingwith applications to growth regression. The World Bank.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the RoyalStatistical Society: Series B (Methodological), 58(1):267–288.

Page 90: Model selection in social interaction frameworks: a

78 Bibliografía

Topa, G. (2001). Social interactions, local spillovers and unemployment. The Review of EconomicStudies, 68(2):261–295.

Wang, X., Jiang, Y., Huang, M., and Zhang, H. (2013). Robust variable selection with exponentialsquared loss. Journal of the American Statistical Association, 108(502):632–643.

Weisbrod, B. A. (1964). External Benefits of Public Education. PhD thesis, Princeton University,Princeton.

Westreicher, G. (2018). Rentabilidad de los activos, ROA.

Westreicher, G. , S. (2020). Capital de trabajo.

Wilson, J. H. (1975). The student expenditure impact of a university on the local economy. TheAnnals Of Regional Science, 9(1):122–126.

Withers, S. D. (2002). Quantitative methods: Bayesian inference, bayesian thinking. Progress inHuman Geography, 26(4):553–566.

Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data. MIT Press,London, second edition.

Zellner, A. (1986). On assessing prior distributions and Bayesian regression analysis with g-priordistributions. Elsevier Science.

Zellner, A. (1999). Bayesian and non-bayesian approaches to scientific modeling and inference ineconomics and econometrics. Technical report.

Zhang, X. and Yu, J. (2018). Spatial weights matrix selection and model averaging for spatialautoregressive models. Journal of Econometrics, 203(1):1–18.

Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statisticalassociation, 101(476):1418–1429.