we are what we do
TRANSCRIPT
Datos no convencionales en problemas financieros
Esteban MoroUC3M, AFI
You are what you doEsteban MoroUC3M, AFI
@estebanmoro
Situation Behavior Observation
You are what you doYou are what you repeatedly do [Aristóteles]
@estebanmoro
Mejorar problemas que ya tenían respuesta
Responder a problemas que no tenían respuesta
Encontrar problemas que no sabíamos que teníamos
¿Datos no convencionales?
@estebanmoro
You are who you know
¿Quién tiene más riesgo de impago de un crédito en esta red social?
Utilizar llamadas de teléfono o redes sociales para determinar la probabilidad de impago Lenddo, Cignifi.
Granovetter: más diversidad de contactos, más oportunidades, más trabajo, etc.
@estebanmoro−3.80 −3.75 −3.70 −3.65 −3.60
40.3
540
.40
40.4
540
.50
finaltable$j * dx
final
tabl
e$i *
dx
You are what is surrounding you
Renta ⬆
Cocktail
Art GalleryPool
GardenBank
Renta ⬇BarBreweryGrocery StoreAutomotive
Datos de Foursquare para obtener el ADN comercial de las zonas Renta de las personas está correlacionada con el ADN de la zona (R2 = 0.5)
Data: 65000 fsq venues in Madrid
@estebanmoro
You are how you moveDatos de movilidad para detectar si una persona está en paro (Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[jj]
tabla$lat[jj]
10km
@estebanmoro
You are how you moveDatos de movilidad para detectar si una persona está en paro (Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando
10km
@estebanmoro
You are how you moveDatos de movilidad para detectar si una persona está en paro (Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
10km
@estebanmoro
You are how you moveDatos de movilidad para detectar si una persona está en paro (Tweets geolocalizados)
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
Menor movilidad geográfica, más probabilidad de estar en paro
10km
@estebanmoro
You are when you actDatos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados)
0
20
40
0 5 10 15 20 25dos
count
0 4 8 12 16 20 24
Núm
ero
de tw
eets
0 4 8 12 16 20 240
10
20
30
40
0 5 10 15 20 25uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you actDatos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados)
Trabajando
0
20
40
0 5 10 15 20 25dos
count
0 4 8 12 16 20 24
Núm
ero
de tw
eets
0 4 8 12 16 20 240
10
20
30
40
0 5 10 15 20 25uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you actDatos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados)
Trabajando En paro
0
20
40
0 5 10 15 20 25dos
count
0 4 8 12 16 20 24
Núm
ero
de tw
eets
0 4 8 12 16 20 240
10
20
30
40
0 5 10 15 20 25uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
You are when you actDatos de actividad en redes sociales para detectar si una persona está en paro (Tweets geolocalizados)
Trabajando En paroMás tweets por la mañana, más probabilidad de trabajar
0
20
40
0 5 10 15 20 25dos
count
0 4 8 12 16 20 24
Núm
ero
de tw
eets
0 4 8 12 16 20 240
10
20
30
40
0 5 10 15 20 25uno
count
10
20
40
30
20
10
Hora Hora
@estebanmoro
We are when we actDatos de actividad para detectar el paro en una zona (Tweets geolocalizados)
Torrijos, 26% paroSobrarbe, 7% paro
2
4
6
8
5 10 15 20hour
fraction
0 4 8 12 16 20
2%
Frac
ción
de tw
eets
4%
6%
8%
Hora
Modelo sencillo: Paro = Actividad por la mañana Dataset: 19.6 Million geolocalized tweets A. Llorente, EM, et al, 2015 http://arxiv.org/abs/1411.3140
@estebanmoro
Are we what we say or what we do?
Detectamos más o menos paro que oficialmente se declara? (por provincias)Error = ModeloParo(Actividad) - Paro declarado (Tweets geolocalizados)
Dataset: 19.6 Million geolocalized tweets A. Llorente, EM, et al, 2015 http://arxiv.org/abs/1411.3140
15 20 25 30 35
−0.3
−0.1
0.0
0.1
0.2
0.3
tt$sumergida
error
30%
20%
10%
0%
-10%
-20%
-30%
Erro
r
% Economía Sumergida15 20 25 30 35
El modelo predice menos paro que el
oficial en las provincias con
mayor economía sumergida
@estebanmoro
We are what we saidPodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
@estebanmoro
We are what we saidPodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
!
@estebanmoro
We are what we saidPodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
!
Número de tweets Sentimiento de los
tweets
Ayudas (FEMA)Reclamaciones
Seguros
!
Corre
lació
n co
n im
pact
o ec
onóm
ico
Horas desde toma de tierra
actividad
sentimiento
@estebanmoro
Gracias
Esteban Moro UC3M, AFI
You are what you repeatedly do [Aristóteles]