apprentissage statistique sur données longitudinales de ...régression logistique o(np) o(p)...
TRANSCRIPT
![Page 1: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/1.jpg)
Apprentissage statistique sur données longitudinales degrande taille et applications au design des jeux vidéo
Soutenance de thèse
1
Thibault Allart
![Page 2: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/2.jpg)
Déroulement
Contexte
Données issues des jeux vidéo
Problématique
Optimisation
Modèle statistique
Simulations
Applications au design des jeux vidéo Influence du design sur le temps de jeu des joueurs
Lien entre Difficulté et motivation du joueur
Conclusion
2
![Page 3: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/3.jpg)
Contexte
3
![Page 4: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/4.jpg)
4
AgatheGuilloux
Stéphane Natkin
Guillaume Levieux
Michel Pierfitte
MokhtarZahdi Alaya
Sarah Lemler
ThibaultALLART
Encadrants de thèse
Collaborations
![Page 5: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/5.jpg)
Les données
5
![Page 6: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/6.jpg)
Réseau
Télémétrie
6
Il est possible de mesurer toutes les interactions entre le joueur et le jeu.En pratique, pour différentes raisons (coût du stockage, bande passante) seuls certains éléments sont conservés.
![Page 7: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/7.jpg)
7
![Page 8: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/8.jpg)
8
![Page 9: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/9.jpg)
9
![Page 10: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/10.jpg)
Un grand nombre d’individus et des variables
𝑋1,1 ⋯ 𝑋1,𝑝
⋮ ⋱ ⋮
𝑋𝑛,1 ⋯ 𝑋𝑛,𝑝
10
𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠
Soit on essaye des résumer l’information temporelle pour la faire rentrer dans une matrice et utiliser les modèles classiques…
![Page 11: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/11.jpg)
… suivies dans le temps.
11
Temps
Soit on utilise toute l’information temporelle et on adapte nos modèles.
![Page 12: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/12.jpg)
Le nombre d’observations au cours du temps dépend de l’individu et de la variable
n
p
f
≈ 107
[1; 105]
Tenseur
12
![Page 13: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/13.jpg)
13
De l’importance des données longitudinales
Playtime
![Page 14: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/14.jpg)
Playtime2h 30h
Joueur 1
Joueur 2
J1 Stop J2 Stop
Retention Time varying data
Super Mario
liéNot correlated
Eau lié Correlated
Arrête avant la fin
Fin du Jeu
14
![Page 15: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/15.jpg)
Playtime2h 30h
Joueur 1
Joueur 2
J1 Stop J2 Stop
Arrête avant la fin
Fin du jeu
Rétention
Agrégées Longitudinales
Super Mario
lié Pas lié
Eau lié lié
15
![Page 16: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/16.jpg)
Problématique
16
![Page 17: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/17.jpg)
L’importance du temps de jeu
17
Jeu conçu pour être joué 10h
Les joueurs n’y jouent que 2hProblème
Éditeur et développeurs
Ont dépensé leurs ressources dans la création de 8h de contenu qui ne seront pas
jouées par les joueurs
S’attendaient à une expérience / un
divertissement de 10h
Joueurs
![Page 18: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/18.jpg)
Différentes mesures du temps
On peut mesurer l’activité des joueurs de différentes manières
Le temps de jeu (playtime) est la durée que le joueur passe en jeu, i.e le temps cumulé de chacune de ses sessions de jeu.
18
24h
Image : Michel Pierfitte
![Page 19: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/19.jpg)
Objectif
On cherche à comprendre pourquoi certains joueurs arrêtent de jouer avant la fin du jeu.
Évènement d’intérêt : arrêt définitif du jeu par le joueur
On peut calculer la proportion de joueurs encore en jeu après xx heures, c’est la courbe de survie ou rétention.
19
![Page 20: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/20.jpg)
Rétention
20
Mesure la proportion de joueurs restant dans le jeu à un temps de jeu donné.
Soit 𝑇 la variable aléatoire positive associée au temps de jeu des joueurs.
![Page 21: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/21.jpg)
Rétention au cinéma
21
0%
50%
100%
0,1 1 10 100 1000
Rétention en heuresCinema
Médiane : 1h30
Moyenne : 1h30
Temps de jeu en heures
Objectif : Comprendre pourquoi certains joueurs quittent le jeu rapidement.
![Page 22: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/22.jpg)
Taux de risque instantané
22
Par la suite on cherchera à modéliser l’influence des variables sur .
Soit 𝑇 la variable aléatoire positive associée au temps de jeu des joueurs.
Taux de risque instantané :
Remarque:
![Page 23: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/23.jpg)
Modèle de Cox dépendant du temps
23
Player behavior
Effect of player behavior
Quit rate
Baseline
Comment estimer les coefficients du modèle ?
![Page 24: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/24.jpg)
OptimisationComment estimer les paramètres du modèle ?
24
![Page 25: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/25.jpg)
Optimisation
Soit 𝑓(𝛽) une fonction paramétrique convexe de ℝ𝑝 → ℝ
On cherche les coefficients 𝛽 qui minimisent la valeur de la fonction.
Idée : Utiliser un algorithme itératif, qui, à chaque étape, nous rapproche de la solution
25
![Page 26: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/26.jpg)
Descente de gradient
26
Inconvénient : Chaque évaluation du gradient demande de parcourir tout le jeu de données ~𝑜(𝑛)
![Page 27: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/27.jpg)
Descente de gradient stochastique
27
Avantage : Chaque itération se fait à partir des données d’un seul individu ~𝑜(1)
![Page 28: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/28.jpg)
Optimisation
28
En pratique, pour les grands jeux de données, la descente de gradient stochastique est plus rapide que la descente de gradient.
![Page 29: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/29.jpg)
Vraisemblance partielle de Cox
29
Habituellement utilisée pour estimer les coefficients du modèle de Cox.Pour simplifier : ni les variables ni les coefficients ne dépendent du temps.𝐷: l’ensemble des individus ayant réalisé l’évènement terminal (quitté le jeu)𝑅𝑖: les individus à risque (encore en jeu) au moment où l’individu i réalise son évènement terminal (le joueur i quitte le jeu)
Avantage : pas besoin d’estimer la baseline 𝜆0(𝑡)Inconvénient : pas du tout adaptée à la descente de gradient stochastique
![Page 30: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/30.jpg)
Problème
Le calcul d’un gradient individuel fait intervenir tous les individus à risque au moment où 𝑖 quitte le jeu.
Conclusion : On ne peut pas exploiter pleinement les avantages de la descente de gradient stochastique sur la vraisemblance partielle de Cox.
30
![Page 31: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/31.jpg)
Complexité d’une itération
Descente de gradientDescente de gradient
stochastique
Régression linéaire O(np) O(p)
Régression logistique O(np) O(p)
Régression de CoxVraisemblance partielle
O(np) O(np)
31
![Page 32: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/32.jpg)
Problématique
Problématique statistique :• On cherche à modéliser des temps d’évènement
• Données longitudinales
• Coefficients dépendant du temps
• Interprétable
• Grand nombre d’observations
• Sélection de variables
Problématique jeu vidéo:• Peut-on extraire de l'analyse de l'activité des joueurs des
recommandations de design spécifiques au jeu étudié ?
• Est-il possible d'extraire des recommandations de design plus larges, sur des variables partagées entre plusieurs jeux ?
32
![Page 33: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/33.jpg)
Modèle statistique
33
![Page 34: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/34.jpg)
Modèle de Cox dépendant du temps
34
Player behavior
Effect of player behavior
Quit rate
Baseline
![Page 35: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/35.jpg)
Proposition
Remplacer la vraisemblance partielle par la vraisemblance complète, issue des processus de comptage, voir [Martinussen et Scheike (2007)]. L’opposé de la log-vraisemblance s’écrit :
35
𝑁𝑖(𝑡) 𝑌𝑖(𝑡)
1
0
Arrêt du jeu par le joueur
𝑡
1
0
Arrêt du jeu par le joueur
𝑡
Compte le nombre d’évènement (ici limité à 1)
Le joueur est il toujours dans observé ?
![Page 36: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/36.jpg)
Complexité d’une itération
36
Descente de gradientDescente de gradient
stochastique
Régression linéaire O(np) O(p)
Régression logistique O(np) O(p)
Régression de CoxVraisemblance partielle
O(np) O(np)
Régression de CoxVraisemblance complète
O(np) O(p)
![Page 37: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/37.jpg)
Quelle forme pour les 𝛽(𝑡) ?
• Suffisamment simples pour calculer l’intégrale rapidement
• Capable de s’adapter à des formes complexes
• Avec peu de paramètres pour éviter l’explosion du nombre de dimensions
37
![Page 38: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/38.jpg)
Coefficients constants par morceaux
38
![Page 39: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/39.jpg)
Coefficients constants par morceaux
39
Si de plus les 𝑋𝑖,𝑗(𝑡) sont constants sur
de petits intervalles.
![Page 40: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/40.jpg)
Variation totale
40
Pour éviter l’explosion du nombre de dimensions, on utilise la variation totale (ou Fused Lasso), qui pénalise la hauteur de sauts.
![Page 41: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/41.jpg)
Pénalité
41
1) On veut sélectionner les variables les plus pertinentes
2) Et que le nombre de changements au cours du temps soit réduit (ce qui réduit le nombre de coefficients)
𝑗=1
𝑝
𝛽𝑗
𝑙=2
𝐿
|𝛽𝑗 − 𝛽𝑗−1|
Lasso
Variation totale
On combine les deux sous la forme d’une pénalité par groupe
![Page 42: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/42.jpg)
Modèle pénalisé
42
Où :
On cherche donc les coefficients qui minimisent l’opposé de la log-vraisemblance et la pénalité.
![Page 43: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/43.jpg)
Simulations
43
![Page 44: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/44.jpg)
vrai
44
![Page 45: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/45.jpg)
vrai
45
![Page 46: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/46.jpg)
vrai
sans pénalité
46
![Page 47: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/47.jpg)
vrai
sans pénalité
pénalisé
47
![Page 48: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/48.jpg)
vrai
sans pénalité
pénalisé
48
![Page 49: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/49.jpg)
vrai
sans pénalité
pénalisé
49
![Page 50: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/50.jpg)
vrai
sans pénalité
pénalisé
50
![Page 51: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/51.jpg)
51
![Page 52: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/52.jpg)
Comparaison avec timereg
52
Différence :• L’optimisation repose sur une inversion matricielle et des itérés de
lissage par noyaux
Limitations :• Fonctionne uniquement sur les « petits » jeux de données.• Pas de sélection de variables• Retourne les coefficients cumulés, il faut ajouter un estimateur à
noyaux pour obtenir les coefficients.
![Page 53: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/53.jpg)
vrai
CoxTV
timereg
53
![Page 54: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/54.jpg)
Résultats (n=1 000)
54
![Page 55: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/55.jpg)
Résultats (n=10 000)
55
![Page 56: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/56.jpg)
Résultats sur 100 répétitions Monté-Carlo
56
Timereg dépasse la capacité mémoire de 32Go de Ram
![Page 57: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/57.jpg)
Temps de calcul
57
![Page 58: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/58.jpg)
Implémentation
58
CORE LIBRARY
INTERFACE
R PACKAGE
STREAM DATA FROM DISK
(DATA BIGGER THAN RAM)RCPP
![Page 59: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/59.jpg)
ApplicationsSur le design des jeux vidéo
59
![Page 60: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/60.jpg)
60
Influence du design sur le temps de jeu des joueurs
![Page 61: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/61.jpg)
Far Cry 4
Jeu de tir en vue à la première personne et monde ouvert.
On s’intéresse à l’effet de l’utilisation des armes sur la rétention.
61
![Page 62: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/62.jpg)
62
![Page 63: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/63.jpg)
Résultats : l’arc
63
Interprétation:Effet négatif (sous la ligne rouge) signifie :• Moins de départ des joueurs• Meilleure rétention
𝛽(𝑡)
![Page 64: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/64.jpg)
Les plus positives
64
64
![Page 65: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/65.jpg)
Négative
65
![Page 66: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/66.jpg)
Recommandations
• Modifier le design de l’arbalète : la visée est trop sensible pour être efficace de loin.
• Capte peut être une partie de l’effet « explorer » : Pour la débloquer il faut débloquer toutes les tours du jeu. Les joueurs uniquement intéressés par l’exploration quittent peut être naturellement le jeu à ce moment là.Le modèle permettrait de différencier ces hypothèses en intégrant comme variable le taux d’exploration
66
![Page 67: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/67.jpg)
67
Influence de la difficulté sur la motivation
![Page 68: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/68.jpg)
Théorie du flow
68
![Page 69: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/69.jpg)
Difficulté absolue et relative
69
Source : Levieux
![Page 70: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/70.jpg)
Estimation de la difficulté
Estimée à partir des données de l’activité des joueurs.
Difficulté : probabilité d’échouer à un challenge sachant les caractéristiques du personnage, du challenge et les capacités du joueur
70
Exemple de caractéristique du personnage et du challenge au temps t :
• Santé• Dommages par seconde• Type de mission
• Endurance• Niveau des compétences
Pour prendre en compte la variabilité des compétence de chaque joueur, nous avons utilisé un modèle mixte.
![Page 71: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/71.jpg)
Exemple de difficulté estimée pour un joueur de Rayman Legends
71
![Page 72: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/72.jpg)
Difficulté estimée
72
La difficulté augmente rapidement dans les premières heures de jeu, puis atteint un plateau de 25% dans Rayman Legends et 33% dans The Division.
médiane
Quantile 0.25
Quantile 0.05
Quantile 0.75
Quantile 0.95
![Page 73: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/73.jpg)
Résultat
73
Interprétation : Lorsque le challenge est plus élevé les joueurs ont tendance à jouer plus longtemps. Cependant une augmentation brutale de la difficulté au début de l’expérience est liée à une hausse du départ des joueurs.
![Page 74: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/74.jpg)
Exemple quantitatif
74
Joueur A : difficulté 20%Joueur B : difficulté 40%Toute chose égale par ailleurs, après 12h de jeu.Le joueur B a 15% de chances en plus de rester dans le jeu que le joueur A
𝜆𝐵(𝑡 = 12)
𝜆𝐴(𝑡 = 12)= 𝑒 0.4−0.2 ∗(−0.7) = 0.86 =
1
1.15
![Page 75: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/75.jpg)
Résultat
75
Interprétation : Une difficulté plus élevée est corrélée avec une plus grande rétention. Les variations de difficulté n’ont pas de lien avec la rétention.
![Page 76: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/76.jpg)
Conclusion
76
![Page 77: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/77.jpg)
Conclusion 1/2
Nous proposons un modèle statistique
• Prenant en compte les données longitudinales
• Avec des coefficients dépendants du temps
• Pénalisé par variation totale
• Optimisé pour les grands jeux de données (SGD et données > RAM)
• Implémenté dans un package R (développé en C++)
77
![Page 78: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/78.jpg)
Conclusion 2/2
Appliqué au design des jeux vidéo, il permet :
• D’extraire des éléments de design qui ont un lien négatif avec la rétention sur n’importe quel jeu
• De quantifier l’impact de la difficulté sur la rétention
78
![Page 79: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/79.jpg)
Ouverture
Le modèle mathématique et son implémentation permettent déjà de modéliser des évènements répétés, par exemple :
L’influence du design sur la monétisation.
79
![Page 80: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/80.jpg)
Références
• Martinussen, T., & Scheike, T. H. (2007). Dynamicregression models for survival data. Springer Science & Business Media.
• Scheike, T., Martinussen, T., & Silver, J. (2010). Timereg: timereg package for flexible regressionmodels for survival data. R package version, 1-3.
80
![Page 81: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/81.jpg)
Merci de votre attention
81
![Page 82: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/82.jpg)
82
![Page 83: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/83.jpg)
Vraisemblance
83
Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus
Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus
On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire
Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :
![Page 84: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/84.jpg)
Vraisemblance
84
Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus
Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus
On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire
Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :
![Page 85: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/85.jpg)
Vraisemblance
85
Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus
Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus
On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire
Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :
![Page 86: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/86.jpg)
Vraisemblance
86
Probabilité que les évènements aient eu lieu au moment où on les a observés, conditionnellement au passé du processus
Probabilité qu’il n’y ait pas d’évènement aux autres temps, conditionnellement au passé du processus
La log vraisemblance s’écrit :
On cherche les paramètres qui maximisent les courbes jaunes et minimisent l’aire sous la courbe noire
• Integrale• Quelle forme pour les 𝛽(𝑡) ?
Soit 𝑡𝑖 le temps de réalisation de l’évènement pour l’individu 𝑖 et 𝜏 le temps de fin d’observation, alors la vraisemblance se décompose comme suit :
![Page 87: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/87.jpg)
Certaines trajectoires sont censurées
87
Temps
Individus
Fin d’observation
Évènement observé
Évènement censuré
![Page 88: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/88.jpg)
Notations
88
𝑁𝑖(𝑡) 𝑌𝑖(𝑡)
1
0
1
0
3
2
$ $ $ Arrêt du jeupar le joueur
Nombre de réalisation de l’évènement
L’individu est il toujours à risque ?
![Page 89: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/89.jpg)
Number of coefs TV cTV
Linear 5+5 2+2
Non-linear 25 2
89
![Page 90: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/90.jpg)
TV use only adjacent pixels
cTV use a fully connected graph
90
![Page 91: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/91.jpg)
Publications
• Allart, T., Levieux, G., Pierfitte, M., Guilloux, A., & Natkin, S. (2016). Design influence on player retention: A method based on time varyingsurvival analysis. In Computational Intelligence and Games (CIG), 2016 IEEE Conference on (pp. 1-8). IEEE.
• Allart, T., Levieux, G., Pierfitte, M., Guilloux, A., & Natkin, S. (2017, August). Difficulty influence on motivation over time in video games using survival analysis. In Proceedings of the 12th International Conference on the Foundations of Digital Games(p. 2). ACM.
91
![Page 92: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/92.jpg)
92
![Page 93: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/93.jpg)
93
![Page 94: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/94.jpg)
100 répétitions Monte-Carlo
Timereg does not run on 32Go Ram
n 𝑜𝑏𝑠 ≈ 50 ∗ 𝑛
94
![Page 95: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/95.jpg)
95
![Page 96: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/96.jpg)
Objectif : Améliorer le jeu pour qu’il soit plus « FUN » pour le joueur.
Problème : On ne peut pas mesurer l’intensité du fun à partir des données
Hypothèse : On dispose d’une mesure approximative de la durée du fun : le temps de jeu du joueur.
96
De l’importance du temps de jeu
![Page 97: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/97.jpg)
97
Proximal Gradient Descent
Proximal TV algorithm is linear in practice (Condat)
Optimisation sous contraintes
![Page 98: Apprentissage statistique sur données longitudinales de ...Régression logistique O(np) O(p) Régression de Cox Vraisemblance partielle O(np) O(np) 31 Problématique Problématique](https://reader036.vdocuments.site/reader036/viewer/2022070212/610643dcde967568de031bfb/html5/thumbnails/98.jpg)
98