probabilité a priori vraisemblance probabilité a posteriori facteur de normalisation (performance...
TRANSCRIPT
![Page 1: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/1.jpg)
)|(
)|(),|(),|(
MDp
MpMDpMDp
Probabilité a prioriVraisemblance
Probabilitéa posteriori
Facteur de normalisation(performance globale du modèle)
Résumé cours précédent1. Théorème de Bayes
2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori
)|( Dp Kkk ..1)( ~ (K = 10 000)
Probabilité a posteriori = fréquence d´apparition dans l ´échantillon
![Page 2: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/2.jpg)
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Modèles stochastiques Bayésiens
données : (D)),( lThypothèse :(alignement)(phylogénie)
modèle : (M)(processus d´évolution par accumulation de mutations)
![Page 3: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/3.jpg)
27000
28000
29000
30000
31000
32000
33000
E =-ln L
burn in(discarded)
sample
Monte Carlo Markov chain (MCMC)
)|( Dp Kkk ..1)( ),( kkk lT
Total
T
K
KMDTp ),|(
For any topology T :
~
Chick
CatFishSnailFlyHydraPolyp
Man
posterior consensus
67
87
90
45
78
![Page 4: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/4.jpg)
Réseaux Bayésiens
• Example introductif
• Définition
• Méthodes de Monte Carlo
• Problème inverse : apprendre la structure du réseau, à partir de données observées– problème n°1 : apprendre les lois locales
– problème n°2 : apprendre la structure globale
• Application : réseaux de régulation génétique
![Page 5: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/5.jpg)
Représenter les dépendances statistiques entre plusieurs variables
essencebougiespropres
démarrageniveauréservoir
),|()|()()(),,,( bedperpbpepdbrep
![Page 6: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/6.jpg)
essencebougiespropres
démarrageniveauréservoir
oui 0.98
non 0.02
oui 0.96
non 0.04
e = oui e = non
b = oui 0.99 / 0.01 0 / 1
b = non 0.01 / 0.99 0 / 1
e = oui e = non
plein 0.39 0.01
mi-plein 0.60 0.01
vide 0.01 0.98
),|( bedp
)(ep )(bp
)|( erp
),|()|()()(),,,( bedperpbpepdbrep
![Page 7: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/7.jpg)
Définition
un ensemble de variables aléatoires),...,,( 21 nxxxx
Un réseau Bayésien est une représentation graphique de ladistribution de probabilité conjointe ),...,,( 21 nxxxp
Elle est caractérisée par deux éléments :
1. un graphe acyclique orienté (à n sommets)
2. n distributions conditionnelles
))(|( iG
i xPaxp
G
où )( iG xPa est l´ensemble des parents de ix
![Page 8: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/8.jpg)
Calcul de la distribution conjointeà partir du graphe
1x 2x 3x 6x
5x4x
)|,( 231 xxxi
),,,,,( 654321 xxxxxxp
),|(),|()|()|()|()( 5364352423121 xxxpxxxpxxpxxpxxpxp
Indépendances conditionnelles:
),|,( 5364 xxxxi ...
![Page 9: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/9.jpg)
Classe d´équivalence : indistinguabilité
Théorème (Pearl et Verma, 1991):
Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles
![Page 10: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/10.jpg)
Classe d´équivalence : indistinguabilité
Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
![Page 11: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/11.jpg)
1x 2x 3x 6x
5x4x
),,,,,1( 6543211 xxxxxxpp
Echantillonnage de Gibbs(Chaque admet pour valeurs possibles les entiers k=1..K)ix
),,,,,2( 6543212 xxxxxxpp
),,,,,( 654321 xxxxxKxppK ....
Essayer toutes les valeurs possibles pour et recalculer laprobabilité conjointe à chaque fois :
Tirer une nouvelle valeur pour en fonction de ces probabilités
1x
1x
![Page 12: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/12.jpg)
1x 2x 3x 6x
5x4x
Echantillonnage de Gibbs
Appliquer la même procédure à , puis , ... jusqu´à 2x 3x 6x
...
Recommencer un très grand nombre de fois (K=10 000)
KkkX ..1)( ),...,,( 621
kkkk xxxX échantillon : avec
distribué suivant la probabilité conjointe ),,,,,( 654321 xxxxxxp
Par exemple:total
kx
K
Kkxp 6)( 6
![Page 13: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/13.jpg)
1x 2x 3x 6x
5x4x
),,,,,1( 654321 xxxxxxp
),|(),|()|()|()1|()1( 5364352423121 xxxpxxxpxxpxxpxxpxp
Echantillonnage de Gibbssimplification des calculs
),,,,,2( 654321 xxxxxxp
),|(),|()|()|()2|()2( 5364352423121 xxxpxxxpxxpxxpxxpxp
...
![Page 14: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/14.jpg)
1x 2x 3x 6x
5x4x
),,,,1,( 654321 xxxxxxp
),|(),|()1|()1|()|1()( 5364352423121 xxxpxxxpxxpxxpxxpxp
Echantillonnage de Gibbssimplification des calculs
...
),,,,2,( 654321 xxxxxxp
),|(),|()2|()2|()|2()( 5364352423121 xxxpxxxpxxpxxpxxpxp
![Page 15: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/15.jpg)
Echantillonnage de Gibbs
![Page 16: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/16.jpg)
Calcul de probabilités conditionnelles
On connait la valeur des variables 26, 22, 16.
Calculer alors la probabilité des différentes valeurs possibles pour 8
![Page 17: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/17.jpg)
Calcul de probabilités conditionnelles
Faire un Gibbs en laissant fixes les variables 26, 22, 16.
Mesurer alors la fréquence des différentes valeurs observées en 8
asymptotiquement égales aux probabilités recherchées
![Page 18: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/18.jpg)
Problème inverse :Inférer les lois conditionnelles locales
Données: structure du réseau (G) + table d´observations (D)
Inconnues à estimer: lois de probabilités locales
(G) (D)
![Page 19: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/19.jpg)
1x 2x 3x 6x
5x4x
Lois conditionnelles localespour les réseaux binaires
),|( 536 xxxp
(Chaque admet pour valeurs possibles 0 ou 1)ix
0 0
0 1
1 0
1 1
)1( 6 xp006016106116
3x 5x
))((2 ixPaCard
Nombres de paramètresà déterminer:
: ensemble des paramètresdu réseau
![Page 20: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/20.jpg)
Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné
: données observées (10 piles et 5 faces)D
Estimation rapide (efficace si beaucoup d´observations) : 15
10ˆ
Inférence Bayésienne (incertitude mieux prise en compte)
)(p
)|( Dp
0.66
)|(
)|(),|(),|(
MDp
MpMDpMDp
Métropolis sur
![Page 21: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/21.jpg)
1x 2x 3x 6x
5x4x
Estimation rapide des lois conditionnelles locales
),|( 536 xxxp
0 0 5 12
0 1 7 2
1 0 4 0
1 1 1 24
)0( 6 xN
17/12ˆ006
9/2ˆ016
0ˆ106
25/24ˆ116
3x 5x )1( 6 xN
![Page 22: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/22.jpg)
Inférence Bayésienne des paramètres du réseau
)|(
)|(),|(),|(
GDp
GpGDpGDp
D
G Structure du réseau
Table d´observations
Paramètres du réseau
dGpGDpGDp )|(),|()|(
![Page 23: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/23.jpg)
Algorithme de Metropolis
),|(
),|( *
GDp
GDpa
n
n
*1 nn
nn 1
*nn 1. proposer modif
2. calculer
3. accepter avec une proba p=Min(1,a)
si accepté :
si refusé :
4. recommencer à partir de 2.
),|( MSp
N
nnN 1
1
![Page 24: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/24.jpg)
Classificateur Bayésien « naïf »
C
A1 A2 An...
Classe
Attributs )|( CAp i
)(Cp
n
ii CApCAp
1
)|()|(
),...,,( 21 nAAAA
l
lCplCAp
kCpkCApAkCp
)()|(
)()|()|(
![Page 25: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/25.jpg)
Classificateur Bayésien « naïf »méthode d´apprentissage
C
A1 A2 An...
Classe
Attributs )|( CAp i
)(Cp ?
?
Jeu d´apprentissage:
A1 A2 ... An C
item1
item2
...
Application des méthodes mentionnées auparavant
![Page 26: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/26.jpg)
Classificateur Bayésien avec corrélations entre attributs
C
A1 A2 An...
Classe
AttributsA3
n
ii CApCAp
1
)|()|(
),...,,( 21 nAAAA
Cas particulier: le graphe restreint aux attributs est un arbre.
![Page 27: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/27.jpg)
Problème inverse général :inférer la structure du réseau
?
D Table d´observations
G Structure du réseau
![Page 28: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/28.jpg)
Inférence Bayésienne de la structure du réseau
)(
)()|()|(
Dp
GpGDpDGp
DG Structure du réseau
Table d´observations
dGpGDpGDp )|(),|()|(
Paramètres du réseau
(calculable analytiquement)
)(Gp Prior sur les réseaux possibles
Uniforme : trop flexiblePrior pénalisant les réseaux trop riches en liens
![Page 29: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/29.jpg)
Inférence Bayésienne de la structure du réseau
)(
)()|()|(
Dp
GpGDpDGp
DG Structure du réseau
Table d´observations
dGpGDpGDp )|(),|()|(
Paramètres du réseau
Données suffisamment riches pour inférer le réseau avec certitude:rechercher graphe G qui maximise (NP difficile))|( DGp
Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori )|( DGp
(calculable analytiquement)
![Page 30: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/30.jpg)
Classe d´équivalence : indistinguabilité
Théorème (Pearl et Verma, 1991):
Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles
![Page 31: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/31.jpg)
Classe d´équivalence : indistinguabilité
Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
![Page 32: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/32.jpg)
Validation de la méthode par simulations
![Page 33: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/33.jpg)
Cas réel : projets d´études supérieures
SEX : sexeSES : statut socio-économiquePE : encouragement parentalIQ : quotient intellectuelCP : projets d´études supérieures
![Page 34: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/34.jpg)
Application : inférer les réseaux de régulation génétique à partir des
puces à ADN
![Page 35: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/35.jpg)
Cycle cellulaire
division
synthèse d´ADN (duplication du génome)
![Page 36: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/36.jpg)
![Page 37: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/37.jpg)
Application : inférer les réseaux de régulation génétique à partir des
puces à ADN
Mesure de l´expression de 6177 gènes de la levure de boulanger76 mesures au total: 6 séries temporelles sur cellules synchronisées
Explorer les classes d´équivalence de réseaux de 6178 sommets- 6177 sommets correspondant aux gènes analysés- 1 sommet supplémentaire : phase du cycle cellulaire
(contraint comme racine du graphe)Méthode Monte Carlo
Discrétisation des niveaux d´expression de chaque gène-1 : sous-exprimé 0 : normal+1 : sur-exprimé
![Page 38: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/38.jpg)
1x 2x 3x 6x
5x4x
Estimation rapide des lois conditionnelles locales
),|( 536 xxxp
0 0 5 12
0 1 7 2
1 0 4 0
1 1 1 24
)0( 6 xN
17/12ˆ006
9/2ˆ016
0ˆ106
25/24ˆ116
3x 5x )1( 6 xN
![Page 39: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/39.jpg)
Relations de Markov
![Page 40: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/40.jpg)
Gènes dominants (en amont des autres)
![Page 41: Probabilité a priori Vraisemblance Probabilité a posteriori Facteur de normalisation (performance globale du modèle) Résumé cours précédent 1. Théorème](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d8e497959293b8c40b8/html5/thumbnails/41.jpg)
Relations de Markov