r eduction de dimensionnalit e un exemple de m ethode : l ...€¦ · r eduction de dimensionnalit...
TRANSCRIPT
Reduction de dimensionnalite
Un exemple de methode :l’Analyse en Composantes Principales (ACP)
Principal Component Analysis (PCA)
P.M. Bousquet
CERI
P.M. Bousquet (CERI) Cours U.E. Data Analytics 1 / 19
Problematique
pvariables
nindividus
X =
..........
r"super-"variables
nindividus
X' =
..........
(composantesprincipales)
CLASSIFICATION REDUCTIONde DIMENSIONNALITE
classe 1
classe 2
classe 3
P.M. Bousquet (CERI) Cours U.E. Data Analytics 2 / 19
Interet de la demarche (a quoi ca sert ?)
r = 1 :
VarLandesGironde
SuèdeFranceThaïlande
SILICON GRAPHICS INC
A D C TELECOMMUNICAT
APPLIED DIGITAL ACCE
TEKELEC
MANUGISTICS GROUP INC
CYPRESS SEMICONDUCTOR
NETWORK GENERAL CORP
NOVADIGM INC
Score de santé financière(solvabilité, performance ...)
Indice de développement socio-économique
Indice de délinquance
0/5 5/5
Détermination des migrationspréhistoriques par la génétique(Lucas Cavalli-Sforza)
P.M. Bousquet (CERI) Cours U.E. Data Analytics 3 / 19
Interet de la demarche
r ≤ 3 : Data visualization ...
P.M. Bousquet (CERI) Cours U.E. Data Analytics 4 / 19
Interet de la demarche
r quelconque (1, 2, 3 ou +) : Trouver les causes principales de variabilite ...
P.M. Bousquet (CERI) Cours U.E. Data Analytics 5 / 19
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees
R G Bpixel 1
R G Bpixel 64
bloc 8 x 8 pixels
.................................. 3 x 8 x 8 = 192 (= p)
........ 15 (= r)- Taux de compression 92 %- 98% de la dispersion (information) initiale
P.M. Bousquet (CERI) Cours U.E. Data Analytics 6 / 19
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees
Compression Décompression100%8%
P.M. Bousquet (CERI) Cours U.E. Data Analytics 7 / 19
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... “Debruitage”
P.M. Bousquet (CERI) Cours U.E. Data Analytics 8 / 19
Pourquoi ca marche ?
Matrice des correlations
100m Longueur Poids Hauteur 400m 110m.haies Disque Perche Javelot 1500m
100m 1.00 -0.70 -0.37 -0.31 0.63 0.54 -0.23 -0.26 -0.01 0.06
Longueur -0.70 1.00 0.20 0.35 -0.67 -0.54 0.25 0.29 0.09 -0.15
Poids -0.37 0.20 1.00 0.61 -0.20 -0.25 0.67 0.02 0.38 0.13
Hauteur -0.31 0.35 0.61 1.00 -0.17 -0.33 0.52 -0.04 0.20 0.00
400m 0.63 -0.67 -0.20 -0.17 1.00 0.52 -0.14 -0.12 -0.05 0.55
110m.haies 0.54 -0.54 -0.25 -0.33 0.52 1.00 -0.22 -0.15 -0.08 0.18
Disque -0.23 0.25 0.67 0.52 -0.14 -0.22 1.00 -0.18 0.25 0.22
Perche -0.26 0.29 0.02 -0.04 -0.12 -0.15 -0.18 1.00 -0.07 0.18
Javelot -0.01 0.09 0.38 0.20 -0.05 -0.08 0.25 -0.07 1.00 -0.25
1500m 0.06 -0.15 0.13 0.00 0.55 0.18 0.22 0.18 -0.25 1.00
P.M. Bousquet (CERI) Cours U.E. Data Analytics 9 / 19
La solution ACP (1)
Projection orthogonale
P.M. Bousquet (CERI) Cours U.E. Data Analytics 10 / 19
La solution ACP (1)
Comment choisir le meilleur sous-espace de projection ?
P.M. Bousquet (CERI) Cours U.E. Data Analytics 11 / 19
La solution ACP (2)
P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19
Information (de comparaison entre les individus)=
variance (dispersion)
ABCD
age
32323232
nbenfants
1111
revenu
2000200020002000
Informations Informationsde comparaisonentre les individus ? aucune ...
<=> Variance = 0
La solution ACP (2)
P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19
Information (de comparaison entre les individus)=
variance (dispersion)
Variance(dispersion)
+
Variance(dispersion)
-
−4 −2 0 2 4
−3
−2
−1
01
23
V1
V2 0.5
0.65
0.77
0.84
0.850.81
0.710.570.430.290.19
0.15
0.16
0.23
0.35
0.5
La solution ACP (2)
P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19
Objectif :trouver les axes qui maximisent
la variance des projetes.
Variance(dispersion)
+
Variance(dispersion)
-
−4 −2 0 2 4
−3
−2
−1
01
23
V1
V2 0.5
0.65
0.77
0.84
0.850.81
0.710.570.430.290.19
0.15
0.16
0.23
0.35
0.5
La solution ACP (2)
P.M. Bousquet (CERI) Cours U.E. Data Analytics 13 / 19
Objectif : trouver les axes qui maximisent la variance des projetes.
Solution : SVD (Decomposition en valeurs spectrales) de la matrice descorrelations.Les meilleurs axes sont les vecteurs propres de la matrice des correlations dans l’ordre decroissant des valeurs
propres. Les donnees sont projetees sur le sous-espace dont ils constituent une base. Les variances successives
des projetes sur leurs axes sont egales aux valeurs propres de cette matrice.
3 2 1 0 1 2
32
1V
2
3 2 1 0 1 2
32
1
V2
v1, v2 vecteurs propres λ1, λ2 valeurs propres
SVD ... λ2v2
λ1v1
Un exemple de DRT : Principal Component Analysis PCA
cp1 : rouge - cp2 : orange - cp3 : jaune
P.M. Bousquet (CERI) Cours U.E. Data Analytics 14 / 19
Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP
pn
...p
matrice descorrélations
pr
p
r premiersvecteurs propres
...... ... ... ......
Jeu de donnéesvectoriel
... La cléde l'extraction
de connaissances ...
P.M. Bousquet (CERI) Cours U.E. Data Analytics 15 / 19
Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP
P.M. Bousquet (CERI) Cours U.E. Data Analytics 16 / 19
Graphe des contributions
Le graphe des contributions affiche les variances des composantes principales.Comment choisir le nombre de composantes a retenir ?
2.69 1.77 0.89 0.45 0.14 0.05
0.0
1.0
2.0
45 %
30 %
15 %7 %
2 % 1 %
CP1
CP2
CP3CP4
CP5 CP60.0
1.0
2.0
V1 V2 V3 V4 V5 V6
11 1 1 1 1
Deux composantes principales de variancesignificativement supérieure à 1 ....donc plus informatives que les variables initiales.
Ce sont donc des super-variables.
Après centrage-réduction, toutes les variables initiales ont une variance de 1.
Propriete : les composantes principales sont statistiquement independantes.
Ici, les deux premieres C.P. conservent (... “resument” ...) 45 + 30 = 75% de l’information initiale.
P.M. Bousquet (CERI) Cours U.E. Data Analytics 17 / 19
Expliquer les composantes principales
Les “super-variables” des composantes principales ont un sens par rapport auxvariables initiales. Comment les “expliquer” par rapport a ces variables ?
Tableau des correlations entre variables initiales et composantes principales
positives > 0.70négatives < 0.70
cp1
V2 +V3 +V4 -V6 -
V2 -V3 -V4 +V6 +
Corrélations retenues :
cp1 cp2 cp3 cp4 cp5 cp6V1 -0.06 0.85 -0.44 0.17 -0.21 0.01V2 0.77 -0.50 -0.37 0.00 -0.03 0.16V3 0.84 -0.37 -0.36 0.07 -0.02 -0.16V4 -0.71 -0.49 -0.22 -0.41 -0.18 -0.02V5 0.56 0.65 -0.11 -0.49 0.11 0.00V6 -0.76 -0.04 -0.61 0.08 0.23 0.00
Individus àforts V2, V3et faibles V4, V6
Individus àfaibles V2, V3et forts V4, V6
P.M. Bousquet (CERI) Cours U.E. Data Analytics 18 / 19