r eduction de dimensionnalit e un exemple de m ethode : l ...€¦ · r eduction de dimensionnalit...

Reduction de dimensionnalite

Un exemple de methode :l’Analyse en Composantes Principales (ACP)

Principal Component Analysis (PCA)

P.M. Bousquet

CERI

P.M. Bousquet (CERI) Cours U.E. Data Analytics 1 / 19

Problematique

pvariables

nindividus

X =

..........

r"super-"variables

nindividus

X' =

..........

(composantesprincipales)

CLASSIFICATION REDUCTIONde DIMENSIONNALITE

classe 1

classe 2

classe 3


Interet de la demarche (a quoi ca sert ?)

r = 1 :

VarLandesGironde

SuèdeFranceThaïlande

SILICON GRAPHICS INC

A D C TELECOMMUNICAT

APPLIED DIGITAL ACCE

TEKELEC

MANUGISTICS GROUP INC

CYPRESS SEMICONDUCTOR

NETWORK GENERAL CORP

NOVADIGM INC

Score de santé financière(solvabilité, performance ...)

Indice de développement socio-économique

Indice de délinquance

0/5 5/5

Détermination des migrationspréhistoriques par la génétique(Lucas Cavalli-Sforza)


Interet de la demarche

r ≤ 3 : Data visualization ...



r quelconque (1, 2, 3 ou +) : Trouver les causes principales de variabilite ...



r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

R G Bpixel 1

R G Bpixel 64

bloc 8 x 8 pixels

.................................. 3 x 8 x 8 = 192 (= p)

........ 15 (= r)- Taux de compression 92 %- 98% de la dispersion (information) initiale



r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

Compression Décompression100%8%



r quelconque (1, 2, 3 ou +) : mais aussi ... “Debruitage”


Pourquoi ca marche ?

Matrice des correlations

100m Longueur Poids Hauteur 400m 110m.haies Disque Perche Javelot 1500m

100m 1.00 -0.70 -0.37 -0.31 0.63 0.54 -0.23 -0.26 -0.01 0.06

Longueur -0.70 1.00 0.20 0.35 -0.67 -0.54 0.25 0.29 0.09 -0.15

Poids -0.37 0.20 1.00 0.61 -0.20 -0.25 0.67 0.02 0.38 0.13

Hauteur -0.31 0.35 0.61 1.00 -0.17 -0.33 0.52 -0.04 0.20 0.00

400m 0.63 -0.67 -0.20 -0.17 1.00 0.52 -0.14 -0.12 -0.05 0.55

110m.haies 0.54 -0.54 -0.25 -0.33 0.52 1.00 -0.22 -0.15 -0.08 0.18

Disque -0.23 0.25 0.67 0.52 -0.14 -0.22 1.00 -0.18 0.25 0.22

Perche -0.26 0.29 0.02 -0.04 -0.12 -0.15 -0.18 1.00 -0.07 0.18

Javelot -0.01 0.09 0.38 0.20 -0.05 -0.08 0.25 -0.07 1.00 -0.25

1500m 0.06 -0.15 0.13 0.00 0.55 0.18 0.22 0.18 -0.25 1.00


La solution ACP (1)

Projection orthogonale


La solution ACP (1)

Comment choisir le meilleur sous-espace de projection ?


La solution ACP (2)


Information (de comparaison entre les individus)=

variance (dispersion)

ABCD

age

32323232

nbenfants

1111

revenu

2000200020002000

Informations Informationsde comparaisonentre les individus ? aucune ...

<=> Variance = 0

La solution ACP (2)


Information (de comparaison entre les individus)=

variance (dispersion)

Variance(dispersion)

+


-

−4 −2 0 2 4

−3

−2

−1

01

23

V1

V2 0.5

0.65

0.77

0.84

0.850.81

0.710.570.430.290.19

0.15

0.16

0.23

0.35

0.5

La solution ACP (2)


Objectif :trouver les axes qui maximisent

la variance des projetes.


+


-

−4 −2 0 2 4

−3

−2

−1

01

23

V1

V2 0.5

0.65

0.77

0.84

0.850.81

0.710.570.430.290.19

0.15

0.16

0.23

0.35

0.5

La solution ACP (2)


Objectif : trouver les axes qui maximisent la variance des projetes.

Solution : SVD (Decomposition en valeurs spectrales) de la matrice descorrelations.Les meilleurs axes sont les vecteurs propres de la matrice des correlations dans l’ordre decroissant des valeurs

propres. Les donnees sont projetees sur le sous-espace dont ils constituent une base. Les variances successives

des projetes sur leurs axes sont egales aux valeurs propres de cette matrice.

3 2 1 0 1 2

32

1V

2

3 2 1 0 1 2

32

1

V2

v1, v2 vecteurs propres λ1, λ2 valeurs propres

SVD ... λ2v2

λ1v1

Un exemple de DRT : Principal Component Analysis PCA

cp1 : rouge - cp2 : orange - cp3 : jaune


Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP

pn

...p

matrice descorrélations

pr

p

r premiersvecteurs propres

...... ... ... ......

Jeu de donnéesvectoriel

... La cléde l'extraction

de connaissances ...


Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP


Graphe des contributions

Le graphe des contributions affiche les variances des composantes principales.Comment choisir le nombre de composantes a retenir ?

2.69 1.77 0.89 0.45 0.14 0.05

0.0

1.0

2.0

45 %

30 %

15 %7 %

2 % 1 %

CP1

CP2

CP3CP4

CP5 CP60.0

1.0

2.0

V1 V2 V3 V4 V5 V6

11 1 1 1 1

Deux composantes principales de variancesignificativement supérieure à 1 ....donc plus informatives que les variables initiales.

Ce sont donc des super-variables.

Après centrage-réduction, toutes les variables initiales ont une variance de 1.

Propriete : les composantes principales sont statistiquement independantes.

Ici, les deux premieres C.P. conservent (... “resument” ...) 45 + 30 = 75% de l’information initiale.


Expliquer les composantes principales

Les “super-variables” des composantes principales ont un sens par rapport auxvariables initiales. Comment les “expliquer” par rapport a ces variables ?

Tableau des correlations entre variables initiales et composantes principales

positives > 0.70négatives < 0.70

cp1

V2 +V3 +V4 -V6 -

V2 -V3 -V4 +V6 +

Corrélations retenues :

cp1 cp2 cp3 cp4 cp5 cp6V1 -0.06 0.85 -0.44 0.17 -0.21 0.01V2 0.77 -0.50 -0.37 0.00 -0.03 0.16V3 0.84 -0.37 -0.36 0.07 -0.02 -0.16V4 -0.71 -0.49 -0.22 -0.41 -0.18 -0.02V5 0.56 0.65 -0.11 -0.49 0.11 0.00V6 -0.76 -0.04 -0.61 0.08 0.23 0.00

Individus àforts V2, V3et faibles V4, V6

Individus àfaibles V2, V3et forts V4, V6


r eduction de dimensionnalit e un exemple de m ethode : l ...€¦ · r eduction de dimensionnalit...

Documents