l’ a nalyse en c omposantes p rincipales: a.c.p. ou carte perceptuelle ou mapping
DESCRIPTION
L’ A nalyse en C omposantes P rincipales: A.C.P. ou carte perceptuelle ou mapping. - PowerPoint PPT PresentationTRANSCRIPT
1
L’Analyse en Composantes Principales: A.C.P. ou carte perceptuelle ou mapping.
2
Réaliser une analyse en composantes principales c’est représenter dans un espace de dimension faible par exemple 2 une information dont on dispose dans un espace de dimension élevée n ou p avec l’objectif de restituer dans cette opération une quantité d’information maximale par rapport à l’information disponible dans le fichier de base.
3
Individus Poids Taille Age Note
1 45 150 13 14
2 50 160 13 15
3 50 165 13 16
4 60 175 15 9
5 60 170 14 10
6 60 170 14 7
7 70 160 14 8
8 65 160 13 13
9 60 155 15 17
10 65 170 14 11
Individus Axe 1? Axe 2?
1 -1,62 -0,20
2 -1,09 -0,52
3 -0,98 -0,72
4 1,27 0,09
5 0,67 -0,46
6 0,90 -0,90
7 0,81 0,35
8 -0,26 -0,16
9 -0,34 2,63
10 0,71 -0,10
Par exemple, du fichier disponible ( tableau 1), on déduira les coordonnées des individus dans un espace de dimension deux (tableau 2)
Tableau1 Tableau2
Quantité d’information?
4
Individus Axe 1 Axe 2
1 -1,62 -0,20
2 -1,09 -0,52
3 -0,98 -0,72
4 1,27 0,09
5 0,67 -0,46
6 0,90 -0,90
7 0,81 0,35
8 -0,26 -0,16
9 -0,34 2,63
10 0,71 -0,10 -1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
-2 -1,5 -1 -0,5 0 0,5 1 1,512
3
810
5
6
47
9
Tableau2 Graphe 1
Quantité d’information restituée?
5
Individus Axe 1 Axe 2 Axe 3
1 -1,62 -0,20 -0,17
2 -1,09 -0,52 0,30
3 -0,98 -0,72 0,86
4 1,27 0,09 1,48
5 0,67 -0,46 0,37
6 0,90 -0,90 0,07
7 0,81 0,35 -1,81
8 -0,26 -0,16 -1,51
9 -0,34 2,63 0,46
10 0,71 -0,10 -0,06
Axe 2
Peut-on améliorer l’image?
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2 -1,5 -1 -0,5 0 0,5 1 1,5
3
2
1
9
4
5
8
6
10
7
Axe 1
Axe 3
Axe 2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
-2 -1,5 -1 -0,5 0 0,5 1 1,512
3
810
5
6
47
9
Axe 1
Axe 2
1
6
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
3
652
4
9
7
8
1
10
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2 -1,5 -1 -0,5 0 0,5 1 1,5
3
2
1
9
4
5
8
6
10
7
Axe 1
Axe 3
Axe 2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
-2 -1,5 -1 -0,5 0 0,5 1 1,512
3
810
5
6
47
9
Axe 1
Axe 2
Axe 2
Axe 3
6
7
. 1
. 2
. 3
. 9
. 8
. 7
. 6. 10
. 5
. 4
Axe 1
Axe 3
Axe 2
8
pjj
nnpnjn
iipiji
pj
ipj
NNNN
Mxxxn
Mxxxi
Mxxx
MXXX
1
1
1
11111
1
1
nàdeieioùmM ii 1var, N f où j iede à pj j, var 1
11. Du tableau de base
on déduit l’un des deux nuages possibles, individus ou variables.
12. On détermine ensuite l’inertie I, c’est-à-dire la dispersion du nuage par rapport à son centre de gravité.
1. Le schéma de travail:
9
IndividusAxe
1Axe
2
M’1
…
M’i
…
M’n
Ceci constitue un nouveau nuage de points
pour lequel on détermine l’inertie I’. On compare I’ avec I. Si le ratio est bon, on peut conserver l’image.
màdeieioùmM ii 1var,'
. M’1
. M’i
. M’n
13. Réaliser une A.C.P. c’est déterminer un espace de dimension faible dans lequel le nuage choisi sera projeté orthogonalement.
. M’1
. M’i
10
Fichier de base:individus i de poids
respectifs mi
Espace de dimension élevée dans lequel les
individus sont représentés par des
points Mi. axe factoriel 1
Inertie I'Inertie I
A. C.P réalisée de telle sorte que le ratio
I'/I soit le plus élevé possible.
Analyse et retour sur étude.
11
2. L’inertie
La forme mathématique de l’inertie est la suivante:
Lorsque les variables sont centrées, c’est-à-dire lorsqu’à chaque valeur on a enlevé la valeur moyenne, l’inertie est égale à la somme des variances des variables que l’on soumet à l’analyse. A ce titre l’inertie est une généralisation de la notion de variance.
Lorsque les points représentant les individus sont proches du centre de gravité, l’inertie est faible. Lorsque l’inertie est faible, les points sont proches du centre de gravité et il n’y a pas lieu de stratifier.
2
1i
ni
ii GMmI
pj
jjXVI
1
12
Lorsque les variables sont centrées et réduites, c’est-à-dire lorsque on a divisé chacune des valeurs centrées par l’écart type, l’inertie est égale au nombre de variables que l’on soumet à l’étude soit p.
13
3. Matrice d’inertie
La réalisation d’une ACP est construite sur les qualités d’une matrice qui porte le nom de matrice d’inertie. Celle-ci est définie de la manière suivante:
'
1ii
ni
ii GMGMmM
Chaque produit s’exprime par la relation:'ii GMGM
21
22212
12121
'
ipiip
ipiiii
ipiiii
ii
xxx
xxxxx
xxxxx
GMGM
et la matrice d’inertie par la relation:
14
piip
ni
ii
ipi
ni
iiii
ni
ii
ipi
ni
iiii
ni
ii
ip
ni
iiiip
ni
ii
ipi
ni
iii
ni
iiii
ni
ii
ipi
ni
iiii
ni
iii
ni
ii
ipiip
ipiiii
ipiiii
ni
ii
ii
ni
ii
XVxxm
xxmXVxxm
xxmxxmXV
xmxxm
xxmxmxxm
xxmxxmxm
xxx
xxxxx
xxxxx
m
GMGMm
11
21
2121
11
211
1
2
11
1
21
22
112
1
11
211
21
1
21
22212
12121
1
'
1
15
31. Nous constatons que la trace de cette matrice, c’est-à-dire la somme de ses éléments diagonaux est égale à l’inertie de système.
Ainsi, avons-nous la possibilité de caractériser la dispersion du nuage par les valeurs propres d’une matrice. En effet la trace est un invariant égal à la somme des valeurs propres.
p
jj
p
jjij
pj
j
ni
ii IXVxmMTr
11
2
1 1
Parce que l’inertie est identifiée aux valeurs propres d’une matrice, il est normal de sélectionner les plus importantes pour conserver au mieux l’information. Rangeons celles-ci par ordre décroissant et sélectionnons les plus fortes.
p 21
Le taux de restitution de l’information dans un plan est donné par:
10021
j
16
32. Lorsque l’analyste juge que ce taux est correct, il peut représenter son nuage en dimension 2. Le plan de projection est engendré par deux vecteurs propres associés aux deux plus grandes valeurs propres. Soit à résoudre les équations:
jjj
j
uMu
u
0
j variant de 1 à 2
On se posera la question du type de repère:
• orthonormé;
• orthogonal;
• normé;
• quelconque
17
33. Les diverses projections
Lorsque le plan est défini, il reste à donner les divers coordonnées. Pour cela, on utilise les relations:
• abscisse
• ordonnée
1' uGM ii
2' uGM ii
et chaque individu sera représenté dans le plan par le point
de coordonnées:
2
1'
iM
'iM
18
Quelques éléments supplémentaires.
1. Que faire des valeurs manquantes ou des non réponses?
Il est fréquent de constater que certains fichiers sont incomplets: information non disponibles, non réponses, fichier non actualisé…Pour compenser le manque d’information, on peut choisir entre plusieurs options: insérer une valeur neutre, recomposer l’information, supprimer toute la ligne ou la colonne correspondante.
19
2. Donner un sens aux axes
Il est possible d’étudier la corrélation entre les axes et les diverses variables qui participent à l’analyse. Une corrélation forte donne à la variable considérée un pouvoir explicatif fort.
3. Utilisation d’un marqueur
Il s’agit d’individus qui ne participent pas à l’analyse; mais qui seront représentés. Ils sont connus pour leurs qualités.
20
4. Projections des variables
Le nuage des individus et le nuage des variables sont deux représentations différentes d’un même tableau. Ainsi, des relations très fortes lient ces deux nuages.
Les relations de transition, c’est-à-dire les relations de passage d’un nuage projeté à l’autre sont données ci-après:
iprxx
X
Xprxx
i
u
ni
i j
jij
u
j
ju
pj
j j
jij
u
u
u
121
121
1Pr
1Pr
21
4. Exemple
On interroge des chefs de service sur les qualités:
• X1: technicité;
• X2: polyvalence;
• X3: créativité
que possèdent ou non leurs collaborateurs. Les réponses sont données sur une échelle de valeurs comprises entre 0 et 4. Les résultats sont présentés dans le tableau suivant:
22
Individus Technicité Polyvalence Créativité
1 3 4 4
2 1 0 0
3 2 0 0
4 3 2 4
5 2 0 4
6 1 2 0
7 2 2 0
8 1 2 4
9 2 4 4
10 1 0 4
11 2 2 4
12 2 4 0
13 3 4 0
14 3 2 0
Réaliser une A.C.P d’ordre 2 du nuage des individus.
23
Points représentant les individus Vecteurs Technicité Polyvalence Créativité
M1 GM1 1 2 2
M2 GM2 -1 -2 -2
M3 GM3 0 -2 -2
M4 GM4 1 0 2
M5 GM5 0 -2 2
M6 GM6 -1 0 -2
M7 GM7 0 0 -2
M8 GM8 -1 0 2
M9 GM9 0 2 2
M10 GM10 -1 -2 2
M11 GM11 0 0 2
M12 GM12 0 2 -2
M13 GM13 1 2 -2
M14 GM14 1 0 -2
G 0 0 0
24
Si à chaque individu on accorde le même poids égal à 1/14, l’inertie est égale à:
14
96
14
1321
14
1
'14
1
'
XVXVXVGMGMGMGMmIi
iii
i
iiii
Par exemple dans ce calcul, la variance de la première variable est égale à 8 / 14, alors que la variable numéro deux a une variance égale à 32 / 14 et que la variable numéro trois à une variance égale à 4.
C’est ce nombre qu’il faut essayer de restituer.
25
Lorsque l’on sélectionne ACP dans un logiciel, on demande de sélectionner le meilleur plan de projection.
Celui-ci est dirigé par 2 vecteurs appelés vecteurs propres de la matrice d’inertie associés aux deux plus grandes valeurs propres de la même matrice. ( Il faut noter que dans l’opération, on a réussi à identifier la quantité d’information aux valeurs propres d’une matrice).
La matrice d’inertie est donc la matrice de référence de l’Analyse en Composantes Principales.
Lorsque les valeurs sont centrées, la matrice d’inertie est la matrice des variances/covariances;
Lorsque les valeurs sont centrées et réduites, la matrice est la matrice des corrélations.
La somme des éléments diagonaux de cette matrice est égale à l’inertie.
26
Dans notre exemple, cette matrice est égale à:
5600
0328
088
14
1
Les valeurs propres s’obtiennent par différentes méthodes. Ici, elles sont égales à:
4,046,24 321
On note que
86,6321321 XVXVXVI
27
Le taux de restitution de l’information est égal à:
%17,94100321
21
Cela signifie que l’image de dimension deux que l’on va voir représente bien le nuage de points.
Si le taux de restitution est insuffisant, on ajoute un axe ou on réduit le nombre de variables que l’on soumet à l ’analyse. Nous comprenons mieux la nécessité d’étudier les diverses corrélations entre les variables.
28
%17,94
Axe 1: 58,3 %
Axe 2: 35,9 %
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Créativité
Polyvalence et
technicité
Axe 1 Axe 2
2 2,11
-2 -2,11
-2 -1,92
2 0,19
2 -1,92
-2 -0,19
-2 0
2 -0,19
2 1,92
2 -2,11
2 0
-2 1,92
-2 2,11
-2 0,19
29
Axe 1
Axe 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Excellent collaborateur: référence
30
Vecteurs Technicité Polyvalence Créativité Facteur 1 Facteur 2
GM1 1 2 2 2 2,11
GM2 -1 -2 -2 -2 -2,11
GM3 0 -2 -2 -2 -1,92
GM4 1 0 2 2 0,19
GM5 0 -2 2 2 -1,92
GM6 -1 0 -2 -2 -0,19
GM7 0 0 -2 -2 0
GM8 -1 0 2 2 -0,19
GM9 0 2 2 2 1,92
GM10 -1 -2 2 2 -2,11
GM11 0 0 2 2 0
GM12 0 2 -2 -2 1,92
GM13 1 2 -2 -2 2,11
GM14 1 0 -2 -2 0,19
Pour donner un sens aux deux axes, on peut utiliser la corrélation:
31
Corrélations Technicité Polyvalence Créativité
Variables / axe 1 0 0 1
Variables / axe 2 0,57 0,996 0
32
E 1. On donne le tableau suivant représentant les notations réalisées ( sur des échelles de valeurs de 0 à 7) par des acheteurs de 15 voitures de toutes marques et de tous types à propos de 3 variables : confort, ligne, puissance.
Sachant que chaque individu interrogé a un poids égal à 1/15 réaliser l’analyse en composantes principales d’ordre 2 du nuage des individus.
Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Confort 3 2 3 2 4 4 2 3 4 2 3 3 1 4 5
Ligne 1 0 0 4 1 5 6 7 0 2 5 3 3 6 3
Puissance 3 3 3 5 5 5 7 7 3 5 7 5 5 7 5
33
Code individus
Confort Ligne Puissance Axe 1 Axe 2
1 0 -2,07 -2 -2,81 0
2 -1 -3,07 -2 -3,66 -1
3 0 -3,07 -2 -3,66 0
4 -1 0,93 0 0,80 -1
5 1 -2,07 0 -1,76 1
6 1 1,93 0 1,65 1
7 -1 2,93 2 3,55 -1
8 0 3,93 2 4,40 0
9 1 -3,07 -2 -3,66 1
10 -1 -1,07 0 -0,91 -1
11 0 1,93 2 2,69 0
12 0 -0,07 0 -0,06 0
13 -2 -0,07 0 -0,06 -2
14 1 2,93 2 3,55 1
15 2 -0,07 0 -0,06 2
34
1,067 0 0
0 5,262 3,067
0 3,067 2,133
Corrélations variables / axe 1 0 0,99 0,96
Corrélations variables / axe 2 1 - 0 0
La matrice des variances / covariances est données ci-après
La matrice des corrélations des variables et des axes factoriels est donnée ci-après
35
E2. Étude de la comparaison de pays d’un point de vue économique (statistiques anciennes; mais intéressantes).
Les 18 variables prises en compte sont:
X1: La population totale en milliers d’habitants;
X2: La densité au km²;
X3: Le taux d’accroissement total de la population;
X4: % d’actifs dans l’agriculture, la sylviculture et la pêche;
X5: % d’actifs dans l’industrie;
X6: Produit National Brut en dollars par habitant;
X7: % du P.I.B. en agriculture;
X8: Formation brute du capital fixe en % du P.N.B.;
X9: Recettes courantes en % du P.N.B.
36
X10: Réserves officielles (en millions de dollars);
X11: Le taux d’escompte officiel;
X12: Importations marchandises totales (en millions de dollars);
X13: Exportations marchandises totales ( en millions de dollars);
X14: Calories par habitant et par jour;
X15: Nombre de logements achevés pour 1000 habitants;
X16: consommation d’électricité en kwh par habitant et par an;
X17: Dépenses publiques d’éducation en % du P.N.B.;
X18: Nombre de T.V. pour 1000 habitants.
37
pays X1 X2 X3*100 X4*100 X5*100 X6 X7*100 X8*100 X9*100
D 60848 245 105 960 4910 2520 360 2440 3790
A 7373 88 50 1910 3990 1690 700 2320 3750
B 9984 332 60 540 4480 2353 540 2310 3510
CDN 21089 2 185 820 3230 3460 590 2170 3520
DK 4893 114 75 1190 3850 2860 890 2200 3710
E 32949 65 95 3470 3710 870 1500 2200 2240
USA 203213 22 135 460 3370 4660 290 1670 3150
SF 4706 14 70 2450 3460 1940 1470 2300 3590
F 50325 91 105 1510 4060 2770 600 2540 3010
GR 8866 67 70 4820 2250 950 2030 2970 2690
SE 2921 42 25 2840 2970 1040 1970 1990 3070
I 54123 180 85 2150 4370 1520 1130 2050 3330
JAP 102380 277 105 1880 3500 1630 870 3520 2120
NL 12873 352 125 750 4130 2190 700 2550 4190
pays 9583 105 90 3150 3550 600 1770 1840 2400
RUN 55643 228 65 290 4680 1970 300 1730 3900
S 7969 18 70 880 4040 3230 590 2360 4810
38
X10 X11*100 X12 X13 X14 X15*100 X16 X17*100 X18
10940 650 24926 29052 2990 860 3322 340 231
1563 500 2825 2412 2990 660 2647 440 134
2406 700 9984 10069 3150 500 2814 530 184
3846 600 13137 13754 3160 820 8199 570 279
384 900 3800 2958 3180 900 2413 600 244
1512 650 4233 199 2750 640 1245 210 84
12305 575 36052 37988 3210 770 7013 510 392
379 600 2023 1985 2900 790 3836 630 193
4617 750 17392 15020 3160 820 2407 480 185
290 650 1594 554 2910 1010 823 240 9
694 731 1413 891 3450 400 1577 420 111
4642 550 12450 11729 2940 510 1810 580 146
3072 600 15024 15990 2460 1190 2734 450 190
2621 600 10991 9965 3240 970 2565 670 197
1442 350 1231 823 2930 430 607 140 29
2469 700 19956 17515 3190 770 3680 420 253
506 700 5899 5698 2750 1340 6803 740 288
39
Réaliser une ACP du nuage des individus en utilisant deux axes.
Définir, à partir de l’A.C.P., une typologie pour laquelle on étudiera l’homogénéité des groupes.
40
Paramétrage de l’ACP avec Paramétrage de l’ACP avec SPSSSPSS
41
42
Sélectionner les variables dans la fenêtre de gauche et valider votre choix par la flèche centrale
Sélectionner maintenant chaque fonction pour définir les paramètres de l’ACP
43
Espérance et variance de chaque variable
Matrice des corrélations
Tests de validité de l’ACP
44
Méthode d’extraction
ACP normée ou non normée
Graphique des valeurs propres
Sélection des facteurs : valeur propre supérieure à 1 ou nombre de facteurs
45
Sélectionner
46
Enregistrement des coordonnées des individus sur les axes factoriels.On utilisera ces coordonnées pour représenter graphiquement les individus