les méthodes pls michel tenenhaus [email protected]

200
Les Méthodes PLS Les Méthodes PLS Michel Tenenhaus Michel Tenenhaus [email protected] [email protected]

Upload: zacharie-lecoq

Post on 03-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

Les Méthodes PLSLes Méthodes PLS

Michel TenenhausMichel [email protected]@hec.fr

Page 2: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

2/198

Les méthodes PLSinitiées par Herman et Svante Wold

I. NIPALS (Nonlinear Iterative Partial Least Squares)

II. Régression PLS (Partial Least Squares Regression)

III. Analyse discriminante PLSIV. SIMCA (Soft Independent Modelling by Class Analogy)

V. PLS Path Modelling (Modélisation de relations structurelles

sur variables latentes)

VI. Régression logistique PLS

VII. Régression linéaire généralisée PLS

Page 3: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

3/198

Page 4: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

4/198

Les méthodes PLS

I. NIPALS (Nonlinear Iterative Partial Least Squares)

Page 5: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

5/198

Le mont NIPALS

Page 6: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

6/198

Le mont NIPALS

Page 7: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

7/198

La méthode NIPALS Analyse en composantes principales

• Possibilité de données manquantes.

• Validation croisée pour choisir le nombre de composantes.

• Identification des outliers avec

- une carte de contrôle des observations,

- des tests sur les écarts au modèle de l’ACP.

Page 8: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

8/198

Utilisation de NIPALS :Exemple voitures

ModèleCylindréePuissanceVitessePoidsLongueurLargeurHonda Civic. 90174850369166Renault 191721. 180965415169Fiat Tipo158083. 970395170

Citroën AX Sport129495184730350.

Il y a une observation manquante par modèle !!!

Page 9: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

9/198

Le principe de NIPALS

Comment projeter un point avec données

manquantes ?

Page 10: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

10/198

**

*

*

*

*

**

xi

ti

xi

u

u

ii

i

x 'ut = =pente de la droite des moindres

u'ucarrés sans constante de x sur u.

0

oo

o

o o

o

Projection sur un axe

Page 11: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

11/198

**

*

*

*

*

**

xi

ti

xi

u

u

ii

x 'uS'il y a des données manquantes t =

u'uest calculé sur les données disponibles.

0

oo

o

oo

o

Valeur manquante

Projection d’un point avec données manquantes sur un axe

Page 12: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

12/198

L ’algorithme NIPALSRecherche des composantes principales

Données :

X = {xij} tableau nk ,

xj = variable j

xi = observation i

Modèle de l ’ACP :

X = t1p1´ + … + tkpk´

avec (1) p1, … , pk orthonorméset (2) t1, … , tk orthogonaux

Page 13: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

13/198

L ’algorithme NIPALSRecherche de la première composante principale

• Modèle : X = t1p1´ + résidu, avec p1 normé

• Algorithme : les équations de base

(1) Si t1 connu, calcul de p1j par régression simple :

xj = p1jt1 + résidu

(2) Normalisation de p1 = (p11,…,p1k)

(3) Si p1 connu, calcul de t1i par régression simple :

xi = t1ip1 + résidu

• Algorithme : fonctionnement- Prendre t1 = x1 , puis itérer sur (1), (2), (3).

- Si données manquantes, faire les calculs sur toutes les données disponibles.

Page 14: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

14/198

L ’algorithme NIPALSRecherche des autres composantes principales

• La première étape donne :

X = t1p1 + X1

• On répète les opérations précédentes sur la matrice

des résidus X1 de la régression de X sur t1.

• On obtient : X1 = t2p2 + X2

et X = t1p1 + t2p2

+ X2

• On obtient de même les autres composantes.

Page 15: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

15/198

Voir XVarPredet « * »

RESSh et PRESSh

Residual Sum of Squares : 2ij

j,iijh )xx(RESS

Les cases de X sont partagées en G groupes, et on réalise G factorisationsen enlevant à chaque fois un seul des groupes.

Predicted Residual Sum of Squares :

2)ij(

j,iijh )xx(PRESS

où est calculé dans l’analyse réalisée sans le groupecontenant la case (i,j).

)ij (x

A chaque étape on étudie la reconstitution du tableau X :

'hh

'22

'11 pt...ptptX

Ress = pouvoirexplicatif

Press = pouvoir predictif

Page 16: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

16/198

L ’algorithme NIPALSChoix du nombre de composantes

• La composante th est retenue selon la règle R1 si

limiteRESS

PRESS1Q

1h

h2

Cette règle conduit à des composantes globalement significatives.

• On choisit le nombre de composantes principales

par validation croisée.

Page 17: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

17/198

Q2(cum) et R2(validation croisée)

CONSEIL : Modèle à h composantes acceptable si [Q2cum]h > 0.5

La composante h est retenue si :

122 ][ àsupérieur nettement est ][ hcumhcum QQ

h

a a

ahcum RESS

PRESSQ

1 1

2 1][

peu différent de

2 hvalidation croisée p n

2ji j

j 1 i 1

PRESSR 1

(x x )

Quel est l’avantagedu Q2(Cum) surle R2(VC) ?

Page 18: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

18/198

Utilisation de NIPALS :Exemple voitures

La validation croisée conduit à deux composantes globalementsignificatives (critère R1).

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

Co

mp

[1]

Co

mp

[2]

Co

mp

[3]

Co

mp

[4]

Comp No.

Auto88b.M1 (PCA-X), Untitled R2X(cum)Q2(cum)

SIMCA-P 10.5 - 04/05/2004 10:31:16

Page 19: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

19/198

NIPALS : Exemple Voitures

Cercle des corrélations

Page 20: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

20/198

NIPALS : Exemple VoituresCarte des voitures (les 2 premières "composantes principales")

-2

-1

0

1

2

-5 -4 -3 -2 -1 0 1 2 3 4 5

t[2]

t[1]

Ellipse: Hotelling T2 (0.925)

honda civic

renault 19

fiat tiporenault 21

citroen bx

bmw 530irover 827i

renault 25

opel omega

peugeot 405b

ford sierra

bmw 325ix

audi 90 quattro

ford scorpio

renault espace

nissan vanettevw caravelle

ford fiesta

fiat uno

peugeot 205

peugeot 205rallye

seat ibiza sport

citroen ax sport

SIMCA-P 10.5 - 04/05/2004 11:17:34

peugeot 405

Page 21: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

21/198

-1.0

-0.8

-0.6

-0.4

-0.2

-0.0

0.2

0.4

0.6

0.8

1.0

-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0

p(corr)[1], t(corr)[1]

CYLINDREE

PUISSANCE

VITESSE

POIDS

LONGUEURLARGEUR

honda civicrenault 19

fiat tipo

peugeot 405renault 21

citroen bx

bmw 530irover 827i

renault 25

opel omega

peugeot 405 break

ford sierra

bmw 325ix

audi 90 quattro

ford scorpio

renault espace

nissan vanettevw caravelle

ford fiesta

fiat uno

peugeot 204

peugeot 205 Rallye

seat ibiza

citroen ax sport

Loadings Bi-plot

Page 22: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

22/198

Statistiques, vecteurs propres et composantes principales

T1 T2honda civic -1.86 0.43renault 19 -0.59 0.06fiat tipo -1.24 -0.55peugeot 405 -0.26 -0.48renault 21 -0.02 -0.51citroen bx -0.53 -0.13bmw 530i 3.94 0.69rover 827i 3.21 0.59renault 25 3.42 0.30opel omega 1.48 -0.86peugeot 405b 0.58 0.25ford sierra 0.68 -0.41bmw 325ix 1.68 1.29audi 90 quattro 1.17 0.86ford scorpio 3.15 0.07renault espace 0.82 -0.89nissan vanette -0.29 -1.92vw caravelle 0.48 -1.97ford fiesta -3.56 -0.75fiat uno -3.83 0.07peugeot 205 -2.52 0.81peugeot 205 rallye -1.97 1.62seat ibiza sxi -1.52 0.85citroen ax sport -2.41 1.72

p[1] p[2]CYLINDREE 0.49 -0.07PUISSANCE 0.44 0.35VITESSE 0.37 0.62POIDS 0.39 -0.34LONGUEUR 0.39 -0.35LARGEUR 0.36 -0.50

N % MisVal Mean Std.devCYLINDREE 20 16.6667 1887.70 459.31PUISSANCE 20 16.6667 112.05 36.14VITESSE 20 16.6667 181.95 24.84POIDS 20 16.6667 1112.75 238.49LONGUEUR 20 16.6667 421.70 42.78LARGEUR 20 16.6667 168.40 7.34

Page 23: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

23/198

Reconstitution des données avec deux composantes

Obs ID (Primary) CYLINDREE PUISSANCE VITESSE POIDS LONGUEUR LARGEURhonda civic 1460 88 172 905 384 162renault 19 1754 103 177 1053 411 167fiat tipo 1627 85 162 1041 409 167peugeot 405 1844 102 172 1127 424 169renault 21 1900 105 174 1153 429 170citroen bx 1774 102 175 1074 415 167bmw 530i 2744 183 228 1424 478 176rover 827i 2585 170 220 1365 467 175renault 25 2640 170 218 1407 475 176opel omega 2245 125 182 1321 459 175peugeot 405b 2010 124 191 1147 428 169ford sierra 2052 118 182 1210 439 172bmw 325ix 2221 155 217 1164 431 168audi 90 quattro 2122 141 206 1152 429 168ford scorpio 2588 163 212 1401 474 176renault espace 2098 114 176 1262 449 174nissan vanette 1885 83 150 1242 445 175vw caravelle 2057 95 156 1318 459 177ford fiesta 1117 46 138 842 373 162fiat uno 1031 52 148 750 356 158peugeot 205 1300 82 172 812 367 159peugeot 205 rallye 1396 101 189 797 364 157seat ibiza sxi 1522 99 181 902 384 161citroen ax sport 1296 96 187 748 356 156

Page 24: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

24/198

NIPALS : Identification des outliersCarte de contrôle des distances au modèle normalisées

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

1.80

2.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

DM

odX

[2]

Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals

DCrit (0.05)

honda civic

renault 19fiat tipo

peugeot 405renault 21

citroen bxbmw 530i

rover 827i

renault 25

opel omega

peugeot 405bford sierra

bmw 325ix

audi 90 quat

ford scorpio

renault espa

nissan vanet

vw caravelle

ford fiesta

fiat uno

peugeot 205

peugeot 205r

seat ibiza scitroen ax s

Simca-P 8.0 by Umetrics AB 2000-05-30 19:00

Page 25: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

25/198

Calcul de la limite de contrôle

Propriété :

Limite de contrôle au risque :

**

*

*

** *

*

xi

ix

2i i

1 2n2

i ii 1

DModX

ˆd (x , x )F(k ,k )

1ˆd (x , x )

n

1 1 2F (k ,k )

calculé si nb de données > nb de CP

Page 26: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

26/198

Probabilité d’appartenir au modèle

Test : H0 : l’observation i appartient au modèle de l’ACP

H1 : l’observation i n’appartient pas au modèle

Décision : On rejette H0 au risque de se tromper si

),( DModX 211 kkF

Niveau de signification ou « probabilité d’appartenir au modèle » :

Plus petit conduisant au rejet de H0

= Prob (F(k1,k2) DModX2)

L’individu i est exactement sur la limite de contrôle DCrit(min)

Page 27: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

27/198

PModX(Nissan Vanette) = 0.08

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

M1.

PM

odX

[2]

M1.Num

NIPALS : Exemple Voitures"Probabilité" d'appartenir au modèle ACP (2 composantes)

honda civic

renault 19

fiat tipo

peugeot 405

renault 21

citroen bxbmw 530i

rover 827i

renault 25

opel omega

peugeot 405bford sierra

bmw 325ix

audi 90 quat

ford scorpio

renault espa

nissan vanet

vw caravelle

ford fiesta

fiat uno

peugeot 205

peugeot 205r

seat ibiza scitroen ax s

Simca-P 8.0 by Umetrics AB 2000-05-22 11:34

Page 28: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

28/198

Cylindrée : 4943Puissance : 428Vitesse : 310Poids : 1517Longueur : 449

Caractéristiquesde la Ferrari

Ajouter la Ferrari au fichier des données

Page 29: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

29/198

Les méthodes PLS

II. Régression PLS (Partial Least Squares Regression)

Page 30: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

30/198

La régression PLS• Relier un bloc de variables à expliquer Y à

un bloc de variables explicatives X.

• Possibilité de données manquantes.

• Il peut y avoir beaucoup plus de variables X que d’observations.

• Il peut y avoir beaucoup plus de variables Y que d’observations.

• Meilleure réponse au problème de la multicolinéarité.

Page 31: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

31/198

La régression PLS : vocabulaire• Régression PLS1 : un seul Y

• Régression PLS2 : plusieurs YA conseiller si les Y sont corrélés entre eux

• Analyse discriminante PLS : - Y qualitatif transformé en variables

indicatrices des modalités - A conseiller si Y binaire, sinon on peut

peut- être faire mieux (Barker & Rayens, 2003)

Page 32: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

32/198

Les méthodes PLS

II.1 Régression PLS1

Page 33: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

33/198

La régression PLS1 : une idée de l’algorithme

Etape 1 : Recherche de m composantes orthogonales th = Xah bien explicatives de leur propre groupe et bien

corrélées à y.

Le nombre m est obtenu par validation croisée.

Etape 2 : Régression de Y sur les composantes PLS th .

Etape 3 : Expression de la régression en fonction de X.

Page 34: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

34/198

Objectif de l’étape 1 de la régression PLS1

**

**

**

X2

X1

CPX1

t1

*** *

*

*

*y

CPX1

t1

y

**

**

* *

Page 35: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

35/198

La régression PLS1 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes

Pour chaque h = 1 à m, on recherche des

composantes th = Xah maximisant

le critère

Cov (Xah , y)

sous des contraintes de norme ( ) et

d’orthogonalité entre th et les composantes

précédentes t1 ,…, th-1.

1ha

Page 36: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

36/198

Propriétés de la régression PLS1

De Cov2(Xah , y)

= Cor2(Xah , y)* Var(Xah)*Var(y)

on déduit que la régression PLS1 réalise un

compromis entre la régression multiple

de y sur X et l’analyse en composantes

principales de X.

Page 37: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

37/198

Régression PLS1: Étape 1

1. Calcul de la première composante PLS t1 :

j

jj xxycorXat ),(11

2. Normalisation du vecteur a1= (a11,…,a1k)

3. Régression de y sur t1=Xa1 exprimée en fonction des x

4. Calcul des résidus y1 et X1 des régressions de y et X sur t1 :- y = c1t1 + y1

- X = t1p1 + X1

Les xj sontcentrés-réduits.Sinon, remplacerla corrélation parla covariance.

cor avec y > 0

Page 38: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

38/198

Régression PLS1: Étape 2

1. Calcul de la deuxième composante PLS t2 :

j

jj xxybXt 111212 ),cov(

2. Normalisation du vecteur b2= (b21,…,b2k)

3. Calcul de a2 tel que : t2 = X1b2 = Xa2

4. Régression de y1 sur t2 = Xa2 exprimée en fonction des x

5. Calcul des résidus y2 et X2 des régressions de y et X1

sur t2 :- y1 = c2t2 + y2

- X1 = t2p2 + X2

Page 39: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

39/198

Régression PLS1: Étapes suivantes

• D’où le modèle de régression PLS à m composantes :

y = c1t1 + c2t2 + … + cmtm + Résidu

= c1Xa1 + c2Xa2 + … + cmXam + Résidu

= X(c1a1 + c2a2 + … + cmam) + Résidu

= b1x1 + b2x2 + … + bkxk + Résidu

• On procède de la même manière pour les autres composantes.

y

Page 40: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

40/198

Calcul de RESSh et PRESSh à l’étape h

Les observations sont partagées en G groupes, et on réalise G fois l’étapecourante de l’algorithme sur yh-1 et Xh-1 en enlevant à chaque fois un groupe.

Predicted Residual Sum of Squares :

2i),1h(

ii),1h(h )yy(PRESS

où est calculé dans l’analyse réalisée sans le groupe

contenant l’observation (i).

i),1h(y

Residual Sum of Squares : 2i),1h(

ii),1h(h )yy(RESS

où hihi),1h( tcy est la prévision de y(h-1),i

Voir option CV-groups

Page 41: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

41/198

Choix du nombre de composantes

• On choisit le nombre de composantes par validation croisée.

• La composante h est retenue si

[PRESSh] [RESSh-1]

Soit :

avec RESS0 = , 1 - = 0.05 si n < 100 et = 0 si n 100. 2i )yy(

1RESS

PRESS1Q

1h

h2

Page 42: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

42/198

Q2(cum) et R2(validation croisée)

h

a a

ahcum RESS

PRESSQ

1 1

2 1][

peu différent de

ii

h

yy

PRESSR

22

croisée validation)(

1

Modèle à h composantes acceptable si [Q2cum]h > 0.5

La composante h est retenue si :

122 ][ àsupérieur nettement est ][ hcumhcum QQ

Page 43: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

43/198

Variable Importance in the Prediction (VIP)

• Importance de la variable xj (j=1,…, p) pour la

prédiction de y dans un modèle à m composantes :

• Composantes PLS : th = Xh-1bh, avec ||bh|| = 1

• Moyenne des carrés des VIP sur les variables = 1• Variable importante pour la prédiction si VIP > 0.8

2 2

2 1

1

( , )( , )

m

mj h hjmh

hh

pVIP cor y t b

cor y t

Page 44: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

44/198

Régression PLS1 : Exemple VoituresProblèmes : multicolinéarité, données manquantes

ModèlePrixCylindréePuissanceVitessePoidsLongueurLargeurHonda Civic83700. 90174850369166Renault 19838001721. 180965415169Fiat Tipo70100158083.970395170

Citroën AX Sport66800129495184730350.

ModèlePrixCylindréePuissanceVitessePoidsLongueurLargeurHonda Civic83700139690174850369166Renault 1983800172192180965415169Fiat Tipo70100158083170970395170

Citroën AX Sport66800129495184730350160

Données complètes

Données incomplètes

Page 45: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

45/198

Régression multiple sur les données complètes

R2 = 0.847, F = 15.730 Sig. = 0.0001

Coefficientsa

12070.406 194786.6 .062 .951 -398893.309 423034.120

-1.936 33.616 -.058 .955 -72.860 68.988

1315.906 613.510 2.145 .047 21.512 2610.299

-472.507 740.319 -.638 .532 -2034.443 1089.428

45.923 100.047 .459 .652 -165.158 257.005

209.653 504.152 .416 .683 -854.014 1273.319

-505.429 1501.589 -.337 .741 -3673.505 2662.648

(Constant)

CYLINDRE

PUISSANC

VITESSE

POIDS

LONGUEUR

LARGEUR

Model1

B Std. Error

UnstandardizedCoefficients

t Sig. Lower Bound Upper Bound

95% Confidence Interval for B

Dependent Variable: PRIXa.

Page 46: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

46/198

Corrélations entre les variablesCorrelation Matrix

1.000 .852 .891 .720 .813 .747 .611

.852 1.000 .861 .693 .905 .864 .709

.891 .861 1.000 .894 .746 .689 .552

.720 .693 .894 1.000 .491 .532 .363

.813 .905 .746 .491 1.000 .917 .791

.747 .864 .689 .532 .917 1.000 .864

.611 .709 .552 .363 .791 .864 1.000

PRIX

CYLINDRE

PUISSANC

VITESSE

POIDS

LONGUEUR

LARGEUR

PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR

Correlation

Coefficients

.094 10.608

.052 19.071

.085 11.738

.056 17.880

.068 14.631

.225 4.449

CYLINDRE

PUISSANC

VITESSE

POIDS

LONGUEUR

LARGEUR

Tolerance VIF

Collinearity StatisticsTolerance= 1-R2(X,autres X)

VIF = 1/Tolerance)

Problème si VIF > 3,inacceptable si VIF > 10

Page 47: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

47/198

Régression PLS sur les données incomplètesChoix du nombre de composantes

On retient une composante PLS

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

Co

mp

[1]

Co

mp

[2]

Co

mp

[3]

Comp No.

autoprixb.M1 (PLS), Untitled R2Y(cum)Q2(cum)

SIMCA-P 10.5 - 04/05/2004 14:40:19

Page 48: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

48/198

Régression PLS sur les données incomplètes

R2 = 0.761

*ur0.129Large *eur0.153Longu *0.165Poids

*se0.146Vites *ance0.206Puiss *drée0.183Cylin 2.18 )(Pr

Pr

ix

ix

Équation sur les données centrées-réduites (CoeffCS)

Équation sur les données d’origine (Coeff)

Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse

+ 40Poids + 205Longueur + 1007Largeur

Équation sur les données d’origine pour Y et centrées pour X (CoeffC)

Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)

+ 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)

Page 49: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

49/198

Résultats de la validation croiséesur les coefficients de régression PLS

0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

CY

LIN

DR

E

PU

ISS

AN

C

VIT

ES

SE

PO

IDS

LO

NG

UE

UR

LA

RG

EU

R

PRIX

Audi 90 Quattro

n 22jack knife ( i) total

i 1

nˆ ( ) b b

n 1

Page 50: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

50/198

0.00

0.10

0.20

0.30

PU

ISS

AN

CE

CY

LIN

DR

EE

PO

IDS

LO

NG

UE

UR

VIT

ES

SE

LA

RG

EU

R

Coe

ffC

S[1

](P

RIX

)

Autoprib.M10 (PLS), UntitledCoeffCS[Comp. 1](YVar PRIX)

Intervalles de confiance jack-knifedes coefficients de régression PLS

Page 51: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

51/198

Résultats de la validation croiséesur les coefficients de régression PLS

B SE Student T p-valueCylindréePuissanceVitessePoidsLongueurLargeur

0.18270.20600.14650.16530.15250.1286

0.03710.05700.04300.01810.01750.0299

4.9253.6143.4079.1338.7144.301

0.00010.00050.00020.00010.00010.0001

Page 52: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

52/198

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Autoprib.M1 (PLS): Validate ModelPRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)

200 permutations 1 components

R2Q2

Validation globale

Les droites noire et rouge sont les droites des moindres carrés passant par les R2 et Q2(Cum) observés. Le modèle est validé si les ordonnéesà l’origine sont proches de 0 pour R2 et surtout négative pour Q2(Cum).

Corrélation entre Y observé et Y permuté

R2

et Q

2(C

u m)

de l a

rég

ress

ion

PL

S d

e Y

per

mu t

é su

r X

Page 53: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

53/198

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

1.10

1.20

PU

ISS

AN

CE

CY

LIN

DR

EE

PO

IDS

LO

NG

UE

UR

VIT

ES

SE

LA

RG

EU

R

VIP

[1]

Exemple VoituresVariable Importance in the Prediction (1 composante)

Page 54: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

54/198

40000

60000

80000

100000

120000

140000

160000

180000

200000

220000

240000

40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000

YV

ar(P

RIX

)

YPred[1](PRIX)

RMSEE = 28739.6

honda civic renault 19

fiat tipo

peugeot 405renault 21

citroen bx

bmw 530i

rover 827i

renault 25

opel omegapeugeot 405bford sierra

bmw 325ix

audi 90 quattro

ford scorpio

renault espace

nissan vanette

vw caravelle

ford fiestafiat uno

peugeot 205peugeot 205 rallyeseat ibiza sxicitroen ax sport

y=1*x-73.45R2=0.7611

SIMCA-P 10.5 - 23/09/2004 08:10:41

Régression PLS sur les données incomplètes4 roues motrices

Page 55: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

55/198

Intervalle de confiance à 95% du prix moyen(fourni par SIMCA)

prévision

3000002000001000000

PR

IX

300000

200000

100000

0

Page 56: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

56/198

Intervalle de prévision à 95% du prix (à calculer)

prévision

3000002000001000000

PR

IX300000

200000

100000

0

audi 90 quattro

Page 57: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

57/198

Prédiction du prix de la HONDA CIVIC (WS)

(Problème : certains X sont manquants)

Prix de vente : 83 700 FF

Caractéristiquesde la Honda Civic

Caractéristiquescentrées-réduites

CylindréePuissanceVitessePoidsLongueurLargeur

?90174850369166

?-.61009-.32011-1.10172-1.23196-.32679

Page 58: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

58/198

Prédiction du Prix de la HONDA CIVIC (WS)

Calcul de t1 pour la HONDA CIVIC :

Régression du Prix sur t1 :

1 0.4045789 503 57

512 125 -Prix t

* *12 1 16 1

1 2 212 16

w Puissance ... w Largeurt (Honda Civic) = 1.80941

w ... w

w[1]

CYLINDREE 0.450655

PUISSANCE 0.508011VITESSE 0.361203POIDS 0.407744LONGUEUR 0.376267LARGEUR 0.317074

Honda Civic

CYLINDREE ?

PUISSANCE -0.61009VITESSE -0.32011POIDS -1.10172LONGUEUR -1.23196LARGEUR -0.32679

Prédiction du Prix :

Prix calculé = 125 512 + 0.4046*(-1.809)*57 503 = 83 417 FF

c

Page 59: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

59/198

Prédiction du prix de la FERRARI (PS)(Problème : certains X sont manquants)

Mean Std.dev Ferrari Ferrari (c-r)

CYLINDREE 1887.7 459.31 4943 6.65

PUISSANCE 112.05 36.1422 428 8.74VITESSE 181.95 24.8352 310 5.16POIDS 1112.75 238.49 1517 1.70LONGUEUR 421.7 42.7774 449 0.64LARGEUR 168.4 7.34417 ?PRIX 125513 57503.6

Page 60: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

60/198

Prédiction du Prix de la Ferrari

Calcul de tPS1i,…, tPSmi pour une nouvelle observation xi :

- Régression de X sur t1,…, tm : X = t1p1 + … + tmpm + résiduWS les ph 

- Régression de xi sur p1,…, pm : xi = tPS1ip1 + … + tPSmipm + résiduPS

calculée sur les données disponibles; d’où le calcul des tPShi

- On cherche les tPShi minimisant la distance entre xi et le modèle.

Prédiction du prix de la FERRARI (m = 1)

- tPS1(Ferrari) = 11.376 estimation de t1,25

- On utilise tPS1 à la place de t1

Prédiction du Prix = 390 172 FF

Régression du Prix sur t1 : 1

Pr ix 1255130.4045789 t

57503.6

Page 61: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

61/198

Prédiction du Prix de la Ferrari : calcul de tPS1 (Ferrari)

tPS1(Ferrari) = 11.376

P1

CylindréePuissanceVitessePoidsLongueurLargeur

0.480.450.370.390.390.36

Ferrari 1

6.65 0.48

8.74 0.45

5.16 0.37x tPS (Ferrari)

1.70 0.39

0.64 0.39

? 0.36

Page 62: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

62/198

Régression PLS1 : Cas UOP Guided Wave Problème : 225 variables X et 26 observations

Les données :• Y = indice d’octane

• X1, X2, …, X225 :

valeurs d’absorbance à différentes longueurs d’onde

• Données de calibration :

26 échantillons d’essence (dont 2 avec alcool)

• Données de validation :

13 échantillons d’essence (dont 4 avec alcool)

Page 63: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

63/198

Cas UOP Guided Wave Visualisation des X

Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables

H17

H36

S.016

11001200

13001400

1500

S

a

m

p

l

e

s X - V a r i a b l e s

-4.469e-03 0.113 0.231 0.349 0.467 0.585

Page 64: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

64/198

Cas UOP Guided Wave Visualisation des X : Données de calibration

Sequence number

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.7

.6

.5

.4

.3

.2

.1

0.0

-.1

M52

H59

Les échantillons M52 et H59 contiennent de l ’alcool

Page 65: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

65/198

Cas UOP Guided Wave Visualisation des X : Données de validation

Les échantillons avec alcool sont en rouge

Numéro de la longueur d'onde

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.7

.6

.5

.4

.3

.2

.1

0.0

-.1

Page 66: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

66/198

Régression PLS1 : les résultats

• Données de spectroscopie

Les données sont centrées, mais non réduites

• Validation croisée :

3 composantes PLS

Page 67: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

67/198

UOP Guided Wave : Les composantes PLS

-0.40

-0.20

0.00

0.20

0.40

-0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60

t[2]

t[1]

OCTANE.M4 (PLS), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

M01M02

M05

L06

H11H12

L13

L14L15

H17

M18

H20

L21

H24H27

L29L31

H32

L35

H36

L37

H38

H39

L40

M52 H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:14

- Indice d’octane : L = Low, M = Medium, H = High- Les échantillons M52 et H59 contiennent de l’alcool

Page 68: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

68/198

UOP Guided Wave : les composantes PLS

-0.100

-0.050

0.000

0.050

0.100

-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50

t[3]

t[2]

OCTANE.M4 (PLS), Untitled, Work setScores: t[2]/t[3]

Ellipse: Hotelling T2 (0.05)

M01M02 M05

L06H11

H12L13

L14L15

H17

M18

H20

L21

H24H27L29

L31

H32

L35

H36

L37

H38

H39

L40M52

H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:41

Indice d’octane : L = Low, M = Medium, H = High

Page 69: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

69/198

Cas UOP Guided Wave : PrévisionDonnées de calibration

87

88

89

90

91

92

87 88 89 90 91 92

Y

Predicted

OCTANE.M4 (PLS), Untitled, Work setOCTANE, Comp 3(Cum)

RMSEE=0.290788

M01M02

M05

L06

H11H12

L13L14L15

H17

M18

H20

L21

H24 H27

L29L31

H32

L35

H36

L37

H38H39

L40

M52

H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:53

Page 70: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

70/198

Cas UOP Guided Wave : PrévisionDonnées de validation

87

88

89

90

91

92

87 88 89 90 91 92

Obs

erve

d

Predicted

OCTANE.M5 (PLS), Untitled, PS-OCTANEOCTANE, Comp 3 (Cum)

RMSEP=0.256792

S.003S.004

S.010

S.016

S.019

S.022

S.025

S.026

S.034

S.055

S.056

S.057S.058

Simca-P 7.01 by Umetri AB 1998-11-23 13:11

Présence d’alcool : OUI / NON

Page 71: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

71/198

Orthogonal Signal Correction• Filtrage des X pour diminuer la partie des X non corrélée à Y : E=XA

• On recherche une décomposition de X de la forme

X = tosc,1p1 +…+ tosc,mpm

+ E

avec :

(1) Les composantes tosc,j = Xwj sont orthogonales.

(2) Les composantes tosc,j sont (à peu près) orthogonales aux Y.

(3) Les pm et le résidu E sont obtenus par régression multiple

de X sur tosc,1,…, tosc,m.

(4) D = tosc,1p1 +…+ tosc,mpm

représente la partie des X (à peu près)

non corrélée à Y

(5) E = X - D = X(I - w1p1 +…+ wmpm

) représente un filtrage des X.

• On effectue la régression PLS de Y sur E.

Page 72: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

72/198

Recherche des th

(Procédure de Wold et al.)(1) On réalise une ACP des X

==> première composante principale tosc,1,initial

(2) On fait une régression de tosc,1, initial sur Y : tosc,1, initial = Yb + t1*

(3) On fait une régression PLS de t1* ( à Y) sur X avec toutes les

composantes ==> tosc,1, new = Xw1.

La composante tosc,1,new est peu corrélée à Y et explique bien X.

(4) On itère (2) et (3) jusqu’à convergence ==> tosc,1.

(5) On régresse X sur tosc,1 : X = tosc,1p1 + E1

(6) Pour obtenir tosc,2 on recommence la procédure en remplaçant

X par E1. Et ainsi de suite pour les autres composantes.

Page 73: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

73/198

Choix du nombre de composantes tosc,h

2j osc,1 1j 1j

j j j

Var(X ) Var(t ) p Var(E )

1j jj j

Var(E ) / Var(X )

2osc,1 1j j

j j

1"Eigenvalue" = Var(t ) p / Var(X ) 1 ou 2

Min(n,p)

Et de même pour les autres composantes.

(1) On déduit de X = tosc,1p1 + E1 la décomposition

(2) On mesure la part de X restituée par E1 par

(3) On conserve tosc,1 si

- tosc,1 suffisamment orthogonal à Y

- tosc,1 explique suffisamment X : (Règle de Wold)

valeur propre moyenne de l’ACP

Page 74: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

74/198

87

88

89

90

91

92

87 88 89 90 91 92

YV

ar(

OC

TA

NE

)

YPred[2](OCTANE)

RMSEE = 0.299713

y=1*x-6.993e-007R2=0.982

Application à la prédiction de l’indice d’octane

Régression PLS sur les données de calibration non filtrées sans

les deux échantillons avec alcool

Page 75: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

75/198

Application à la prédiction de l’indice d’octane

Prédiction sur les données de validation sans les quatre

échantillons avec alcool

87

88

89

90

91

92

87 88 89 90 91 92

YV

arP

S(O

CT

AN

E)

YPredPS[2](OCTANE)

RMSEP = 0.24295

y=0.9996*x+0.08442R2=0.9776

Page 76: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

76/198

Application à la prédiction de l’indice d’octane

Filtrage des X par OSC sur l’échantillon de calibration sans les

deux échantillons avec alcool

On retient la seule composante t1.

Page 77: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

77/198

Application à la prédiction de l’indice d’octane

Valeurs de tosc,1

Obs ID (Primary) OSC.t[1]M01 0.0003697M02 0.00474571M05 0.00364934L06 0.00095048H11 -0.00256955H12 -0.00573855L13 -0.00841451L14 0.00269339L15 0.00381814H17 0.00319899M18 0.00064989H20 -0.00134013L21 -0.00678636H24 -0.0034062H27 -0.00306896L29 0.00081317L31 0.00305239H32 0.0081986L35 0.00015011H36 0.00530462L37 -0.00315448H38 0.00551934H39 -0.0087859L40 0.00015085

En résumé

- On régresse X sur t1,partie de X orthogonaleà Y. - D’où le résidu E1,données filtrées par OSC.- Puis on réalise larégression PLS de Ysur le résidu E1

Page 78: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

78/198

Application à la prédiction de l’indice d’octane

Comparaison entre les données brutes et les données filtrées

par OSC

Sequence number

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.04

.03

.02

.01

0.00

-.01

-.02

-.03

-.04

L13

L14

L15

M01

M02

M05

H11

H12

H17

Données filtrées

Sequence number

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.7

.6

.5

.4

.3

.2

.1

0.0

-.1

L13

L14

L15

M01

M02

M05

H11

H12

H17

Données brutes

Page 79: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

79/198

Application à la prédiction de l’indice d’octane

Régression PLS sur les données de calibration (sans les deux

échantillons avec alcool) filtrées par OSC avec une seule composante

87

88

89

90

91

92

87 88 89 90 91 92

YV

ar(

OC

TA

NE

)

YPred[1](OCTANE)

RMSEE = 0.112036

y=1*x-1.863e-005R2=0.9974

Page 80: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

80/198

Application à la prédiction de l’indice d’octane

Prédiction de l’indice d’octane sur les données de validation

sans les quatre échantillons avec alcool

87

88

89

90

91

92

87 88 89 90 91 92

YV

arP

S(O

CT

AN

E)

YPredPS[1](OCTANE)

Octane_OSC.M1 (PLS), Untitled, PS-Octane_OSCYPredPS[Comp. 1](YVar OCTANE)/YVarPS(YVar OCTANE)

RMSEP = 0.222613 SIMCA-P 10.5 - 15/06/2004 10:03:34

Page 81: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

81/198

Les méthodes PLS

II.2 Régression PLS2

Page 82: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

82/198

La régression PLS2

• Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X.

• Possibilité de données manquantes.

• Il peut y avoir beaucoup plus de variables X que d’observations.

• Il peut y avoir beaucoup plus de variables Y que d’observations.

Page 83: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

83/198

La régression PLS2 : une idée de l’algorithme

Etape 3 : Expression de la régression en fonction de X.

Etape 1 : Recherche de m composantes orthogonales

th = Xah et m composantes uh= Ybh, bien corrélées

entre elles et explicatives de leur propre groupe.

Le nombre m est obtenu par validation croisée.

Etape 2 : Régression de chaque Y sur les composantes th .

Page 84: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

84/198

Objectif de l’étape 1 de la régression PLS2

**

**

**

X2

X1

CPX1

t1

*** *

*

*

*CPY1

u1

Y2

Y1

t1

u1

**

**

* *

Page 85: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

85/198

La régression PLS2 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes

Pour chaque h = 1 à m, on recherche des

composantes th = Xah et uh= Ybh maximisant

le critère

Cov (Xah , Ybh )

sous des contraintes de norme et

d’orthogonalité entre th et les composantes

précédentes t1 ,…, th-1.

Page 86: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

86/198

Interprétation du critère de Tucker

De Cov2(Xah , Ybh )

= Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)

on déduit que la régression PLS réalise un

compromis entre l’analyse canonique

entre X et Y, une ACP de X, et une ACP

« oblique » de Y.

Page 87: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

87/198

Variable Importance in the Prediction (VIP)

• Importance de la variable xj (j=1, p) pour la prédiction

des yk (k=1, q) dans un modèle à m composantes :

m

hhj

q

khkm

h

q

khk

mj btyR

tyR

pVIP

1

2

1

2

1 1

2

]),([

);(

• Composantes PLS : th = Xh-1bh , avec ||bh|| = 1

• Moyenne des carrés des VIP = 1• Variable importante pour la prévision si VIP > 0.8

Pouvoir prédictif de Xj

Page 88: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

88/198

Régression PLS2Exemple : Dégustation de thé

Les donnéesObsTempératureSucréForceCitronSujet 1 …Sujet 61 1 1 1 14 52 1 2 2 12 83 1 3 3 26 6

11 1 2 1 11 14

18 3 3 1 212 15

Température Sucré Force Citron1 = Chaud2 = Tiède3 = Glacé

1 = Pas de sucre2 = 1 sucre3 = 2 sucres

1 = Fort2 = Moyen3 = Faible

1 = Avec2 = Sans

Page 89: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

89/198

Cas Dégustation de thé

• Bloc X

Les 11 variables indicatrices des modalités

de Température, Sucre, Force et Citron

• Bloc Y

Les classements des sujets sont inversés

(Le 1 devient 18, le 18 devient 1)

Page 90: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

90/198

Cas Dégustation de théRésultats de la régression PLS

• Validation croisée :

3 composantes : th = Xwh* et uh = Ych

• Équation de régression de Yk sur t1, …, th :

Yk = c1kt1 + c2kt 2+ c3kt3 + résidu

• Les variables X et Y sont représentées à l’aide

des vecteurs wh* et ch.

Page 91: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

91/198

Résultats de la régression PLSLes vecteurs w*c

w*c[1] w*c[2] w*c[3]CHAUD 0.346 0.432 -0.393TIEDE -0.620 -0.342 0.245GLACE 0.273 -0.090 0.148SUCRE0 0.404 -0.136 0.538SUCRE1 -0.006 0.124 -0.031SUCRE2 -0.397 0.012 -0.507FORT -0.150 0.289 0.125MOYEN 0.009 0.225 -0.069LEGER 0.140 -0.515 -0.056CITRON1 0.171 -0.358 -0.316CITRON0 -0.171 0.358 0.316

Y1 0.629 0.298 -0.298Y2 0.726 0.188 0.146Y3 0.235 0.630 -0.203Y4 0.530 -0.062 0.538Y5 -0.359 0.631 0.216Y6 0.561 -0.263 -0.035

w*

c

Page 92: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

92/198

Cas Dégustation de théCarte des variables

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

GLACÉSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

199

8-11

-23

18:1

1

THE.M1 (PLS), régression PLS, WorksetLoadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

Page 93: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

93/198

Règle d’interprétation

Les projections des variables X sur les variables Y reflètent le signe et l’ordre de grandeur des coefficients de régression PLS des Y sur X

Page 94: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

94/198

-1.00

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

0.80

CH

AU

D

TIE

DE

FR

OID

SU

CR

E0

SU

CR

E1

SU

CR

E2

FO

RT

MO

YE

N

LEG

ER

CIT

RO

N1

CIT

RO

N0

Coe

ffCS

[3](

Y1)

Var ID (Primary)

The.M1 (PLS), UntitledCoeffCS[Comp. 3](YVar Y1)

SIMCA-P 10.5 - 11/05/2005 10:41:17

Cas dégustation de théVisualisation de la régression PLS de Y1 sur X

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

FROIDSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

199

8-11

-23

18:1

1

THE.M1 (PLS), régression PLS, Workset

Loadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

Le juge 1 aime son thé chaud et rejette le thé tiède

Page 95: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

95/198

-0.70

-0.60

-0.50

-0.40

-0.30

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

CH

AU

D

TIE

DE

FR

OID

SU

CR

E0

SU

CR

E1

SU

CR

E2

FO

RT

MO

YE

N

LEG

ER

CIT

RO

N1

CIT

RO

N0

Coe

ffCS

[3](

Y5)

Var ID (Primary)

The.M1 (PLS), UntitledCoeffCS[Comp. 3](YVar Y5)

SIMCA-P 10.5 - 11/05/2005 10:43:18

Cas dégustation de théVisualisation de la régression PLS de Y5 sur X

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

FROIDSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

199

8-11

-23

18:1

1

THE.M1 (PLS), régression PLS, Workset

Loadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

Le juge 5 préfère son thé sans citron, fort;il est indifférent au thé tiède; il rejette le thé léger, avec du citron.

Page 96: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

96/198

Carte des produits

-3

-2

-1

0

1

2

3

-3 -2 -1 0 1 2 3

t[2

]

t[1]

Ellipse: Hotelling T2 (0.95)

12

34

5

6

7

8

9

10

1112

13

14

15

16

17

18

SIMCA-P 10.5 - 15/06/2004 11:25:33

Page 97: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

97/198

Carte des corrélations : Biplot

Page 98: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

98/198T1

210-1-2-3

T2

2

1

0

-1

-2

-3

CITRON0

CITRON1

LEGER

MOYEN

FORTSUCRE2

SUCRE1

SUCRE0FROIDTIEDE

CHAUD

18

17

16

15

14

13

12

11

10

9

8

7

6

5

43

2

1

10%15% 20%

30%

50%70%

Carte des produits et des caractéristiquesCourbes de niveau du % de juges classant le produit au dessus de leurs moyennes

Courbes simulées non calculées sur les données

Page 99: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

99/198

Construction des courbes de niveau

• On utilise la carte des produits et des caractéristiques dans le plan des composantes PLS (t1, t2).

• Pour chaque point (t1, t2), on calcule les Yk prédits :

• Pour chaque point du plan (t1, t2) on détermine le % de au dessus de la moyenne.

• On résume tous ces pourcentages par des courbes de niveau.

1 1 2 2k k kY c t c t

kY

Page 100: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

100/198

Typologie des juges

• Construire une typologie des juges en utilisant la part des préférences explicables par les caractéristiques des produits.

• Le vecteur ck = (c1k,c2k,c3k) représente la part des préférences du juge k expliquée par les caractéristiques des produits.

• On construit la typologie des juges à l’aide des ck.

Page 101: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

101/198

Typologie des juges

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

Y1 1 Y2 2 Y6 6 Y4 4 Y3 3 Y5 5

Page 102: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

102/198

Régression PLS sur le premier groupe

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

-0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80

w*c

[2]

w *c[1]

The.M3 (PLS), Untitledw*c[1]/w*c[2]

XY

CHAUD

TIEDE

GLACE

SUCRE0

SUCRE1

SUCRE2

FORT

MOYENLEGER

CITRON1CITRON0

Y1

Y2

Y4

Y6

Page 103: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

103/198

Régression PLS sur la moyenne des jugesdu premier groupe

0.00

0.20

0.40

0.60

0.80

1.00

Co

mp

[1]

Comp No.

The.M5 (PLS), Untitled R2Y(cum)Q2(cum)

Page 104: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

104/198

Régression PLS sur la moyenne des jugesdu premier groupe : modalités significatives

-0.60

-0.40

-0.20

0.00

0.20

0.40

CH

AU

D

TIE

DE

GL

AC

E

SU

CR

E0

SU

CR

E1

SU

CR

E2

FO

RT

MO

YE

N

LE

GE

R

CIT

RO

N1

CIT

RO

N0

Co

eff

CS

[1](

Y_

Gro

up

e1

)

Var ID (Primary)

The.M5 (PLS), UntitledCoeffCS[1](Y_Groupe1)

Page 105: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

105/198

Régression PLS sur le deuxième groupe

-0.40

-0.20

0.00

0.20

0.40

-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70

w*c

[2]

w *c[1]

The.M4 (PLS), Untitledw*c[1]/w*c[2]

XY

CHAUD

TIEDE

GLACE

SUCRE0

SUCRE1

SUCRE2

FORT

MOYEN

LEGER

CITRON1

CITRON0

Y3

Y5

Page 106: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

106/198

Régression PLS sur la moyenne des jugesdu deuxième groupe

0.00

0.20

0.40

0.60

0.80

1.00

Co

mp

[1]

Comp No.

The.M6 (PLS), Untitled R2Y(cum)Q2(cum)

Page 107: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

107/198

Régression PLS sur la moyenne des jugesdu deuxième groupe : modalités significatives

-0.40

-0.20

0.00

0.20

0.40

CH

AU

D

TIE

DE

GL

AC

E

SU

CR

E0

SU

CR

E1

SU

CR

E2

FO

RT

MO

YE

N

LE

GE

R

CIT

RO

N1

CIT

RO

N0

Co

eff

CS

[1](

Y_

Gro

up

e2

)

Var ID (Primary)

The.M6 (PLS), UntitledCoeffCS[1](Y_Groupe2)

Page 108: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

108/198

Les méthodes PLS

III. Analyse discriminante PLS

Page 109: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

109/198

Analyse discriminante PLS

• Bloc Y

La variable qualitative Y est remplacée par l’ensemble des variables indicatrices de ses modalités.

• Bloc X

Variables numériques ou indicatrices des modalités des variables qualitatives.

• Régression PLS2 de Y sur X

Page 110: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

110/198

Analyse discriminante PLS : exemple

Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. :

Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis.

Journal of Chromatography, 1981

Page 111: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

111/198

Analyse discriminante PLS : exemple

• 16 biopsies de tumeurs de cerveau humain.• Chaque tumeur est classée par un médecin

anatomo-pathologiste comme bénigne ou maligne.• Chaque biopsie est analysée par chromatographie

en phase gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics.

• Quelques données manquantes

Les données

Page 112: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

112/198

Analyse discriminante PLS Profils métaboliques des biopsies

Sequence number

153

145

137

129

121

113

105

97

89

81

73

65

57

49

41

33

25

17

9

1

1400

1200

1000

800

600

400

200

0

N1

N4

N5

N13

N14

N15

Sequence number

153

145

137

129

121

113

105

97

89

81

73

65

57

49

41

33

25

17

9

1

1200

1000

800

600

400

200

0

T2

T3

T6

T7

T8

T9

T10

T11

T12

T16

Tumeurs bénignes Tumeurs malignes

Page 113: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

113/198

Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 2

-10

-5

0

5

10

-10 0 10

t[2]

t[1]

EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3 N4

N5

T6T7

T8

T9T10

T11

T12

N13

N14

N15

T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:17

Page 114: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

114/198

Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 3

-10

-5

0

5

10

-10 0 10

t[3]

t[1]

EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[3]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3N4

N5

T6T7

T8T9

T10T11

T12N13

N14

N15T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:19

Page 115: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

115/198

Analyse discriminante PLSComposantes PLS 1 et 2

-10

-5

0

5

10

-10 0 10

t[2]

t[1]

EGI1.M5 (PLS), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3

N4

N5T6T7

T8

T9

T10

T11

T12 N13

N14

N15

T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:22

Page 116: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

116/198

Graphique des variables w*c

-0.2

-0.1

-0.0

0.1

0.2

-0.1 0.0 0.1

w*c

[2]

w *c[1]

R2X[1] = 0.266395 R2X[2] = 0.125114

XY

001002

003

004005

006

007008

009

010

012

013

014

015

016

017

018

019020

021

022

023

024

025

026

027

028

029

030

031

032

033

034

035

036

037038

039

040

041

042

043044

045046

047

048

049050

051

052

053

054

055

056

057

058059

060061

062

063064

065 066067

068

069

070071

072

073

074

075076

077

078

079

080

081

082

083084

085086 087

088

089

090

091

092

093

094

095

096

097

098

099100

101

102

103

104

105106

107

108

110111

112

113

114115

116

117

118

119120

121

123124

125126127

128

129

131

132

133

134135

136

137 139140141142

143

144

145146 147

148149 150

151

152

153

154

155

156

.DA10

.DA20

SIMCA-P+ 11 - 16/08/2005 18:35:50

Page 117: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

117/198

-1.00

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

0.80

1.00

-1.00 -0.80 -0.60 -0.40 -0.20 0.00 0.20 0.40 0.60 0.80 1.00

pc(c

orr)

[Com

p. 2

]

pc(corr)[Comp. 1]

EGIL.M1 (PLS-DA), Untitledpc(corr)[Comp. 1]/pc(corr)[Comp. 2]

001

002

003

004005

006

007

008

009

010

012013

014

015

016

017

018

019020

021

022

023

024

025

026

027

028

029

030

031

032

033

034

035

036

037

038

039

040

041

042

043

044

045046

047

048

049050

051

052

053054

055

056

057

058059

060

061

062

063064

065

066

067068

069 070071

072073

074

075076

077

078

079080

081

082

083084

085

086

087088

089

090

091

092

093

094

095

096

097

098

099 100

101

102

103

104

105

106

107

108

110

111112

113

114115

116

117

118

119

120

121

123124

125

126

127

128

129131

132

133134135

136

137139140

141

142

143144

145

146147

148

149

150151152

153

154

155

156

Tumeur bénigne

Tumeurmaligne

Analyse discriminante PLSCarte des variables

R2 = 0.5

Page 118: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

118/198

Visualization Plots

Page 119: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

119/198

Graphique des VIP

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

VA

R00

1V

AR

002

VA

R00

3V

AR

004

VA

R00

5V

AR

006

VA

R00

7V

AR

008

VA

R00

9V

AR

010

VA

R01

2V

AR

013

VA

R01

4V

AR

015

VA

R01

6V

AR

017

VA

R01

8V

AR

019

VA

R02

0V

AR

021

VA

R02

2V

AR

023

VA

R02

4V

AR

025

VA

R02

6V

AR

027

VA

R02

8V

AR

029

VA

R03

0V

AR

031

VA

R03

2V

AR

033

VA

R03

4V

AR

035

VA

R03

6V

AR

037

VA

R03

8V

AR

039

VA

R04

0V

AR

041

VA

R04

2V

AR

043

VA

R04

4V

AR

045

VA

R04

6V

AR

047

VA

R04

8V

AR

049

VA

R05

0V

AR

051

VA

R05

2V

AR

053

VA

R05

4V

AR

055

VA

R05

6V

AR

057

VA

R05

8V

AR

059

VA

R06

0V

AR

061

VA

R06

2V

AR

063

VA

R06

4V

AR

065

VA

R06

6V

AR

067

VA

R06

8V

AR

069

VA

R07

0V

AR

071

VA

R07

2V

AR

073

VA

R07

4V

AR

075

VA

R07

6V

AR

077

VA

R07

8V

AR

079

VA

R08

0V

AR

081

VA

R08

2V

AR

083

VA

R08

4V

AR

085

VA

R08

6V

AR

087

VA

R08

8V

AR

089

VA

R09

0V

AR

091

VA

R09

2V

AR

093

VA

R09

4V

AR

095

VA

R09

6V

AR

097

VA

R09

8V

AR

099

VA

R10

0V

AR

101

VA

R10

2V

AR

103

VA

R10

4V

AR

105

VA

R10

6V

AR

107

VA

R10

8V

AR

110

VA

R11

1V

AR

112

VA

R11

3V

AR

114

VA

R11

5V

AR

116

VA

R11

7V

AR

118

VA

R11

9V

AR

120

VA

R12

1V

AR

123

VA

R12

4V

AR

125

VA

R12

6V

AR

127

VA

R12

8V

AR

129

VA

R13

1V

AR

132

VA

R13

3V

AR

134

VA

R13

5V

AR

136

VA

R13

7V

AR

139

VA

R14

0V

AR

141

VA

R14

2V

AR

143

VA

R14

4V

AR

145

VA

R14

6V

AR

147

VA

R14

8V

AR

149

VA

R15

0V

AR

151

VA

R15

2V

AR

153

VA

R15

4V

AR

155

VA

R15

6

VIP

[2]

Var ID (Primary)

Egi1.M2 (PLS-DA)VIP[Comp. 2]

SIMCA-P+ 11 - 16/08/2005 21:02:17

Page 120: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

120/198

Validation globale

100 permutations, 2 composantes

Modèle validé : L’ordonnée à l’origine de la droite Q2 < 0

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

100 permutations 2 components

R2Q2

Page 121: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

121/198

Tableau de classification

• Yk > .65 Classé dans le groupe k (vert)

• Yk < .35 Non classé dans le groupe k (blanc)

• .35 < Yk < .65 pas de décision (orange)

Members Class 1 Class 2 No class Class 1 & 2

Class 1 6 6 0 0 0

Class 2 10 0 10 0 0

No class 0 0 0 0 0

Page 122: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

122/198

Classification des individus

Page 123: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

123/198

Les méthodes PLS

IV. SIMCA

Soft Independent Modelling by Class Analogy

Page 124: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

124/198

SIMCA(Soft Independent Modelling of Class Analogy)

On réalise une analyse en composantes

principales sur chaque classe h via NIPALS

- Choix automatique du nombre de composantes.

- Possibilité de données manquantes.

Page 125: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

125/198

SIMCA(Soft Independent Modelling of Class Analogy)

• Calcul de la distance entre chaque individu i et le modèle ACP de la classe h.

• Calcul de la « probabilité » d’appartenance de chaque individu à la classe h.

Page 126: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

126/198

Utilisation de SIMCA sur les 16 biopsies

• L ’ACP des tumeurs bénignes conduit à 3 composantes.

• L ’ACP des tumeurs malignes conduit à 4 composantes.

• Le Cooman’s Plot permet de visualiser les distances de chaque biopsie aux deux classes.

Page 127: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

127/198

Utilisation de SIMCA sur les 16 biopsiesACP des tumeurs bénignes :

DModX (Classe des tumeurs bénignes)

0

1

2

3

N1 T2

T3

N4

N5 T6

T7

T8

T9

T10

T11

T12

N13

N14

N15 T16

DM

odX

PS

[3]

EGI1.M6 (PC), ACP Tumeurs bénignes, PS-EGI1DModX(PS),N, Comp 3 (Cum)

Dcrit [3] = 1.6542 , Normalized distances, Non weighted residuals

DCrit (0.05)

Simca-P 7.01 by Umetri AB 1998-11-25 14:06

Page 128: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

128/198

Utilisation de SIMCA sur les 16 biopsiesACP des tumeurs malignes :

DModX (Classe des tumeurs malignes)

0

10

20

30

40

50

N1 T2

T3

N4

N5 T6

T7

T8

T9

T10

T11

T12

N13

N14

N15 T16

DM

odX

PS

[4]

EGI1.M7 (PC), ACP Tumeurs malignes, PS-EGI1DModX(PS),N, Comp 4 (Cum)

Dcrit [4] = 1.4708 , Normalized distances, Non weighted residuals

DCrit (0.05)

Simca-P 7.01 by Umetri AB 1998-11-25 14:12

Page 129: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

129/198

Utilisation de SIMCA sur les 16 biopsies Cooman’s Plot

0

10

20

30

40

50

0 1 2 3

M7(

AC

P T

umeu

rs m

alig

nes)

M6(ACP Tumeurs bénignes)

EGI1-M6/M7Cooman's Plot

M6-crit [3] = 1.6542 , Normalized distances, Non weighted residualM7-crit [4] = 1.4708 , Normalized distances, Non weighted residual

N1

T2T3

N4

N5

T6 T7T8 T9T10T11T12

N13

N14

N15

T16

Simca-P 7.01 by Umetri AB 1998-11-25 14:20

Distance à la classe 1

Distance à la classe 2

Limite de contrôlede la classe 1

Limite de contrôlede la classe 2

Page 130: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

130/198

Les « probabilités » d ’appartenance aux classes : « Probabilité (biopsie/classe) »

0.00

0.20

0.40

0.60

0.80

1.00

N1 T2

T3

N4

N5 T6

T7

T8

T9

T10

T11

T12

N13

N14

N15 T16

PM

odX

PS

[3]

EGI1 ACP Tumeurs bénignes M6.PModXPS

Simca-P 7.01 by Umetri AB 1998-11-25 14:38

0.00

0.20

0.40

0.60

0.80

1.00

N1 T2

T3

N4

N5 T6

T7

T8

T9

T10

T11

T12

N13

N14

N15 T16

PM

odX

PS

[4]

EGI1 ACP Tumeurs malignes M7.PModXPS

Simca-P 7.01 by Umetri AB 1998-11-25 14:40

Page 131: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

131/198

Les méthodes PLS

V. PLS Path Modelling

(Approche PLS)

Modélisation de relations structurelles sur variables latentes

Page 132: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

132/198

ECSI Path model for a“ Mobile phone provider”

Image

Perceivedvalue

CustomerExpectation

Perceivedquality

Loyalty

Customersatisfaction

Complaint

.493 (.000)

R2=.243

.545 (.000)

.066 (.314)

.037 (.406)

.153 (.006)

.212 (.002)

.540(.000)

.544 (.000)

.200 (.000)

.466(.000)

.540(.000)

.05 (.399)

R2=.297

R2=.335 R2=.672

R2=.432

R2=.292

Page 133: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

133/198

Modélisation de relations structurelles L’approche PLS de Herman WOLD

• Etude d’un système de relations linéaires entre variables latentes (non observables).

• Chaque variable latente est décrite par des variables manifestes (observables).

• Les données sont quantitatives ou qualitatives (pas d’hypothèse de normalité).

• Le nombre d’observations peut être limité par rapport au nombre de variables.

Page 134: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

134/198

Inégalité économique et instabilité politique (Données de Russett, 1964)

Inégalité économiqueInégalité agricole

GINI : Inégalité dans la répartition des terres

FARM : % fermiers possédant la moitié des terres (> 50%)

RENT : % fermiers locataires

Développement industrielGNPR : PNB par habitant ($ 1955)

LABO : % d ’actifs dans l’agriculture

Instabilité politiqueINST : Instabilité de l ’exécutif

(45-61)

ECKS : Nb de conflits violents entre communautés (46-61)

DEAT : Nb de morts dans des manifestations (50-62)

D-STAB : Démocratie stable

D-INS : Démocratie instable

DICT : Dictature

Page 135: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

135/198

Inégalité économique et instabilité politique (Données de Russett, 1964)

47 pays

GiniFarmRentGnprLaboInstEcksDeatrégime

Argentine86.398.232.93742513.6572172

Australie92.999.6*12151411.3001

Autriche 74.097.410.75323212.8402

France 58.386.126.010462616.34612

Yougoslavie43.779.80.0297670.0903

1 = Démocratie stable2 = Démocratie instable3 = Dictature

Page 136: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

136/198

Inégalité économique et instabilité politique

GINI

FARM

RENT

GNPR

LABO

Inégalité agricole (X1)

Développement industriel (X2)

ECKS

DEAT

D-STB

D-INS

INST

DICT

Instabilitépolitique (X3)

1

2

3

++

+

+

-

+++-

++

+

-

Page 137: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

137/198

Inégalité économique et instabilité politiqueLe modèle

• Chaque variable manifeste Xjh s ’écrit :

Xjh = jhh + jh

• Il existe une relation structurelle entre les variables latentes :

Instabilité politique (3)

= 1Inégalité agricole (1) + 2 Dév. industriel (2)

+ résidu

Page 138: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

138/198

Estimation des variables latentes par la méthode PLS

(1) Estimation externe Yh de h : Yh = Xhwh

(2) Estimation interne Zh de h :

(3) Calcul de wh :

whj = cor(Zh , Xhj)

jhj

à reliée hj

h Y))],(cor[signe(Z

hj

Page 139: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

139/198

Inégalité économique et instabilité politiqueEstimation des variables latentes par la méthode PLS

(1) Estimation externe

Y1 = X1w1

Y2 = X2w2

Y3 = X3w3

(2) Estimation interne

Z1 = Y3

Z2 = -Y3

Z3 = Y1 - Y2

(3) Calcul des wh

w1j = cor(X1j , Z1)

w2j = cor(X2j , Z2)

w3j = cor(X3j , Z3)

L’algorithme

• On part de w1, w2, w3 arbitraires.

• On obtient de nouveaux wh en utilisant (1) à (3).

• On itère jusqu’à convergence.

Page 140: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

140/198

Utilisation de PLS-Graph de Wynne Chin

Page 141: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

141/198

Résultats

(Corrélation)

Outer Model================================Variable Weight Loading-------------------------------- ineg_agr outwardgini .4567 .9745farm .5125 .9857rent .1018 .5156-------------------------------- dev_indu outwardgnpr .5113 .9501labo -.5384 -.9551-------------------------------- inst_pol outwardinst .1187 .3676ecks .2855 .8241deat .2977 .7910demostab -.3271 -.8635demoinst .0370 .1037dictatur .2758 .7227================================

Page 142: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

142/198

RésultatsEta .. Latent variables======================================== ineg_agr dev_indu inst_pol----------------------------------------arg .964 .238 .755aus 1.204 1.371 -1.617aut .397 .253 -.480bel -.812 1.530 -.846bol 1.115 -1.584 1.505bré .778 -.654 .302...tai -.009 -.898 -.068ru .134 2.059 -1.046eu .193 2.016 -.942uru .699 .179 -1.298ven 1.149 .252 1.135rfa -.212 1.104 -.494you -2.189 -.654 .125========================================

Page 143: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

143/198

Les résultats de PLS

Estimation des variables latentes

Y1 Y2 Y3

Argentine 0.96 0.24 0.75Australie 1.21 1.37 -1.62

Autriche 0.40 0.25 -0.48

France -0.89 0.80 0.56

Yougoslavie -2.18 -0.65 0.13

Régression multiple de Y3 sur Y1 et Y2

R2 = 0.618

Instabilité politique= 0.217Inégalité agricole – 0.692Développement industriel

(2.24) (-7.22)

(t de Sudent de la régression multiple)

Page 144: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

144/198

Inégalité économique et instabilité politique

GINI

FARM

RENT

GNPR

LABO

Inégalité agricole (X1)

Développement industriel (X2)

ECKS

DEAT

D-STB

D-INS

INST

DICT

Instabilitépolitique (X3)

1

2

3

.975

.986

.516

.950

-.955

.368

.824

.791-.864

.104

.723

.217

-.692 R2

=.618

Page 145: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

145/198

Carte des pays : Y1 = inégalité agricole , Y2 = développement industriel

Y2 „ƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒ† ‚ ‚ ‚ 2.0 ˆ royaume-uni(1) ** états-unis(1) ˆ ‚ ‚ ‚ ‚ ‚ ‚ ‚ * canada(1) ‚ ‚ ‚ * suisse(1) ‚ ‚ 1.5 ˆ * belgique(1) ‚ ˆ ‚ * suède(1) ‚ australie(1) * ‚ ‚ ‚ * nouv._zélande(1) ‚ ‚ * pays-bas(1) ‚ ‚ ‚ * rfa(2) ‚ 1.0 ˆ * luxembourg(1) ˆ ‚ france(2) ‚ ‚ ‚ * danemark(1) * * norvège(1)‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ 0.5 ˆ ‚ ˆ ‚ ‚ ‚ ‚ * finlande(2) ‚ * autriche(2) ‚ ‚ ‚ italie(2) * * argentine(2)‚ ‚ * irlande(1) ‚ uruguay(1) *venezuela(3) ‚ 0.0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆ ‚ ‚ ‚ ‚ ‚ * cuba(3) ‚ ‚ * pologne(3) ‚ chili(2) * ‚ ‚ * japon(2) ‚ * panama(3) * colombie(2) ‚-0.5 ˆ ‚ grèce(2) * * * costa-rica(2)ˆ ‚ * yougoslavie(3) nicaragua(3)* Espagne(3)*brésil(2) ‚ ‚ ‚ salvador(3)* * * équateur(3) ‚ ‚ * philippines(3) rép_dominic.(3) ‚ ‚ taiwan(3) * guatémala(3) * ‚-1.0 ˆ ‚ pérou(3) * * irak(3) ˆ ‚ sud_vietnam(3) * ** honduras(3) ‚ ‚ ‚ égypte(3) ‚ ‚ ‚ ‚ ‚ * libye(3) ‚-1.5 ˆ * inde(1) ‚ ˆ ‚ ‚ bolivie(3) * ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚-2.0 ˆ ‚ ˆ ‚ ‚ ‚ ŠƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒŒ -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Y1

Page 146: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

146/198

Utilisation de PLS-Graph

Page 147: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

147/198

Utilisation de PLS-GraphValidation Bootstrap

Outer Model Weights:==================================================================== Entire Mean of Standard T-Statistic sample subsamples error estimateInégalité agricole: gini 0.4567 0.4514 0.0504 9.0674 farm 0.5125 0.5107 0.0519 9.8810 rent 0.1018 0.0862 0.1989 0.5118

Développement industriel: gnpr 0.5113 0.5136 0.0246 20.8030 labo -0.5384 -0.5375 0.0251 -21.4424

Instabilité politique: inst 0.1187 0.0992 0.0715 1.6604 ecks 0.2855 0.2765 0.0288 9.9173 demostab -0.3271 -0.3261 0.0367 -8.9145 demoinst 0.0370 0.0306 0.0595 0.6223 dictatur 0.2758 0.2803 0.0362 7.6143 death 0.2977 0.2940 0.0319 9.3465====================================================================

Page 148: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

148/198

Utilisation de PLS-GraphValidation Bootstrap

Outer Model Loadings:==================================================================== Entire Mean of Standard T-Statistic sample subsamples error estimateInégalité agricole: gini 0.9745 0.9584 0.0336 28.9616 farm 0.9857 0.9689 0.0329 29.9339 rent 0.5156 0.4204 0.2462 2.0946

Développement industriel: gnpr 0.9501 0.9489 0.0121 78.3692 labo -0.9551 -0.9536 0.0107 -89.1493

Instabilité politique: inst 0.3676 0.3347 0.1756 2.0932 ecks 0.8241 0.8138 0.0699 11.7920 demostab -0.8635 -0.8520 0.0667 -12.9419 demoinst 0.1037 0.0955 0.1611 0.6438 dictatur 0.7227 0.7195 0.0841 8.5915 death 0.7910 0.7977 0.0528 14.9773====================================================================

Page 149: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

149/198

PLS-Graph : Validation BootstapPath Coefficients Table (Entire Sample Estimate):==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric. 0.0000 0.0000 0.0000Dev. Indust. 0.0000 0.0000 0.0000Inst. Pol. 0.2170 -0.6920 0.0000====================================================================

Path Coefficients Table (Mean of Subsamples):==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric. 0.0000 0.0000 0.0000Dev. Indust. 0.0000 0.0000 0.0000Inst. Pol. 0.2328 -0.6743 0.0000====================================================================

Path Coefficients Table (Standard Error):==================================================================== Inég. Agric. Dev. Indust. Instab. Pol.Inég. Agric. 0.0000 0.0000 0.0000Dev. Indust. 0.0000 0.0000 0.0000Instabil 0.1272 0.0900 0.0000====================================================================

Path Coefficients Table (T-Statistic)==================================================================== Inég. Agric. Dev. Indust. Instab. Pol. Inég. Agric. 0.0000 0.0000 0.0000Dev. Indust. 0.0000 0.0000 0.0000Inst. Pol. 1.7054 -7.6855 0.0000====================================================================

Page 150: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

150/198

Validation de l’uni-dimensionalité d’un bloc(Fiabilité de l’outil de mesure)

j j j

2j j j

X

et

Var(X ) Var( ) Var( )

1. AVE (Average Variance Explained)

De

et Var() = 1, on déduit :

2j

j

AVEVar(X )

Règle : AVE > 50%

Page 151: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

151/198

Outer Model ====================================================================== Variable Weight Loading Location ResidVar Communal Redundan ---------------------------------------------------------------------- In galit outward gini 0.4567 0.9745 0.0000 0.0504 0.9496 0.0000 farm 0.5125 0.9857 0.0000 0.0284 0.9716 0.0000 rent 0.1018 0.5156 0.0000 0.7341 0.2659 0.0000 ---------------------------------------------------------------------- D velopp outward gnpr 0.5113 0.9501 0.0000 0.0973 0.9027 0.0000 labo -0.5384 -0.9551 0.0000 0.0877 0.9123 0.0000 ---------------------------------------------------------------------- Instabil outward inst 0.1187 0.3677 0.0000 0.8648 0.1352 0.0835 ecks 0.2855 0.8241 0.0000 0.3208 0.6792 0.4197 death 0.2977 0.7910 0.0000 0.3743 0.6257 0.3867 demoinst 0.0370 0.1037 0.0000 0.9893 0.0107 0.0066 dictatur 0.2758 0.7227 0.0000 0.4777 0.5223 0.3228 demostab -0.3271 -0.8635 0.0000 0.2543 0.7457 0.4608 ======================================================================

Inner Model ====================================================================== Block Mean Location Mult.RSq AvResVar AvCommun AvRedund ---------------------------------------------------------------------- In galit 0.0000 0.0000 0.0000 0.2710 0.7290 0.0000 D velopp 0.0000 0.0000 0.0000 0.0925 0.9075 0.0000 Instabil 0.0000 0.0000 0.6180 0.5469 0.4531 0.2800 ---------------------------------------------------------------------- Average 0.2060 0.3890 0.6110 0.1527 ======================================================================

AVE

Page 152: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

152/198

Validation de l’uni-dimensionalité d’un bloc

j j j

j j j

X

et

X

2. Indice de concordance (Composite Reliability)

De

et Var() = 1, on déduit :

2 2j j

2j j j

( ) ( )IC

Var( X ) ( ) Var( )

Pour interpréter cet indice, il faut supposer tous les j > 0.

Règle : IC > .70

Page 153: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

153/198

Outer Model Loadings:==================================================================== Original Mean of Standard T-Statistic sample subsamples error estimateIn galit:(Composite Reliability = 0.883 , AVE = 0.729 ) gini 0.9745 0.9611 0.0270 36.1090 farm 0.9857 0.9748 0.0195 50.5875 rent 0.5156 0.4513 0.2152 2.3957 D velopp:(Composite Reliability = 0.951 , AVE = 0.907 )**** gnpr 0.9501 0.9502 0.0126 75.1448 labo -0.9551 -0.9538 0.0111 86.2360 Instabil:(Composite Reliability = 0.804 , AVE = 0.453 ) inst 0.3677 0.3471 0.1592 2.3094 ecks 0.8241 0.8153 0.0646 12.7613 death 0.7910 0.7967 0.0458 17.2852 demoinst 0.1037 0.1142 0.1682 0.6164 dictatur 0.7227 0.7094 0.0932 7.7542 demostab -0.8635 -0.8564 0.0612 14.1053====================================================================

**** Tous les loadings sont mis en positif.

Page 154: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

154/198

Validation de l’uni-dimensionalité d’un bloc

3. Validité convergente

La corrélation entre chaque variable manifeste etsa variable latente doit être supérieure à 0.7 envaleur absolue

Page 155: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

155/198

Validité discriminante

1) Une variable manifeste doit être plus corrélée à sapropre variable latente qu’aux autres variables latentes

2) Chaque variable latente doit mieux expliquer ses propres variables manifestes que chaque autre variable latente :

2( ) ( , ) pour h h kAVE Cor k h

Page 156: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

156/198

0R .. Correlations of latent variables ======================================== In galit D velopp Instabil ---------------------------------------- In galit 1.000 D velopp -0.309 1.000 Instabil 0.431 -0.759 1.000 ========================================

AVE sur la diagonale, Cor2 hors diagonale

Page 157: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

157/198

LES CAS PARTICULIERS DE LA METHODE PLS

• Analyse en composantes principales

• Analyse factorielle multiple

• Analyse canonique

• Analyse des redondances (ACPVI)

• Régression PLS

• Analyse canonique généralisée (Horst)

• Analyse canonique généralisée (Carroll)

Page 158: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

158/198

Les options de l’algorithme PLS

Estimation externe

Yj = Xjwj

Mode A :

wjh = cor(Xjh , Zj)

Mode B :

wj = (Xj’Xj)-1Xj’Zj

Estimation interne

Schéma centroïde

eji = signe cor(Yi,Yj)

Schéma factoriel

eji = cor(Yi,Yj)

Schéma structurel

eji = coeff. de régression dans la

régression de Yj sur les Yi

ijij YeZ

Page 159: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

159/198

L’algorithme PLS général

wj

Mode A: wj = (1/n)Xj´Zj

Mode B: wj = (Xj´Xj)-1Xj´Zj

Choix des poids e:Centroïde, Factorielou Structurel(Path weighting scheme)

Étapeinitiale

Yj = Xjwj

Estimationexterne

Yj2

Yj1

Yjm

Zj

ej1

ej2

ejm

Estimationinterne

Page 160: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

Modification de méthodes d’analyse multi-bloc pour l’analyse des modèles de causalité

S U M C O R ( H o r s t , 1 9 6 1 ) ,

( , )j k j kj kM a x c C o r Y Y

M a t h e s ( 1 9 9 3 ) , H a n a f i ( 2 0 0 4 ) : 2

,( , ) j k j kj k

M a x c C o r Y Y

M a t h e s ( 1 9 9 3 ) , H a n a f i ( 2 0 0 4 ) ,

| ( , ) | j k j kj kM a x c C o r Y Y

M A X B E T ( V a n d e G e e r ,

1 9 8 4 & T e n B e r g e , 1 9 8 8 ) : A l l 1

[ ( ) ( , ) ]j

j j j k j j k kj j kwM a x V a r X w c C o v X w X w

M A X D I F F ( V a n d e G e e r ,

1 9 8 4 & T e n B e r g e , 1 9 8 8 ) : A l l 1

[ ( , ) ]j

j k j j k kj kwM a x c C o v X w X w

Mathes-Hanafi 1 Mode B and Schéma factorielMathes-Hanafi 2 Mode B and Schéma centroïde

cjk = 1 si les blocs sont reliés, = 0 sinon

Page 161: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

161/198

Approche PLS : 2 blocs

X1 X2

Mode de calcul des wj

Y1 = X1w1 Y2 = X2w2 Méthode Déflation

A A Régression PLS de X2 sur X1 Sur X1 seulement

B A Analyse des redondances de

X2 par rapport à X1

Sur X1 seulement

A A Analyse Factorielle Inter-Batteriesde Tuker

Sur X1 et X2

B B Analyse canonique Sur X1 et X2

Page 162: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

162/198

Approche PLS : K blocs

X1

XK

.

.

.

X1

.

.

.

XK

Nouveau

Mode de calcul de ijij YeZ

Mode decalcul des wj Centroïde Factoriel Structurel

A - ACP de X- AFM des Xj

B ACG de Horst(SUMCOR)

ACG de Carroll

ACG de Horst PLS

ACG de Carroll PLS

Déflation :sur le super-blocseulement

Page 163: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

163/198

Approche PLS

Exemple d’utilisation de l’approche PLS pour l’analyse de tableaux multiples

(Christiane Guinot et Michel Tenenhaus)

Étude des habitudes de consommation de produitscosmétiques des femmes d’Ile de France

Page 164: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

164/198

Les produits cosmétiques ont été divisés en quatre blocs correspondant à différentes habitudes d’utilisation de produits cosmétiques. Sun

care

Bodycare

Facecare

make-up and eye make-up removers, tonic lotions, day creams, night creams exfoliation products

sun protection products for face and for body after-sun products for face and for body

MakMake-upe-up

blushers, mascaras, eye shadows, eye pencils, lipsticks, lip shiners and nail polish

Les données

soap, liquid soap, moisturising body cream, hand creams

Page 165: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

165/198

Construction d’un score global

Variablesmanifestes

Pratiquescosmétiques

Variablelatente (A)

Scoreglobal

ScoresPartiels

Variableslatentes (B)

Body careBody care

Face careFace care

Make-upMake-up

Sun careSun care

11

22

33

44

Body careBody care

Face Face carecare

Make-Make-upup Sun careSun care

Modèle interne :

schéma centroïde

Page 166: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

166/198

Propension à utiliserdes produits cosmétiques

Scoreglobal

Résultats

11

22

33

44

-.24 .47 .80 .56

.44

.56

.56

.46

.55

.57

.57

.72

.58

.43

.53

.47

.64

.73

.71

.78

-.12

.23 .40 .28 .32 .40 .40 .33 .39 .41 .39 .49 .39 .29 .36 .31

.39 .45 .44 .49

.27

.42

.43

.44

Facecare

MakMake-upe-up

Sun care

soap bodyliquid soapbody creamhand cream

Bodycare

make-up rem.tonic lotioneye m.up rem. day creamnight creamexfoliation pdt

protec faceafter sun faceprotec bodyafter sun body

blushermascara eye shadow eye pencil lipsticknail polish

Soap bodyliquid soapbody creamhand creammake-up removertonic lotioneye m.up remover day creamnight creamexfoliation pdtblushermascara eye shadow eye pencil lipsticknail polishsun protec. faceafter sun facesun protec. bodyafter sun body

Corrélations

Coefficientsde régression

Page 167: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

167/198

Score global Score global = -3.40- .11 * soaps and toilet soaps for body care

+.20 * liquid soaps for body care+.38 * moisturising body creams and milks+.25 * hand creams and milks+.21 * make-up removers+.26 * tonic lotions +.30 * eye make-up removers+.39 * moisturising day creams+.30 * moisturising night creams+.30 * exfoliation products+.26 * blushers+.41 * mascaras+.26 * eye shadows+.20 * eye pencils+.33 * lipsticks and lip shiners+.20 * nail polish+.36 * sun protection products for the face+.31 * moisturising after sun products for the face+.38 * sun protection products for the body+.34 * moisturising after sun products for the body

Calcul du score global

Page 168: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

168/198

Histogrammes des scores partiels

Score body-careScore body-care Score facial-careScore facial-care

Score make-upScore make-up Score sun-careScore sun-care

Page 169: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

169/198

S_body-care S_facial-care S_make-up S_sun-care

S_facial-care 0.24001 S_make-up 0.13462 0.35035 S_sun-care 0.16500 0.19075 0.14273

S_global S_global 0.50263 0.71846 0.67347 0.62071 0.50263 0.71846 0.67347 0.62071

Histogramme du score global

Page 170: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

170/198

Facteurs influençant l’utilisation de produits cosmétiques

On peut relier le score global d’utilisation de produits cosmétiques à des caractéristiques décrivant les consommatrices :

Activité professionnelle et CSP Enfants Habitudes d ’exposition solaire Pratiques sportives Importance de l ’apparence physique Type de peau (visage et corps) Age

Page 171: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

171/198

Score global en fonction des caractéristiquesdes consommatrices

E(Score global) = -1.02+.21 * professional activity

+.07 * housewife or student+.00 * retired+.27 * CSP A (craftsmen, trades people, business

managers, managerial staff,academics and professionals)

+.09 * CSP B (farmers and intermediary professions)+.05 * CSP C (employees and working class people)+.00 * CSP D (retired and non working people)-.21 * without child+.00 * with child +.40 * habits of deliberate exposure to sunlight+.09 * previous habits of deliberate exposure to sunlight+.00 * no habits of deliberate exposure to sunlight-.17 * no sport practised +.00 * sport practised+1.04 * physical appearance is of extreme importance+.89 * physical appearance is of high importance

+.50 * physical appearance is of some importance+.00 * physical appearance is of little importance-.06 * oily facial skin+.16 * combination facial skin-.20 * normal facial skin+.00 * dry facial skin-.32 * oily body skin-.57 * combination body skin-.32 * normal body skin +.00 * dry body skin-.00 * age

Page 172: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

172/198

E(Global score)= -1.02-1.02+.21 * professional activity+.21 * professional activity

+.07 * housewife or student+.00 * retired+.27 * CSP A (craftsmen, trades people, business managers, +.27 * CSP A (craftsmen, trades people, business managers,

managerial managerial staff, academics and professionals) staff, academics and professionals) +.09 * CSP B (farmers and intermediary professions)+.05 * CSP C (employees and working class people)+.00 * CSP D (retired and non working people)- .21 * without child+.00 * with child+.00 * with child +.40 * habits of deliberate exposure to sunlight+.40 * habits of deliberate exposure to sunlight+.09 * previous habits of deliberate exposure to sunlight+.00 * no habits of deliberate exposure to sunlight- .17 * no sport practised +.00 * sport practised+.00 * sport practised+1.04 * physical appearance is of extreme importance+1.04 * physical appearance is of extreme importance+.89 * physical appearance is of high importance

+.50 * physical appearance is of some importance+.00 * physical appearance is of little importance- .06 * oily facial skin+.16 * combination facial skin+.16 * combination facial skin- .20 * normal facial skin+.00 * dry facial skin- .32 * oily body skin- .57 * combination body skin- .32 * normal body skin +.00 * dry body skin+.00 * dry body skin- .00 * age

1.061.06

Exemple d’un bon profil

Page 173: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

173/198

E(Score global)= -1.02-1.02+.21 * professional activity

+.07 * housewife or student+.00 * retired+.00 * retired+.27 * CSP A (craftsmen, trades people, business managers,

managerial staff, academics and professionals) +.09 * CSP B (farmers and intermediary professions)+.05 * CSP C (employees and working class people)+.00 * CSP D (retired and non working people)+.00 * CSP D (retired and non working people)-.21 * without child-.21 * without child+.00 * with child +.40 * habits of deliberate exposure to sunlight+.09 * previous habits of deliberate exposure to sunlight+.00 * no habits of deliberate exposure to sunlight+.00 * no habits of deliberate exposure to sunlight-.17 * no sport practised -.17 * no sport practised +.00 * sport practised+1.04 * physical appearance is of extreme importance+.89 * physical appearance is of high importance

+.50 * physical appearance is of some importance+.00 * physical appearance is of little importance+.00 * physical appearance is of little importance-.06 * oily facial skin+.16 * combination facial skin-.20 * normal facial skin-.20 * normal facial skin+.00 * dry facial skin-.32 * oily body skin-.57 * combination body skin-.57 * combination body skin-.32 * normal body skin +.00 * dry body skin-.00 * age

-2.00-2.00

Exemple d’un profil non cible

Page 174: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

174/198

L’utilisation de l’approche PLS a permis d’obtenir un score de la propension à utiliser des produits cosmétiques en équilibrant les différents types de produits cosmétiques de manière plus efficace que l ’analyse en composantes principales.

Conclusion

Page 175: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

175/198

Les méthodes PLS

VI. Régression logistique PLS

Page 176: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

176/198

Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures moyennes journalières

• SOLEIL : Durée d’insolation

• CHALEUR : Nombre de jours de grande chaleur

• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon, Moyen, Médiocre

Page 177: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

177/198

Les données 3064 1201 10 361 2

3000 1053 11 338 3

3155 1133 19 393 2

3085 970 4 467 3

3245 1258 36 294 1

3267 1386 35 225 1

3080 966 13 417 3

2974 1189 12 488 3

3038 1103 14 677 3

3318 1310 29 427 2

3317 1362 25 326 1

3182 1171 28 326 3

2998 1102 9 349 3

3221 1424 21 382 1

3019 1230 16 275 2

3022 1285 9 303 2

3094 1329 11 339 2

3009 1210 15 536 3

3227 1331 21 414 2

3308 1366 24 282 1

3212 1289 17 302 2

3361 1444 25 253 1

3061 1175 12 261 2

3478 1317 42 259 1

3126 1248 11 315 2

3458 1508 43 286 1

3252 1361 26 346 2

3052 1186 14 443 3

3270 1399 24 306 1

3198 1259 20 367 1

2904 1164 6 311 3

3247 1277 19 375 1

3083 1195 5 441 3

3043 1208 14 371 3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Température Soleil Chaleur Pluie Qualité

Page 178: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

178/198

Régression logistique ordinale

Pluie4Chaleur3Soleil2eTempératur1i

Pluie4Chaleur3Soleil2eTempératur1i

e1

e

PROB(Y i) =

Y = Qualité : Bon (1), Moyen (2), Médiocre (3)

Page 179: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

179/198

Régression logistique ordinaleRésultats SAS

Score Test for the Proportional Odds Assumption

Chi-Square = 2.9159 with 4 DF (p=0.5720)

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

INTERCP1 1 -2.6638 0.9266 8.2641 0.0040INTERCP2 1 2.2941 0.9782 5.4998 0.0190TEMPERA 1 3.4268 1.8029 3.6125 0.0573SOLEIL 1 1.7462 1.0760 2.6335 0.1046CHALEUR 1 -0.8891 1.1949 0.5536 0.4568PLUIE 1 -2.3668 1.1292 4.3931 0.0361

Page 180: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

180/198

Régression logistique ordinaleQualité de prévision du modèle

QUALITE PREVISIONOBSERVEEEffectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 8 ‚ 3 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 10 12 12 34

Résultat : 7 années mal classées

Page 181: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

181/198

Régression logistique ordinaleCommentaires

• Le modèle à pentes égales est acceptable

(p = 0.572).• La chaleur a une influence positive sur la

qualité du vin de Bordeaux, alors qu’elle apparaît comme non significative et avec un coefficient négatif dans le modèle.

• C ’est un problème de multicolinéarité.• Il y a 7 années mal classées.

Page 182: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

182/198

Régression logistique PLS

• Bonne solution au problème de la multicolinéarité.

• Il peut y avoir beaucoup plus de variables que d’observations.

• Il peut y avoir des données manquantes.

• Présentation de deux algorithmes.

Page 183: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

183/198

Algorithme 1 : La régression logistique PLS avec sélection de

variables

Etape 3 : Expression de la régression logistique en

fonction de X.

Etape 1 : Recherche de m composantes orthogonales Th = Xah explicatives de leur propre groupe

et bien prédictives de y.

Le nombre m correspond au nombre de composantessignificatives.

Etape 2 : Régression logistique de Y sur les composantes Th .

Page 184: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

184/198

Régression logistique PLS Étape 1 : Construction de T1

1. Régression logistique de y sur chaque xj :

les coefficients de régression a1j

Les coefficients de régression a1j non significatifs sont mis à

0. Seules les variables significatives contribuent à la construction de T1.

2. Normalisation du vecteur a1= (a11,…,a1k)

3. Calcul de T1 = Xa1

4. Régression logistique de y sur T1=Xa1 exprimée en fonction

des X

Page 185: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

185/198

Application Bordeaux Étape 1 : Construction de T1

Coefficient p-valueTempératureSoleilChaleurPluie

3.01173.34012.1445-1.7906

.0002

.0002

.0004

.0016

Les quatre régressions logistiques :

La composante PLS T1 :

Pluie 3382.0Chaleur 4050.0Soleil 6309.0eTempératur 5688.0

)7906.1()1445.2()3401.3()0117.3(

Pluie 7906.1Chaleur 1445.2Soleil 3401.3eTempératur 0117.3 T

22221

Page 186: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

186/198

Application Bordeaux Étape 2 : Régression logistique sur T1

Analysis of Maximum Likelihood Estimates

StandardParameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -2.2650 0.8644 6.8662 0.0088Intercept2 1 2.2991 0.8480 7.3497 0.0067t1 1 2.6900 0.7155 14.1336 0.0002

TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE

QUALITÉ PRÉDICTION

Effectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 11 11 12 34

6 mal classés

Page 187: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

187/198

Application Bordeaux Étape 3 : Régression logistique en fonction des X

P r o b ( Y = 1 ) = Pluie91.-Chaleur 09.1 Soleil70.1 eTempératur53.15265.2

Pluie91.-Chaleur 09.1 Soleil70.1 eTempératur53.1265.2

e1

e

e t

P r o b ( Y 2 ) = Pluie91.-Chaleur 09.1 Soleil70.1 eTempératur53.12991.2

Pluie91.-Chaleur 09.1 Soleil70.1 eTempératur53.12991.2

e1

e

Commentaires : Ce modèle est plus cohérent au niveau des coefficients de régression que le modèle de régression logistiqueordinale usuelle et conduit ici à un mal classé de moins surl’échantillon utilisé.

Page 188: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

188/198

Application Bordeaux Validation Bootstrap du modèle à une composante

(100 échantillons)

Temperature

2.31

2.19

2.06

1.94

1.81

1.69

1.56

1.44

1.31

1.19

1.06

30

20

10

0

Std. Dev = .23

Mean = 1.53

N = 100.00

Sun

2.88

2.75

2.63

2.50

2.38

2.25

2.13

2.00

1.88

1.75

1.63

1.50

1.38

1.25

1.13

1.00

.88

.75

16

14

12

10

8

6

4

2

0

Std. Dev = .42

Mean = 1.71

N = 100.00

Heath

1.50

1.44

1.38

1.31

1.25

1.19

1.13

1.06

1.00

.94

.88

.81

.75

.69

.63

30

20

10

0

Std. Dev = .16

Mean = 1.06

N = 100.00

Rain

16

14

12

10

8

6

4

2

0

Std. Dev = .23

Mean = - .87

N = 100.00

Page 189: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

189/198

Application Bordeaux Validation Bootstrap du modèle à une composante

Intervalle de confiance à 95% des coefficients

100100100100N =

RainHeathSunTemperature

Me

an

+-

2 S

D

3

2

1

0

-1

-2

Heat

Page 190: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

190/198

1. Régression logistique de y sur T1 et chaque variable xj.

Pour construire T2 on ne sélectionne que les variables xj significatives.

2. On construit les résidus x1j des régressions des xj sélectionnés sur T1.

3. On construit les régressions logistiques de y sur T1 et chaque x1j retenu.

les coefficients de régression b2j de x1j.

4. Normalisation du vecteur b2= (b21,…,b2k´)

5. Calcul de a2 tel que : T2 = X1b2 = Xa2

6. Régression logistique de y sur T1= Xa1 et T2 = Xa2 exprimée en fonction des X

Régression logistique PLS Construction de T2

Page 191: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

191/198

Application Bordeaux Sélection des variables contribuant

à la construction de T2

Coefficient p-valueTempératureSoleilChaleurPluie

-.6309.6459

-1.9407-.9798

.6765

.6027

.0983

.2544

Régression logistique de la qualité sur T1 et chaque X

Commentaires : En choisissant un risque de 5% on décidedonc de ne conserver qu’une seule composante PLS.

Page 192: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

192/198

Algorithme 2 Régression logistique sur composantes PLS

(1) Régression PLS des indicatrices de Y

sur les X.

(2) Régression logistique de Y sur les

composantes PLS des X.

Page 193: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

193/198

Régression logistique sur les composantes PLSRésultats

• La température de 1924 est supposée inconnue.• La régression PLS des indicatrices de Y sur X a

conduit à une seule composante PLS t1 (résultat de la validation croisée).

• t1 = 0.55Température + 0.55Soleil +0.48Chaleur

– 0.40Pluie

• Pour l’année 1924 : t1 = (0.55Soleil +0.48Chaleur– 0.40Pluie)/0.69

Page 194: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

194/198

Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux

The PLS ProcedureCross Validation for the Number of Latent Variables

Test for larger residuals than minimumNumber of Root Latent Mean Prob >Variables PRESS PRESSƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1.0313 0 1 0.8304 1.0000 2 0.8313 0.4990 3 0.8375 0.4450 4 0.8472 0.3500

Minimum Root Mean PRESS = 0.830422 for 1 latent variableSmallest model with p-value > 0.1: 1 latent

TABLE OF QUALITE BY PREV

QUALITE PREV

Frequency‚ 1‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 11 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 4 ‚ 7 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 16 18 34

Résultat : 12 années mal classées

Choix d’une composante PLS

Page 195: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

195/198

Résultats de la régression logistique de Y sur la composante PLS t1

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

INTERCP1 1 -2.1492 0.8279 6.7391 0.0094INTERCP2 1 2.2845 0.8351 7.4841 0.0062t1 1 2.6592 0.7028 14.3182 0.0002

TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE

QUALITÉ PRÉDICTION

Effectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 11 11 12 34

Résultat : 6 années mal classées

Page 196: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

196/198

Régression logistique sur composantes PLSLe modèle

Prob (Y i)

1t66.228.215.2

1t66.228.215.2

e1

e

MoyenBon

MoyenBon

Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

e1

e

Page 197: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

197/198

Conclusion 1: Régression logistique PLSvs régression logistique sur composantes PLS

• Les deux algorithmes présentés devraient avoir des qualités comparables.

• L ’algorithme 2 est beaucoup plus simple :

Deux étapes :

(1) Régression PLS des indicatrices de Y sur X

(2) Régression logistique de Y sur les composantes PLS

Page 198: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

198/198

Conclusion 2: La régression linéaire généralisée PLS

• La régression linéaire généralisée PLS peut être construit selon les mêmes procédures.

• Approche beaucoup plus simple que la méthode de Brian Marx : « Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression », Technometrics, 1996.

Page 199: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

199/198

Quelques références sur les méthodes PLS

- J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989

- CHIN W.W. (2003) : PLS-Graph User’s Guide, C.T. Bauer College of Business, University of Houston, Houston.

- M. Tenenhaus : L’approche PLS, R.S.A., 47 (2), 5-40, 1999

- M. Tenenhaus, V. Esposito Vinzi, Y.-M. Chatelin, C. Lauro : PLS Path modeling, Computational Statistics & Data Analysis, 2005

Régression PLS

- L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and Megavariate Data Analysis using Projection Methods (PCA & PLS), 2nd edition Umetrics, 2005.- H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000- SIMCA-P 10.0 : PLS Software, S. WOLD, UMETRI (Sweden), distribué par SIGMA PLUS, Levallois-Perret.- M. Tenenhaus : La régression PLS, Editions Technip, 1998- P. Bastien, V. Esposito Vinzi, M. Tenenhaus : PLS generalized linear regression, Computational Statistics & Data Analysis, 2005

Approche PLS (PLS Path modeling)

Page 200: Les Méthodes PLS Michel Tenenhaus tenenhaus@hec.fr

200/198

Conclusion générale

« All the proofs of a pudding are in the eating, not in the cooking ».

William Camden (1623)