méthodes de régression

41
B. Palagos Année 2008 - 2009 B.Palagos UM R ITAP Cem agref [email protected] Méthodes de régression

Upload: violet

Post on 20-Jan-2016

52 views

Category:

Documents


1 download

DESCRIPTION

Méthodes de régression. LA REGRESSION LINEAIRE. Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x 1 ,….., x p. Par exemple y peut-être le prix du pain en fonction de la teneur en eau x y x i - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Méthodes de régression

B. Palagos Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

B. PalagosUMR ITAPCemagref

[email protected]

Méthodes de régression

Page 2: Méthodes de régression

2 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Utilisée pour expliquer, décrire ou prédire une variable quantitative y en fonction d’une ou plusieurs variables x1 ,….., xp.

Par exempley peut-être le prix du pain en fonction de la teneur en eau x

y xi

réponse prédicteur(s)variable à expliquer variable(s) explicative(s)sortie entrée(s)variable dépendante variable(s) indépendante(s)variable exogène variable(s) endogène (s)

p = 1 régression linéaire simplep > 1 régression linéaire multiple (MLR)

LA REGRESSION LINEAIRE

Page 3: Méthodes de régression

3 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

MESURE DE LA RELATION ENTRE 2 VARIABLES CONTINUES

2500 3000 3500 4000

6080

100

120

140

EAU

PR

IPRIX du pain en fonction de la teneur en EAU

Corrélation : -0.76

PRI EAU

63.00 3635.00

77.00 3190.00

86.00 3530.00

89.00 3350.00

91.00 3070.00

92.00 3130.00

92.00 3635.00

95.00 3490.00

95.00 3460.00

106.00 3380.00

74.00 3500.00

76.00 4030.00

85.00 3365.00

57.00 3515.00

95.00 3960.00

132.00 2925.00

152.00 2720.00

153.00 2340.00

Page 4: Méthodes de régression

4 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

: Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations)

2 échantillons x et y de moyennes et

r estimateur de

r est toujours compris entre -1 et + 1.

si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0).

r = 0 Pas de lien linéaire entre x et y

COEFFICIENT DE CORRELATION

x y

n

ii

n

ii

n

iii

yyxx

yyxxyxr

1

2

1

2

1

)()(

))((),(

Page 5: Méthodes de régression

5 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Si taille échantillon n est faible il faut être prudent

sur la significativité du coefficient calculé. Il existe

des tables statistiques (et logiciels) qui donnent la

limite de significativité de r .

COEFFICIENT DE CORRELATION

Page 6: Méthodes de régression

6 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

ddl = n-2

n=3 r > 0.99n= 7 r > 0.75

Page 7: Méthodes de régression

7 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

r = .6 r = 1

COEFFICIENT DE CORRELATION

1),(1 yxr

Page 8: Méthodes de régression

8 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

COEFFICIENT DE CORRELATION

r = 0.5 r = - 0.9

r = 0.8r = 0.0

Toujours faire un graphique

Page 9: Méthodes de régression

9 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

2500 3000 3500 4000

6080

100

120

140

EAU

PR

I

FAIRE PASSER UNE DROITE

On modélise la relation linéaire entre y et x par y = a+b x (équation d’une droite)

Page 10: Méthodes de régression

10 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

2500 3000 3500 4000

60

80

10

01

40

EAU

PR

I minimumˆ

2

1

n

iii yyOn cherche la droite (a et b ) telle

que

iy

MOINDRES CARRES

iy

iy - iy

ix

iy),(scoordonnéedepoints ii yx

ii bxay ˆ

bxay ˆ

MCO

Page 11: Méthodes de régression

11 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

RESULTAT DES MOINDRES CARRES

2500 3000 3500 4000

6080

100

120

140

EAU

PR

I

2500 3000 3500 4000

6080

100

140

EAU

PR

IPRI = 258 – 0.05 EAU

Équation de la droite

MCO

Page 12: Méthodes de régression

12 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

xbya

xx

xxyyb n

ii

n

iii

1

2

1

)(

)(

bxay ˆ

xy iii xy

Moindre carrés : a et b tels que minimum

2

11

2 )(

n

iii

n

ii bxay

ESTIMATIONS – Cas p=1

coefficients de régression

b (pente) et a (ordonnée à l’origine)

Page 13: Méthodes de régression

13 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

2 3 4 5 6 7 8

45

67

8

x

y

ix

iy

iy

y

yyi

ii yy ˆ

yyi ˆ

n

ii yySST

1

2)(

n

iii yySSE

1

2)ˆ(

n

ii yySSR

1

2)ˆ(SSESSRSST

CAS DE LA REGRESSION SIMPLE p=1

Page 14: Méthodes de régression

14 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

R2 = SSR/SST coefficient de détermination ou pourcentage de variance expliquée par la régression

10 2 R

Quand p=1 R² = r² r : coefficient de corrélation linéaire

Pour le pain: r=-0.76 donc R²= (-0.76)²

COEFFICIENT DE DETERMINATION - R²

n

ii

n

ii

yy

yy

R

1

2

1

2

2

)(

)ˆ(

Propriétés Permet de juger de la qualité de la régression

Idéal R² = 1

Mauvaise régression: R² = 0

Page 15: Méthodes de régression

15 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

=

Étalonnage d’un appareil de mesure

variété référence infrarougeAmi 8.6 9.1Apollo 11.1 12.4Arminda 11.6 12.5Artaban 10.9 10.1Avital 10 10.6Baroudeur 11.6 11.5Beauchamp 10.4 10.8CWRS 11.6 11.3Camp-Remy 12.9 11.6Carolus 9 8.2Castan 13.1 12.9Centauro 10.3 10.4Courtot 13.1 13.3Duck 11.6 11.3Manital 14 13.7Recital1 11.5 11.1Recital2 10.5 9.8Rossini 9.7 9.1Scipion 11 11.6Sidéral 11.6 11.5Sleipjner 12 13.2Soissons1 10.6 10.1Soissons2 10 10.3Tango 11.5 11.5Thésée 10.1 9.2Win 11.8 11.5

Taux de protéine de 26 variétés de blé

- analyse chimiques très précises, très longues (mesure de référence) ( x )

- Spectrométrie proche infra-rouge (SPIR) plus rapide mais mesure indirecte à mettre en relation avec méthode de référence (y)

- régression y= a+bx+E

Données / droite de régressionR²=0.785

8.2

9.2

10.2

11.2

12.2

13.2

14.2

8.6 9.6 10.6 11.6 12.6 13.6 14.6

référence

infr

aro

ug

e

y = 0.157+0.981x

Page 16: Méthodes de régression

16 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Response: infrarouge Df Sum Sq Mean Sq F value Pr(>F) Reference 1 38.731 38.731 87.954 1.696e-09 ***Residuals 24 10.569 0.440 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.1566 1.1741 0.133 0.895 reference 0.9808 0.1046 9.378 1.70e-09 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  Residual standard error: 0.6636 on 24 degrees of freedomMultiple R-Squared: 0.7856, Adjusted R-squared: 0.7767 F-statistic: 87.95 on 1 and 24 DF, p-value: 1.696e-09

Étalonnage d’un appareil de mesure

p-value

Calculs avec logiciel R

Page 17: Méthodes de régression

17 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

2

)ˆ(

ˆ 1

2

2

n

yyn

iii

Variance de l’erreur

Variance de j

n

ii xx

j

1

2

22

)(

ˆˆ

T Loi de Student à n-2 degrés de liberté :

valeur t ayant la probabilité d'être dépassée en valeur absolue.

P ( - t T t ) = 1 - . Ou : P ( T - t ) = /2 = P ( T t )

ˆHderejettsi

j

j

TEST DE NULLITE D’ UN COEFFICIENT

Les tests supposent hypothèse normalité des erreurs (vérification a posteriori)

0:0 jHTest Coefficient pas significatif

Page 18: Méthodes de régression

18 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

8 9 10 11 12 13

-1.0

-0.5

0.0

0.5

1.0

infrarouge

resi

du

als

(ca

liblm

)

-2 -1 0 1 2

-1.0

0.0

1.0

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

COMMENT VERIFIER LES HYPOTHESES SUR L’ERREUR

On regarde les résidus après régression iii yye ˆ

Pour vérifier l’homoscedastictéPour vérifier la normalité

Page 19: Méthodes de régression

19 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

JUGEMENT REGRESSION - R²

5 régressions

a: régression sans pb

b: modèle pas bon- résidus <0 puis >0 puis <0modèle quadratique

c: a priori une observation atypique

d: points alignés mais s’écartent différemment (variance erreurs pas constante)

e: droite n’existe que par la dernière observation

Page 20: Méthodes de régression

20 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Explication de la consommation de « fuel »

On veut modéliser la consommation d ’un agent énergétique en fonction de facteurs explicatifs :

• La température moyenne sur un mois est une explication de la consommation

• L ’épaisseur de l ’isolation en est un autre

REGRESSION LINEAIRE MULTIPLE (MLR)

Gallons/Month Avrg. Temp (oF) Insulation (Inches)

275.30 40.00 3.00363.80 27.00 3.00164.30 40.00 10.0040.80 73.00 6.0094.30 64.00 6.00230.90 34.00 6.00366.70 9.00 6.00300.60 8.00 10.00237.80 23.00 10.00121.40 63.00 3.0031.40 65.00 10.00203.50 41.00 6.00441.10 21.00 3.00323.00 38.00 3.0052.50 58.00 10.00

Page 21: Méthodes de régression

21 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

REGRESSION LINEAIRE MULTIPLE (MLR)

Un modèle de régression linéaire

Observation i de la consommation mensuelle

Terme constant

Influence de la température

Influence de l ’isolation

Erreur aléatoire

iiii xxy 2211

Page 22: Méthodes de régression

22 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

n observations yi p variables xj continues n > p

Pour chaque observation : iippii xxy .....11

terme d’erreur non observéCoefficients inconnus

REGRESSION LINEAIRE MULTIPLE (MLR)

Modèle fuel : n=15 p=2

Page 23: Méthodes de régression

23 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Source de variation (source)

Somme des carrés (sum of square)

Ddl (df) Carrés moyens (mean square)

Régression p

Erreurs (résiduals)

n-p-1

Totale n-1

n

iii yySSE

1

2)ˆ(

n

ii yySSR

1

2)ˆ(

n

ii yySST

1

2)(21

2

1

)(

1 y

n

ii

Sn

yy

n

SST

1

)ˆ(

11

2

pn

yy

pn

SSECME

n

iii

p

yy

p

SSRCMM

n

ii

1

2)ˆ(

Décomposition de la variance et tests

Page 24: Méthodes de régression

24 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

R2 coefficient de détermination ou pourcentage de variance expliquée par la régression

10 2 R

Quand p=1 R² = r² r : coefficient de corrélation linéaire

1

)1( 22

pn

pRnRaj

COEFFICIENT DE DETERMINATION - R²

n

ii

n

ii

yy

yy

R

1

2

1

2

2

)(

)ˆ(

Propriétés

• Si p augmente R²

Permet de juger de la qualité de la régression

Idéal R² = 1

Mauvaise régression: R² = 0

>

il existe R² ajusté

Page 25: Méthodes de régression

25 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

TEST DE L’EXISTENCE DU MODELE

)1,(1/

/

pnpF

pnSSE

pSSR

n

iii yySSE

1

2)ˆ(

n

ii yySSR

1

2)ˆ(

F Loi de Fisher à (p,n-p-1 )degrés de liberté :

valeur f ayant la probabilité 0.05 d'être dépassée.

01/

/Hderejetf

pnSSE

pSSRSi

0........: 210 pHTest

yyacceptéeHSi :0

Page 26: Méthodes de régression

26 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

EXEMPLE de MLR

  reg1=lm(rdt ~ eng + pluie) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 28.095238 2.491482 11.277 0.000352 ***eng 0.038095 0.005832 6.532 0.002838 ** pluie 0.833333 0.154303 5.401 0.005690 ** ---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1  Residual standard error: 2.315 on 4 degrees of freedomMultiple R-Squared: 0.9814, Adjusted R-squared: 0.972 F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472 

rendement maïs dose engrais niveau précipitationy x1 x240 100 1050 200 2050 300 1070 400 3065 500 2065 600 2080 700 30

p-value

Page 27: Méthodes de régression

27 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

quantité de :V1 : tricalcium aluminateV2 : tricalcium silicateV3 : tetracalcium alumino ferriteV4 : dicalcium silicateCAL: calories par gramme de ciment

V1 V2 V3 V4 CAL7 26 6 60 78.51 29 15 52 74.3

11 56 8 20 104.311 31 8 47 87.67 52 6 33 95.6

11 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.1

21 47 4 26 115.91 40 23 34 83.8

11 66 9 12 113.310 68 8 12 109.4

REGRESSION MLR cas multicolinéarité

Exemple de traitement

X y

Page 28: Méthodes de régression

28 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

V1 V2 V3 V4 CAL

020

40

60

80

100

120

V1 V2 V3 V4 CAL

V1 1 0.23 -0.82 -0.24 0.73

V2 1 -0.13 -0.97 0.82

V3 1 0.03 -0.53

V4 1 -0.82

V5 1

V1 V2 V3 V4 CAL

min 1 26 4 6 72.5

Q1 2 31 8 20 83.8

Q2 7 52 9 26 95.6

moy 7.5 48.2 11.8 30 95.4

Q3 11 56 17 44 109.2

max 21 71 23 60 115.9

s 5.9 15.6 6.4 16.7 15.1

Matrice de corrélation

REGRESSION MLR

Page 29: Méthodes de régression

29 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Estimate Std. Error t value Pr(>|t|) (Intercept) 63.4888 70.0031 0.907 0.3909 V1 1.5494 0.7440 2.082 0.0709V2 0.4960 0.7231 0.686 0 0.5121 V3 0.1004 0.7540 0.133 0.8974 V4 -0.1572 0.7084 -0.222 0.8299  Residual standard error: 2.444 on 8 degrees of freedomMultiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 F-statistic: 111.7 on 4 and 8 DF, p-value: 4.721e-07 

REGRESSION MLR

Résultats de la régression MLR

Au risque de 5% aucun coefficient n’est significatif que faire????

Xy

Page 30: Méthodes de régression

30 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

ACP sur le tableau X comprenant les variables V1 V2 V3 V4Valeur propres[1] 2.235 1.576 0.186 0.001Proportion of Variance 0.558 0.394 0.0466 0.0004Cumulative Proportion 0.558926 0.9529425 0.99959406 1.0000000000 Loadings (vecteurs propres):

C1 C2 C3 C4v1 -0.476 0.509 0.676 0.241v2 -0.564 -0.414 -0.314 0.642v3 0.394 -0.605 0.638 0.268v4 0.548 0.451 -0.195 0.677

C1= - 0.476 v1 – 0.564 v2 + 0.394 v3 + 0.548 v4C2= 0.509 v1 – 0.414 v2 - 0.605 v3 + 0.451 v4C3= 0.676 v1 – 0.314 v2 + 0.638 v3 - 0.195 v4C4= 0.241 v1 + 0.642 v2 + 0.268 v3 + 0.677 v4

REGRESSION SUR COMPOSANTES PRINCIPALES

On fait une ACP normée sur le tableau X donc sans la variable CAL

Combinaisons linéaires

U =

Page 31: Méthodes de régression

31 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

C1 C2 C3 C4

1 -1.4672378 -1.9030358 -0.53000037 0.038529908

2 -2.1358287 -0.2383536 -0.29018640 -0.029832930

3 1.1298705 -0.1838772 -0.01071259 -0.093700786

4 -0.6598954 -1.5767743 0.17920354 -0.033116396

5 0.3587645 -0.4835379 -0.74012232 0.019187145

6 0.9666396 -0.1699440 0.08570243 -0.012167032

7 0.9307051 2.1348166 -0.17298595 0.008295395

8 -2.2321379 0.6916707 0.45971967 0.022605633

9 -0.3515156 1.4322451 -0.03156437 -0.044987631

10 1.6625430 -1.8280967 0.85119311 0.019836723

11 -1.6401799 1.2951128 0.49417844 0.031388975

12 1.6925940 0.3922488 -0.01980997 0.037185301

13 1.7456786 0.4375254 -0.27461537 0.036775709

V1 V2 V3 V4 CAL7 26 6 60 78.51 29 15 52 74.3

11 56 8 20 104.311 31 8 47 87.67 52 6 33 95.6

11 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.1

21 47 4 26 115.91 40 23 34 83.8

11 66 9 12 113.310 68 8 12 109.4

SCORESX y C

REGRESSION SUR COMPOSANTES PRINCIPALES

ACP sur XMLR

Page 32: Méthodes de régression

32 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 95.4000 0.6430 148.373 < e-10 ***

C1 9.8791 0.4476 22.072 3.8e-09 ***

C2 0.1327 0.5331 0.249 0.8091

C3 4.6539 1.5492 3.004 0.0149 *

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.318 on 9 degrees of freedom

Multiple R-Squared: 0.9822, Adjusted R-squared: 0.9763

F-statistic: 165.4 on 3 and 9 DF, p-value: 3.45e-08

REGRESSION SUR COMPOSANTES PRINCIPALES

CAL = 95.4 + 9.88 C1 + 0.13 C2 +4.65 C3

On repasse aux variables initiales:

CAL = 95.4 + 7.78 V1 + 4.16 V2 + -0.85 V3 – 6.38 V4

Page 33: Méthodes de régression

33 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

REGRESSION PLS

Méthode plus récente

Partial Least Square

Proche de la régression sur composantes principales

RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y).

PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

Page 34: Méthodes de régression

34 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

REGRESSION PLS et PCR

RCP et PLS : On remplace l’espace initial par un espace de faible dimension engendré par un petit nombre de composantes (ou facteurs) ou variables latentes qui sont construites l’une après l’autre de façon itérative. Ces facteurs seront les nouvelles variables explicatives d’un modèle de régression linéaire.

Les facteurs sont orthogonaux (non corrélés), et sont des combinaisons linéaires des variables explicatives initiales.

RCP : facteurs calculés qu’à partir des variables initiales (et donc sans référence à la variable à expliquer y).

PLS : La variable à expliquer et les variables explicatives sont prises en comptes simultanément.

Page 35: Méthodes de régression

35 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

• Notion de covariance :

-0.4 -0.2 0 0.2 0.4 0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5 Cov>0Cov<0

Cov0

yyxx ii

REGRESSION PLS

Page 36: Méthodes de régression

36 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

• Notion de covariance (bis) :– Cov(x,y) = (x) (y) r(x,y)

x

y

xTycov(x,y)

||y|| (y)

||x|| (x)

cos(x,y) = r(x,y)

Dans Rn

REGRESSION PLS

Page 37: Méthodes de régression

37 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

• Comment ça marche :– Cherche les combinaisons linéaires u de X, telles

que :

Cov(Xu,y) maximale

– Une régression est ensuite calculée entre les variables latentes de X et y

REGRESSION PLS

Page 38: Méthodes de régression

38 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

v633 v649 v666 v683 v700 v716 v733 ytep1 0.70 0.94 1.48 1.40 0.31 0.06 0.06 87.372 1.93 2.47 3.49 3.14 0.90 0.24 0.12 87.163 1.27 1.66 2.45 2.21 0.54 0.13 0.08 87.574 1.07 1.22 1.71 1.51 0.36 0.10 0.10 87.165 0.49 0.64 1.00 0.90 0.15 0.01 0.04 85.996 0.59 0.83 1.30 1.15 0.19 0.01 0.04 86.417 0.43 0.46 0.69 0.65 0.14 0.04 0.07 80.758 0.53 0.48 0.67 0.64 0.14 0.03 0.06 78.749 1.25 1.30 1.67 1.62 0.65 0.33 0.25 79.2610 3.18 3.81 4.66 4.18 1.60 0.60 0.30 85.5611 1.36 1.51 2.04 1.94 0.66 0.30 0.23 82.3512 2.20 2.68 3.54 3.25 1.15 0.45 0.27 83.0813 0.46 0.60 1.09 1.10 0.23 0.04 0.06 81.1314 1.96 2.39 3.41 3.20 0.95 0.24 0.11 79.9715 0.56 0.77 1.33 1.31 0.29 0.05 0.06 82.44

X : absorbances aux longueurs d'onde (nm) 633 649 666 683 700 716 733, mesurées sur des pommesytep (dernière colonne) : teneur en eau des pommes

On cherche à prédire ytep en fonction de X

Page 39: Méthodes de régression

39 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

Estimate Std. Error t value Pr(>|t|) (Intercept) 77.726 5.987 12.982 3.74e-06 ***v633 -32.425 12.013 -2.699 0.0307 * v649 78.507 35.796 2.193 0.0644 . v666 -53.496 45.350 -1.180 0.2767 v683 45.365 38.510 1.178 0.2773 v700 -103.69 55.062 -1.883 0.1017 v716 50.320 127.846 0.394 0.7056 v733 22.613 114.740 0.197 0.8494 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.509 on 7 degrees of freedomMultiple R-Squared: 0.8906, Adjusted R-squared: 0.7813 F-statistic: 8.143 on 7 and 7 DF, p-value: 0.006459

Page 40: Méthodes de régression

40 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments 

v633 v649 v666 v683 v700 v716 v733 v633 1.00 0.99 0.98 0.97 0.99 0.93 0.79v649 0.99 1.00 0.99 0.99 0.98 0.90 0.74V666 0.98 0.99 1.00 1.00 0.97 0.86 0.68v683 0.97 0.99 1.00 1.00 0.97 0.86 0.69v700 0.99 0.98 0.97 0.97 1.00 0.96 0.83v716 0.93 0.90 0.86 0.86 0.96 1.00 0.96v733 0.79 0.74 0.68 0.69 0.83 0.96 1.00

Matrice de corrélation des prédicteurs

Corrélations très élevées !!

Page 41: Méthodes de régression

41 Année 2008 -2009 M2 Sciences des Procédés - Sciences des Aliments  Master2 Biotech B.P 79

01.80

T35

Rejet

p Value ( = 0.01). Pas de rejet H0

p Value

= 0.01

La valeur 1.80 est dans la region d’acceptation

2.4377

p Value ( = 0.01). Rejet H0

p-Value

Probabilité d’être supérieur à la statistique calculée (ou valeur absolue) que l’on compare au risque choisi