régression linéaire simple - anouar benmalekanouarbenmalek.free.fr/maths/m2 regression et...

Régression linéaire simple

1- Rappels sur la variance et la moyenne empirique dans le cas normal2- Régression linéaire et MMC3- Intervalles de confiance et tests dans le cas normal4- intervalle de prédiction5- Étude des résidus6- Exemple numérique (à la main et sur SAS)

Rappels 1: Quelques propriétés de la variance empirique et de la moyenne empirique d’un échantillon normal

Rappels 2 : lien entre la variance et la moyenne empriques si l’échantillon est issu d’une loi normale N(m, σ²)

Rappel 3 : lien entre deux variances empiriques de deux échantillons normaux indépendants

on déduit

Fonction à minimiser!

apprenez--la sous cette

forme!

Important: les estimateurs sont

des v.a

Remarque pour les curieux

La variation totale se décompose de la manière suivante

avec:

Autrement dit, en rajoutant les coefficients nécessaires

Variance totale= variance expliquée par la régression linéaire + variance résiduelle

Coefficient de détermination

Le carré du coefficient de corrélation est égal au coefficient de détermination

Inférence sur les estimateurs des paramètresPropriété: a est une estimation sans biais du paramètre α

b est une estimation sans biais du paramètre β

Note: a est une réalisation de la v.a Ab est une réalisation de la v.a B

Qualité des estimateurs

Calcul des variances des estimateurs

Comme on ne connait pas σ² on l’estima par l’estimateur sans biais suivant

Propriétés des écarts résiduels:

Calcul de la variance des écarts résiduels

Se rappeler!

Qu’arrive-t-il si le résidu ε suit une loi normale?Dans ce cas: l es v.a A , B et Y* sont des v.a normales

Écart-type!

Note:

Loi de l’estimateur de la variance des résidus

Servira lors des test de régression

On démontre « facilement » que:

Comment construire des I.C pour les estimateurs des paramètres?

N’ayez pas peur de ces formules; en général, SAS se chargera de les

calculer pour vous

Résultat accessoire, mais utile quand on teste le coefficient de corrélation seul: Quand le coefficient de corrélation ρ théorique est nul , son estimateur R suit une loi bien utile à connaître quand on fera des tests sur ρ

En effet:

Revenons au modèle linéaire:

Tests avec le résidu ε suivant une loi normale N(0, σ²)

1- Hypothèse de non-régression

On reprend la décomposition en sommes de carrés

Quelles sont les lois suivies par ces sommes de carrés?

Étude d’une valeur prévisionnelle

Important: x0 est une nouvelle valeur de X n’appartenant aux valeurs de X ayant servi à calculer la droite de régression

La variable Y définie par:

suit pour x=x0 suit la loi normale

La loi de Y* est

Pour le nouvel x0, il suffit de remplacer x par x0 dans la formule précédente

Sachant que:

Exemple : le nombre d’accident et le nombre d’immatriculations sont divisés par 1000

Programme SAS

data voitures;input x y;cards;150 84160 75210 90215 100230 104250 112260 130300 140320 120340 150400 160420 170;

title' Y contre X';proc gplot data=voitures;plot y*x;symbol1 v=dot i=RL c=red;run; quit;

title 'Regression de Y sur X';proc reg data=voitures;model y=x;output out=fichierSortie1 P=Yetoile R=Residu;run;

title 'Residus contre x';proc gplot data=fichierSortie1;plot Residu*x;symbol1 v=dot i=none;run; quit;

Graphe de y contre x

Graphe des résidus contre x : PAS DE TENDANCE!

Prédiction pour une nouvelle valeur x=500data voitures;input x y;cards;150 84160 75210 90215 100230 104250 112260 130300 140320 120340 150400 160420 170500 .;

title 'Regression de Y sur X en faisant intervenir une valeur manquante';proc reg data=voitures ;model y=x;output out=fichierSortie2 P=Yetoile L95=BInfI U95=BSupI ;run;

title 'Regression de Y sur X en faisant intervenir une valeur manquante';proc print data=fichierSortie2;var x y BInfI Yetoile BSupI;run;

Lire la valeur correspondant au nouveau x=500

Intervalles de prédiction pour les valeurs individuelles

Attention: commencer d’abord par des graphes!Voilà un exemple célèbre d’Anscombe: 4 ensembles de données (X,Y).

Calculons les droites de régression pour chaque couple (Y,Y) et comparons-les

Les relations entre les couples (X,Y) sont très dissemblables. Ne jamais se contenter seulement des résumés numériques!

Reprenons les développements théoriques du début du cours et illustrons-les par des simulations.

Et si nous refaisions de nouvelles mesures, qu’obtiendrions-nous?

Et si nous nous aidions de simulations?

Résultat de 400 simulations des estimations des paramètres ordonnée à l’origine et pente

La méthode des moindres carrés: dans le cas normal, les estimateurs des paramètres par la MMC sont efficaces (de variance minimum parmi tous les estimateurs possibles)

1er

2ème

data chromato;input ETHANOL SURFACE ;cards;0.2 2.880.2 1.720.6 4.700.6 5.281 10.921 7.701.4 12.351.4 11.401.8 13.471.8 12.52;

proc print data=chromato;run;

proc gplot data=chromato;plot surface*ethanol;symbol1 v=dot i=rl color=green;run;

proc reg data=chromato;model surface=ethanol;run;

Programme SAS pour l’exemple sur l’éthanol et la chromato

régression linéaire simple - anouar benmalekanouarbenmalek.free.fr/maths/m2 regression et...

Documents