régression linéaire simple - anouar benmalekanouarbenmalek.free.fr/maths/m2 regression et...
TRANSCRIPT
Régression linéaire simple
1- Rappels sur la variance et la moyenne empirique dans le cas normal2- Régression linéaire et MMC3- Intervalles de confiance et tests dans le cas normal4- intervalle de prédiction5- Étude des résidus6- Exemple numérique (à la main et sur SAS)
Rappels 1: Quelques propriétés de la variance empirique et de la moyenne empirique d’un échantillon normal
Rappels 2 : lien entre la variance et la moyenne empriques si l’échantillon est issu d’une loi normale N(m, σ²)
Rappel 3 : lien entre deux variances empiriques de deux échantillons normaux indépendants
on déduit
Fonction à minimiser!
apprenez--la sous cette
forme!
Important: les estimateurs sont
des v.a
Remarque pour les curieux
La variation totale se décompose de la manière suivante
avec:
Autrement dit, en rajoutant les coefficients nécessaires
Variance totale= variance expliquée par la régression linéaire + variance résiduelle
Coefficient de détermination
Le carré du coefficient de corrélation est égal au coefficient de détermination
Inférence sur les estimateurs des paramètresPropriété: a est une estimation sans biais du paramètre α
b est une estimation sans biais du paramètre β
Note: a est une réalisation de la v.a Ab est une réalisation de la v.a B
Qualité des estimateurs
Calcul des variances des estimateurs
Comme on ne connait pas σ² on l’estima par l’estimateur sans biais suivant
Propriétés des écarts résiduels:
Calcul de la variance des écarts résiduels
Se rappeler!
Qu’arrive-t-il si le résidu ε suit une loi normale?Dans ce cas: l es v.a A , B et Y* sont des v.a normales
Écart-type!
Note:
Loi de l’estimateur de la variance des résidus
Servira lors des test de régression
On démontre « facilement » que:
Comment construire des I.C pour les estimateurs des paramètres?
N’ayez pas peur de ces formules; en général, SAS se chargera de les
calculer pour vous
Résultat accessoire, mais utile quand on teste le coefficient de corrélation seul: Quand le coefficient de corrélation ρ théorique est nul , son estimateur R suit une loi bien utile à connaître quand on fera des tests sur ρ
En effet:
Revenons au modèle linéaire:
Tests avec le résidu ε suivant une loi normale N(0, σ²)
1- Hypothèse de non-régression
On reprend la décomposition en sommes de carrés
Quelles sont les lois suivies par ces sommes de carrés?
Étude d’une valeur prévisionnelle
Important: x0 est une nouvelle valeur de X n’appartenant aux valeurs de X ayant servi à calculer la droite de régression
La variable Y définie par:
suit pour x=x0 suit la loi normale
La loi de Y* est
Pour le nouvel x0, il suffit de remplacer x par x0 dans la formule précédente
Sachant que:
Exemple : le nombre d’accident et le nombre d’immatriculations sont divisés par 1000
Programme SAS
data voitures;input x y;cards;150 84160 75210 90215 100230 104250 112260 130300 140320 120340 150400 160420 170;
title' Y contre X';proc gplot data=voitures;plot y*x;symbol1 v=dot i=RL c=red;run; quit;
title 'Regression de Y sur X';proc reg data=voitures;model y=x;output out=fichierSortie1 P=Yetoile R=Residu;run;
title 'Residus contre x';proc gplot data=fichierSortie1;plot Residu*x;symbol1 v=dot i=none;run; quit;
Graphe de y contre x
Graphe des résidus contre x : PAS DE TENDANCE!
Prédiction pour une nouvelle valeur x=500data voitures;input x y;cards;150 84160 75210 90215 100230 104250 112260 130300 140320 120340 150400 160420 170500 .;
title 'Regression de Y sur X en faisant intervenir une valeur manquante';proc reg data=voitures ;model y=x;output out=fichierSortie2 P=Yetoile L95=BInfI U95=BSupI ;run;
title 'Regression de Y sur X en faisant intervenir une valeur manquante';proc print data=fichierSortie2;var x y BInfI Yetoile BSupI;run;
Lire la valeur correspondant au nouveau x=500
Intervalles de prédiction pour les valeurs individuelles
Attention: commencer d’abord par des graphes!Voilà un exemple célèbre d’Anscombe: 4 ensembles de données (X,Y).
Calculons les droites de régression pour chaque couple (Y,Y) et comparons-les
Les relations entre les couples (X,Y) sont très dissemblables. Ne jamais se contenter seulement des résumés numériques!
Reprenons les développements théoriques du début du cours et illustrons-les par des simulations.
Et si nous refaisions de nouvelles mesures, qu’obtiendrions-nous?
Et si nous nous aidions de simulations?
Résultat de 400 simulations des estimations des paramètres ordonnée à l’origine et pente
La méthode des moindres carrés: dans le cas normal, les estimateurs des paramètres par la MMC sont efficaces (de variance minimum parmi tous les estimateurs possibles)
1er
2ème
data chromato;input ETHANOL SURFACE ;cards;0.2 2.880.2 1.720.6 4.700.6 5.281 10.921 7.701.4 12.351.4 11.401.8 13.471.8 12.52;
proc print data=chromato;run;
proc gplot data=chromato;plot surface*ethanol;symbol1 v=dot i=rl color=green;run;
proc reg data=chromato;model surface=ethanol;run;
Programme SAS pour l’exemple sur l’éthanol et la chromato