anova à 1 facteur, analyse de variance, (one-way anova)
TRANSCRIPT
ANOVAà 1
facteur Analyse de
variance
Université d’Oum El Bouaghi , AlgérieFaculté des sciences de la terre et de l’architecture
Prof. Adad Mohamed Cherif
Domaines d’intérêt : architecture, urbanisme, statistiques/SPSS, Visual Basic, électronique pratique.
2017
( One-way ANOVA)
Dans ce tutoriel, il s’agit de montrer comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ?
Introduction
ANOVA est l’abréviation de ANalysis Of VAriance. L’ANOVA est une méthode d’analyse bivariée. C’est-à-dire le croisement de 2 variables de nature différente. L’analyse de variance, à un facteur (One way ANOVA), appelée ANOVA est une techniques permettant de savoir si une variable dépendante Y (variable à expliquer) est en relation avec une seule variable indépendante X (variable explicative). En d’autres termes, inférer une relation ente X et Y
variable indépendante GROUPE 1 GROUPE 2 GROUPE 3 GROUPE…
X(Qualitative, catégorielle)
variable dépendante Y
(Quantitative)
ANOVA
DÉFINITION
L’hypothèse nulle H0: µ1 = µ2 = µ3 =µ... Les moyennes de la population sont égales.
L’hypothèse alternative H1: µ1 ≠ µ2 ≠ µ3 ≠ µ… Au moins une moyenne est différente . C’est-à-dire qu’au moins une moyenne n’est pas égale aux autres .
HYPOTHESES
La variable dépendante est une variable numérique ou quantitative. La variable indépendante est appelée aussi facteur. C’est une variable catégorielle ( discrète, qualitative or nominale). Exemple le sexe, statut professionnel. On utilise l’ANOVA quand notre test d’analyse comporte plus de 2 groupes (variable indépendante ) et que la variable dépendante est quantitative. En termes plus simples, ANOVA vise à comparer des moyennes sur plusieurs échantillons afin de déterminer s'il existe des preuves que les moyennes des échantillons associées sont significativement différentes. ANOVA est un test paramétrique ( la moyenne, l’écart-type)
• Les groupes sont indépendants et aléatoirement tirés de leur population respective (il n’y a ni relation entre les observations à l’intérieur d’un groupe, ni relation entre les observations entre les groupes).
• Il n'y a pas de relation entre les sujets ou mesures de chaque échantillon. Cela signifie que les sujets ou les mesures du 1er échantillon ne peuvent pas être aussi dans le 2ème échantillon ou le 3ème et ainsi de suite.
• Les échantillons doivent suivent une loi normale ( une normalité parfaite n’est exigée)
• Si les échantillons sont modérés ou de grande taille, une violation de la normalité peut donner des valeurs de signification assez précises.
• Les données de la variable dépendante présentent des variances identiques (recours au test de Levene surtout si le la taille des groupes n’est pas identique). Si le test est significatif sig. < 0,05 , on doit faire, donc, appel au test Brown-Forsythe ou le Welch Robust F..
• Lorsque la normalité, l’homogénéité des variances ne sont pas respectées, on peut utiliser le test non paramétrique de Kruskal-Wallis.
Conditions d’utilisation
Le rejet de H0 signifie qu’il y a une grande probabilité qu’au moins il y a une différence entre les groupes. L’analyse Post Hoc est nécessaire pour nous indiquer ou se situe la différence entre la ou les moyens. Exemple 1 Variable indépendante (qualitative): Niveau social (à 3 niveaux)
Classe supérieure Classe moyenne Classe inférieure
Variable dépendante ( quantitative) Satisfaction des services hôteliers
QU’EST CE QUE L’ANOVA PEUT NOUS DIRE
Exemple 2Variable indépendante (qualitative): le niveau de formation
BEM BAC Ingénieur
Variable dépendante ( quantitative) Le salaire
Identification le facteur (la variable indépendante ) et on
sélectionne les données Test de normalité Test d’homogénéité des variances (homoscédasticité)
On pose les hypothèses:
H0 : les moyennes sont égales.
H1 : au moins une moyenne est différente des autres ANOV
A
EXÉCUTONS
MAINTENANT LE
LOGICIEL SPSS
Existe-il de différence dans les salaires des métiers de menuisier, plombier et électricien dans l’exercice de leur fonction ? H0 L’hypothèse nulle les moyennes des salaires des différents métiers sont égales.
Ici, nous avons 3 niveaux (ou groupes)
Plombier ------ µ1Menuisier ------ µ1Electricien ---- µ3
µ1 = µ2 = µ3
H1 L’hypothèse alternative Au moins une moyenne des salaires des différents métiers n’est pas égale aux autres. µ1 ≠ µ2 ≠ µ3 Ou µ1 ≠ µ2
Ou µ2 ≠ µ3
Ou µ1 ≠ µ3
Voyons maintenant notre cas d’étude
Question de recherche
Affichage des données
Affichage des variables
Groupe est une variable nominale dont la colonne « Valeurs» nous indique le codage des métiers.
Remarque : dans la colonne « Nom » il ne faut jamais laisser de vide entre les caractères .
Analyse comparer les moyennes ANOVA 1 facteur
Analyse d’ANOVA
Il faut insérer les deux variables dans la fenêtre à gauche :Dans « Liste variables dépendantes » , on place la variable dépendante ‘ Salaire perçu ‘.Dans « Critère » la variable indépendante ‘Type de métier’.
Appuyer sur « OPTION » Cocher:
Caractéristiques : statistiques descriptive Test d’homogénéité de variance : vérification
des variances si elles sont identiques ou non. Brown-Forsythe et Welch où cas où
l’homogénéité des variances n’est pas vérifiée.
Diagramme des moyennes Exclure les observations analyse par analyse:
Cliquer sur Post Hoc
Cocher Turkey pour les comparaisons
multiples Niveau de signification : 0.05
Puis « Poursuivre » et OK
TRAITEMENT ET INTERPRÉTATION
On obtient le résumé des actions et 6 tableaux
Fichier des données
Test d’homogénéité de variance
Test Post Hoc
1
Analyse descriptive et test d’homogénéité des variances 2
Dans le tableau descriptives,, il est indiqué les différents métiers et moyennes et les écart-types des différents métiers . On voit que la moyenne des salaires la plus élevée est celle du métier d’électricien , puis vient ensuite celle des salaires du métier de menuisier . • Le tableau Test d’homogénéité met en
évidence le test de Levene. Il nous montre la signification = 0.095 > 0.05. Nous pouvons conclure que l’hypothèse de l’homogénéité des variances est confirmée, comme on peut le voir sur le 1er tableau qu’au moins 2 écart-types (4136.55 et 4299.87) sont presque identiques. Donc , on est autorisé à continuer notre analyse en passant au tableau ANOVA. donc,
Plombier( M=5000, ET=4136.55, N=10)Menuisier (M=56000, ET=7102.42, N=10)Electricien (M=65400, ET=4299.87, N=10)• Si ce test n’est concluant, on fait
appel aux tests Brown-Forsythe ou le Welch Robust F..
Tests de Welch et Brown- Forsythe
Si l’hypothèse de l’homogénéité des variances est confirmée alors les tests de Welch et Brown-Forsythe deviennent inutiles, on passe donc directement au tableau ANOVA .
Tableau ANOVA 3
Ce qui nous intéresse dans ce tableau est la signification (SIG.), ici elle est de 0.000 < 0.05 , cela signifie que les moyennes des salaires des différents métiers sont différentes. Cependant, il n’est pas indiqué dans le tableau la signification statistique entre chaque paire de métiers .
Résultat: F(2,27)=21.00, p=0,000ddl (degré de liberté) 2 et 27 Mesure F = 21.008 Signification = 0.000 < 0.05
Tests Post Hoc 4
Pour voir la signification entre les salaires de chaque paire de métiers, on a recours au tableau « Comparaisons multiples » à condition que dans le test ANOVA p< 0.05. Il nous permet de faire la comparaison entre les groupes . On remarque la présente d’astérix dans la colonne « Différence de moyenne » , qui signifie que la différence de salaires entre 2 métiers est statistiquement très significative. Dans notre cas, la différence des moyennes de chaque binôme , est statiquement significative .Par exemple: Menuisier et électricien , la différence des moyennes est très significative p = 0.002 < 0.05
DIAGRAMME DES MOYENNES
Un autre moyen pour comparer les moyennes est l’utilisation du diagramme des moyennes. Il nous donne une idée très claire sur la différence des moyennes des salaires. Cependant, il ne faut pas se fier à ce graphe avant de consulter d’abord, le tableau des statistiques descriptives, puis la comparaison des moyens, Ceci fait, nous pouvons dire que la salaire moyenne du métier d’électricien est le plus élevé alors que celui du plombier est le moins rémunérant.
5
TAILLE D’EFFET (EFFECT SIZE) Une taille d'effet est une mesure de la force de
l'effet observé d'une variable sur une autre Dans le cadre de l'ANOVA, les conventions
de grandeurs de la taille de l'effet f sont f=0,1, l'effet est faible.• f=0,25, l'effet est modéré.• f=0,4, l'effet est fort.• Dans notre cas, taille d’effet=0.6, donc
c’est un effet fort. Taille d’effet =Somme des carrés ( Inter-groupes) /
Total (voir tableau ANOVA)
6
RÉSULTATS FINAUX Il est important de présenter certains résultats dans le rapport scientifique à soumettre pour une éventuelle évaluation.
La véracité de l’hypothèse d’homogénéité des variances est confirmée et mise en évidence par le test de Levene . F=(2,27)=2.56, p=0,095
La variable indépendante est à trois niveaux:
Salaire bas, Plombier( M=5000, ET=4136.55, N=10)Salaire moyen, Menuisier (M=56000, ET=7102.42, N=10)Salaire élevé, Electricien (M=65400, ET=4299.87, N=10
A l’issue de cette analyse ANOVA à 1 facteur, nous pouvons dire que l’hypothèse nulle «les moyennes des salaires des différents métiers sont égales » est rejetée. Donc, l’hypothèse alternative est retenue “la différence entre les moyennes des salaires est significative”: F(2,27)=21.00, p=0.000La différence entre les moyennes des salaire est forte selon la convention de Cohen (1988) au sujet de l’interprétation de la taille d’effet: taille d’effet=0.6.
Université d’Oum El BouaghiFaculté des sciences de la terre et de l’architecture
Merci pour votre
attention
ANOVA à 1 facteur
Prof. Adad Mohamed Chérif
2017