test de kruskal-wallisirma.math.unistra.fr/~fbertran/enseignement/dus2_2011/...généralités...
TRANSCRIPT
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Test de Kruskal-Wallis
Frédéric Bertrand1 & Myriam Maumy1
1IRMA, Université de StrasbourgFrance
DUS220-06-2011
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Tests non libres de distributionCertains tests statistiques ne sont valables que sous certainesconditions concernant la distribution de la ou les variable(s).
ExemplesLe test de Student impose que les deux variables sont issuesd’une distribution normale, l’analyse de la variance également.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Tests libres de distributionD’autres tests au contraire sont valables indépendamment detoute distribution. Nous les appelons les tests « libres dedistribution » (distribution-free tests).
ExemplesC’est le cas du test du Khi-deux, du test des signes, ou du testdu coefficient de Spearman.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Tests paramétriquesCertains tests ont pour but de montrer une égalité sur certainsparamètres : ce sont les tests paramétriques.
Exemples de paramètres1 La moyenne (test de comparaison de deux moyennes ou
plus),2 la variance (test de comparaison de deux variances ou
plus),3 etc.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Tests non paramétriquesD’autres tests testent des hypothèses plus générales : ce sontles tests non paramétriques.
Exemples1 Une égalité de lois,2 l’indépendance entre deux variables qualitatives,3 etc.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Une question naturelle : quel test choisir ?Habituellement, les tests paramétriques sont plus puissants.Par conséquent, ils seront choisis plutôt que les tests nonparamétriques.De même les tests non libres sont généralement plus efficacesque les tests libres. Cependant, ils sont aussi pluscontraignants, car il faut vérifier les conditions d’application quisont plus nombreuses dans ce cas.On choisira généralement un test libre ou non paramétriquelorsque
1 les conditions d’application du test ne sont pas vérifiées2 ou il est impossible de vérifier ces conditions.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Conditions d’application
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Conditions d’application
IntroductionNous observons, de manière indépendante, une variablealéatoire X de loi continue, sur k > 3 populations, ou sur unepopulation divisée en k > 3 sous-populations.
Nous supposons ainsi que nous disposons de k échantillonsaléatoires indépendants (X1,1, . . . ,X1,n1), . . . , (Xk ,1, . . . ,Xk ,nk )et de k > 3 séries d’observations (x1,1, . . . , x1,n1) pour lapremière, . . . , (xk ,1, . . . , xk ,nk ) pour la dernière. Nous notonsLi(X ) la loi de la variable aléatoire X sur la (sous-)populationd’ordre i avec 1 6 i 6 k .
Sans faire d’hypothèses spécifiques, le test deKruskal-Wallis ne permet pas de tester l’égalité desmoyennes ni celle des médianes.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Conditions d’application
Hypothèses du testLe test de Kruskal-Wallis est utilisé pour tester les hypothèsessuivantes :
H0 : L1(X ) = · · · = Li(X ) = · · · = Lk (X )
contre
H1 : Les lois L1(X ), . . . , Lk (X ) ne sont pas toutes identiques.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Statistique de testCalculons :
1 le rang Ri,j de Xi,j parmi les n• valeurs ;2 puis la somme des rangs associée à chaque échantillon :
Ri,• =
ni∑j=1
Ri,j ;
3 la moyenne des rangs de chaque échantillon :
Ri,• = Ri,•/ni .
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Statistique de test (suite)La statistique de Kruskal-Wallis KWn• prend en compte l’écartentre la moyenne des rangs de chaque échantillon et lamoyenne de tous les rangs, qui vaut (n• + 1)/2 :
KWn• =12
n•(n• + 1)
k∑i=1
ni
(Ri,• −
n• + 12
)2
=12
n•(n• + 1)
k∑i=1
Ri,•2
ni− 3(n• + 1).
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
PropriétésLorsque l’hypothèse nulle H0 est vraie, la variable aléatoireKWn• a les trois propriétés suivantes.
1 Pour i = 1, . . . , k , Wi = niRi,• est la statistique de Wilcoxonqui compare le i−ème traitement aux k − 1 autrestraitements.
Sous l’hypothèse nulle H0, nous en déduisons queE (Wi) = ni(n• + 1)/2 et Var (Wi) = ni(n• − ni)(n• + 1)/12.
Ainsi par conséquent, nous avons :
KWn• =1n•
k∑i=1
(n• − ni)(Wi − E (Wi))
2
Var (Wi)·
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Propriétés (suite)2 (Suite) Nous calculons alors l’espérance et la variance de
KWn• sous l’hypothèse nulle H0 :
E (KWn•) = k − 1,
Var (KWn•) = 2(k − 1)−2[3k2 − 6k + n•(2k2 − 6k + 1)
]5n•(n• + 1)
−65
k∑i=1
1ni·
3 Il est possible de déterminer la distribution de KWn• bienque le calcul soit complexe. Elle est donc tabulée pour lesfaibles valeurs des ni .
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Règle de décision et conclusion du test
Premier cas : L’un des effectifs ni , 1 6 i 6 k , est inférieurou égal à 4, . Pour un seuil donné α, des tables de la loi deKuskal-Wallis nous fournissent une valeur critique cα. Alorsnous décidons :{
si KWn•(obs) > cα H1 est vraie,si KWn•(obs) < cα H0 est vraie.
Le niveau de signification réel du test est généralementstrictement inférieur à α.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique de testRègle de décision et conclusion du test
Règle de décision et conclusion du test (suite)
Second cas : Si ni > 5, pour tout 1 6 i 6 k , nous utilisonsl’approximation KWn• ≈ χ2(k − 1). Pour un seuil donné α,des tables de la loi du χ2 nous fournissent une valeurcritique cα telle que PH0 (−cα < Zn1,n2 < cα) = 1− α. Alorsnous décidons :{
si KWn•(obs) > cα H1 est vraie,si KWn•(obs) < cα H0 est vraie.
Lorsque nous rejetons H0, nous décidons que H1 est vraieavec un risque d’erreur de première espèce α.Lorsque nous conservons H0, c’est avec un risque d’erreurde deuxième espèce β.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Présence d’ex æquo dans les observations : la méthode desrangs moyens
À chaque nombre appartenant à un groupe d’ex æquo nousattribuons le rang moyen du groupe auquel il appartient puisnous déterminons la somme T =
∑hl=1(t
3l − tl) où tl désigne le
nombre d’éléments du l−ème groupe d’ex æquo. Il est d’usagede substituer à KWn• la variable KW ?
n• définie par :
KW ?n• =
KWn•
1− Tn3• − n•
.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Test de Steel-Dwass-Critchlow-Fligner
Wni ,ni′ est la statistique de Wilcoxon qui compare le i−èmetraitement au i ′−ème traitement.
Les observations des deux groupes i et i ′ sont ordonnées puisregroupées en h classes d’ex æquo Cj , 1 6 j 6 h.
Notons dj le nombre d’ex æquo de la classe Cj etmi,i ′ = ni + ni ′ .
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Test de Steel-Dwass-Critchlow-Fligner (suite)
Nous décidons qu’au seuil global α deux lois Li(X ) et Li ′(X ),parmi les k(k − 1) comparaisons que nous allons faire, sontsignificativement différentes si :∣∣∣∣Wni ,ni′ −
ni(mi,i ′ + 1)2
∣∣∣∣ > q′(k ; +∞;1− α)√
nini ′(mi,i ′ + 1)24
×
√√√√√1−
∑hj=1
(d3
j − dj
)m3
i,i ′ −mi,i ′
où q′(k ; +∞;1− α) est le quantile d’ordre 1− α pour la loi dumaximum du module studentisé pour k moyennes et +∞degrés de liberté.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Test de Steel-Dwass-Critchlow-Fligner (suite)
Contrairement aux trois autres approches présentées ci-après,le test Steel-Dwass-Critchlow-Fligner n’est pas qu’uneprocédure de comparaisons multiples : c’est une alternativecomplète au test de Kruskal-Wallis.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Autres tests de comparaisons multiplesSi nous rejetons l’hypothèse nulle H0, nous nous demandonsquelles sont les lois Li(X ) qui diffèrent.
Les formules ci-après sont valables en absence ou enprésence d’ex æquo. En absence d’ex æquo, le terme1− T/(n3
• − n•) est égal à 1.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Application de la méthode de Sheffé
Nous décidons qu’au seuil α deux lois Li(X ) et Li ′(X ) sontsignificativement différentes si :
∣∣Ri,• − Ri ′,•∣∣ >
√χ2(k − 1;1− α)
√n•(n• + 1)
12
(1− T
n3• − n•
)
×
√1ni
+1ni ′,
où χ2(k − 1;1−α) est le quantile d’ordre 1−α pour la loi du χ2
à k − 1 degrés de liberté.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Application de l’inégalité de Bonferroni
Nous décidons qu’au seuil global α deux lois Li(X ) et Li ′(X ),parmi les k(k − 1) comparaisons que nous allons faire, sontsignificativement différentes si :
∣∣Ri,• − Ri ′,•∣∣ > u
(1− α
k(k − 1)
)√n•(n• + 1)
12
(1− T
n3• − n•
)
×
√1ni
+1ni ′,
où u(1− α/(k(k − 1))) est le quantile d’ordre 1− α/(k(k − 1))pour la loi normale centrée-réduite.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
RemarqueIl s’agit d’une application des inégalités de Bonferroni. Cetteprocédure est plus puissante que la précédente.
Il est également possible d’utiliser une approche séquentiellecomme la procédure de Holm-Bonferroni (test de Dunn) ou deHolm-Sidak.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Analogue de la méthode de Tukey-Kramer
Nous décidons qu’au seuil global α deux lois Li(X ) et Li ′(X ),parmi les k(k − 1) comparaisons que nous allons faire, sontsignificativement différentes si :
∣∣Ri,• − Ri ′,•∣∣ > q(k ; +∞;1− α)
√n•(n• + 1)
12
(1− T
n3• − n•
)
×
√12
(1ni
+1ni ′
),
où q(k ; +∞;1− α) est le quantile d’ordre 1− α pour la loi del’étendue studentisée pour k moyennes et +∞ degrés deliberté.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
RemarqueIl s’agit d’une procédure analogue à celle de Tukey-Kramerdans le cas paramétrique et valide asymptotiquement. Elle estgénéralement plus puissante que les deux approchesprécédentes.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Sommaire
1 Généralités
2 Contexte du testConditions d’application
3 Absence d’ex æquo dans les observationsStatistique de testRègle de décision et conclusion du test
4 Présence d’ex æquo dans les observations : la méthodedes rangs moyens
5 Comparaisons multiples
6 Application
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
ApplicationDes forestiers ont réalisé des plantations d’arbres en troisendroits.
Plusieurs années plus tard, ils souhaitent savoir si la hauteurmoyenne des arbres est identique dans les trois forêts.Chacune des forêts constitue une population et dans chacuned’entre elles, un échantillon d’arbres est tiré au sort. Puis lahauteur de chaque arbre est mesurée en mètres. Le tableauci-après donne les valeurs des mesures de hauteur ainsi queles moyennes et les variances corrigées estimées dans chacundes groupes.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Données
Forêt 1 Forêt 2 Forêt 323,4 18,9 22,5
Données 24,4 21,1 22,9expérimentales 24,6 21,1 23,7
(en mètres) 24,9 22,1 24,025,0 22,5 24,026,2 23,5 24,5
Moyennes 24,750 21,533 23,600Variances corrigées 0,831 2,487 0,568
La Figure 1 correspond aux boîtes à moustaches de la hauteuren fonction des trois forêts.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Représentation graphique
1 2 3
2022
2426
@
@
@
FIGURE: Boîtes à moustaches (à gauche) – Comparaisons multiples(à droite)
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Statistique du testNous sommes en présence d’ex æquo, nous devons doncutiliser la statistique de test KW ?
n• à la place de la statistique detest KWn• .
Nous calculons la valeur de KW ?n• sur l’échantillon :
KW ?n•(obs) = 11,51.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Règle de décision à l’aide d’une valeur critique
Pour un seuil α = 5% la valeur critique d’un Khi-deux à 2degrés de liberté, est c0,05 = 5,99. Comme KW ?
n•(obs) 6 c0,05,nous décidons de rejeter l’hypothèse nulle H0, et quel’hypothèse alternative H1 est vraie. Il y a une influencesignificative, au seuil α = 5%, de la forêt sur la hauteur desarbres. Le risque associé à cette décision est un risque depremière espèce qui vaut α = 5%.
Remarque
La valeur de KWn•(obs) est égale à 11,48. Nous remarquonsla différence apportée par la correction pour prendre en compteles ex æquo.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis
GénéralitésContexte du test
Absence d’ex æquo dans les observationsPrésence d’ex æquo dans les observations : la méthode des rangs moyens
Comparaisons multiplesApplication
Règle de décision à l’aide d’une p-valeurEn utilisant un logiciel de statistique nous calculons la p-valeurdu test de Kruskal-Wallis. Il faut bien vérifier qu’elle tientcompte des ex æquo. Elle vaut dans cas 0,003.
Comme la p-valeur est 6 0,05, nous décidons, au seuilα = 5%, de rejeter l’hypothèse nulle H0, et que l’hypothèsealternative H1 est vraie. Il y a une influence significative, auseuil α = 5%, de la forêt sur la hauteur des arbres. Le risqueassocié à cette décision est un risque de première espèce quivaut α = 5%.
Frédéric Bertrand & Myriam Maumy Test de Kruskal-Wallis