cours 6 biostatistique - uliege.be

68
09/09/2021 1 Cours VETE2111-1 Tests et modélisations statistiques 22h Th, 10h Pr, 4h TD – 5 crédits F. Farnir, L. Massart, A. Rives Organisation du cours a) Cours théoriques Quand ? Ou ? Quoi ? 15/09 – 08h30 Amphi A Rappels + tests t 17/09 – 10h30 Amphi A Intervalles de confiance 22/09 – 08h30 Amphi A F et ANOVA 1 24/09 – 10h30 Amphi A ANOVA 1 (suite) + exercices 29/09 – 15h30 Amphi A ANOVA II + exercices 01/10 – 10h30 Amphi A ANOVA II i et h + exercices 07/10 – 13h30 Amphi A Régression linéaire 08/10 – 15h30 Amphi A Régressions multiple et curviligne 14/10 – 13h30 Amphi A Corrélation 15/10 – 15h30 Amphi A Tests non paramétriques 21/10 – 13h30 Amphi A Récapitulatif

Upload: others

Post on 10-Dec-2021

9 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Cours 6 Biostatistique - uliege.be

09/09/2021

1

Cours VETE2111-1

Tests et modélisations statistiques22h Th, 10h Pr, 4h TD – 5 crédits

F. Farnir, L. Massart, A. Rives

Organisation du coursa) Cours théoriques

Quand ? Ou ? Quoi ?

15/09 – 08h30 Amphi A Rappels + tests t

17/09 – 10h30 Amphi A Intervalles de confiance

22/09 – 08h30 Amphi A F et ANOVA 1

24/09 – 10h30 Amphi A ANOVA 1 (suite) + exercices

29/09 – 15h30 Amphi A ANOVA II + exercices

01/10 – 10h30 Amphi A ANOVA II i et h + exercices

07/10 – 13h30 Amphi A Régression linéaire

08/10 – 15h30 Amphi A Régressions multiple et curviligne

14/10 – 13h30 Amphi A Corrélation

15/10 – 15h30 Amphi A Tests non paramétriques

21/10 – 13h30 Amphi A Récapitulatif

Page 2: Cours 6 Biostatistique - uliege.be

09/09/2021

2

Organisation du coursb) Travaux dirigés (exercices)

Seulement 2 séances (c’est trop peu !)

Quand ? Ou ? Qui ? Quoi ?

06/10 – 08h30 Amphi A B TD1

07/10 – 10h30 Amphi A A TD1

22/10 – 08h30 Amphi A A TD2

25/10 – 08h30 Amphi A B TD2

A = groupes 1 à 6

B = groupes 7 à 12

Organisation du coursc) Travaux pratiques (exercices sur ordinateurs)

=> Cfr CELCAT:

https://my.horaires.uliege.be

Salle info a b c

TP 1 30/09 – 08:30 04/10 – 10:30 29/09 – 08:30

TP 2 11/10 – 10:30 08/10 – 08:30 14/10 – 08:30

TP 3 28/10 – 10:30 27/10 – 08:30 27/10 – 10:30

TP 4 02/11 – 08:30 22/11 – 08:30 09/11 – 08:30

TP 5 30/11 – 08:30 07/12 – 08:30 17/11 – 08:30

a = groupes 1 à 4

b = groupes 5 à 8

c = groupes 9 à 12

Page 3: Cours 6 Biostatistique - uliege.be

09/09/2021

3

Organisation du coursd) Evaluations

• 1) Evaluations en 01/2021

• En principe, en salle informatique (cfr BMV1)

• Stat II (A)

• QCM informatisé (cfr BMV1)

• Pondération dans la note finale: 2/3

• TP II (B)

• Exercices sur logiciels (Excel et R)

• Pondération dans la note finale: 1/3

• Note globale (NG)

• min(A,B) < 8/20 => NG = min(A,B)

• min(A,B) ≥ 8/20 => NG = (2*A + B)/3

• Dispense partielle possible si A ou B ≥ 10/20

Page 4: Cours 6 Biostatistique - uliege.be

09/09/2021

4

Organisation du coursd) Evaluations

• 2) Evaluations en 09/2020

• En principe, en salle informatique (cfr BMV1)

• Mêmes modalités

• En cas d’échec (NG < 10/20)

• Dispense partielle possible si A ou B ≥ 12/20

Les tests d’hypothèses:

un bref rappel

F. Farnir, L. Massart, E. Moyse

Page 5: Cours 6 Biostatistique - uliege.be

09/09/2021

5

Rappel: les tests d’hypothèse

Rappelez vous que:

Partant d’une hypothèse initiale (« hypothèse nulle »,

p.e. π = 0.5), il est possible d’arriver à une conclusion

sur cette hypothèse (p.e. l’hypothèse est

vraisemblablement fausse).

La conclusion était basée sur des arguments

probabilistes, et était elle-même probabiliste

(p.e. l’hypothèse est vraisemblablement fausse).

Cette démarche a été développée pour certaines

situations en BMV1

9Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche

Il s’agit de la démarche classique des tests

d’hypothèses.

Choisir l’hypothèse de départ, appelée

hypothèse nulle (H0)

Choisir une hypothèse alternative H1 (qui sera

considérée vraie si H0 est considérée fausse)

Récolter des données permettant de corroborer

ou de rejeter H0.

10Cours VETE2111-1 Année académique 2021-2022

Page 6: Cours 6 Biostatistique - uliege.be

09/09/2021

6

(Suite de la démarche)

Calculer la probabilité des observations si H0 est

vraie: Cette probabilité est appelée « valeur p »

(p-value) du test

Si la valeur p est inférieure à un seuil α, décider

que l’hypothèse nulle n’est pas soutenue par les

données et la rejeter.

Dans le cas contraire, décider que l’hypothèse

nulle est soutenue par les données et l’accepter.

11Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (suite)

L’aspirine protège-t-elle contre les AVC?

Hypothèse nulle H0: πA = πP

(en français: la proportion d’AVC parmi la sous-

population qui prend de l’aspirine est identique à

celle de la sous-population prenant un placebo)

Hypothèse alternative H1: πA < πP

(en français: la proportion d’AVC parmi la sous-

population qui prend de l’aspirine est inférieure à

celle de la sous-population prenant un placebo)

12Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

Page 7: Cours 6 Biostatistique - uliege.be

09/09/2021

7

L’aspirine protège-t-elle contre les AVC?

Remarque: on ne considère pas la situation πA > πP

(en français: on ne considère pas un éventuel effet

délétère de l’aspirine sur le taux d’apparition d’AVC)

On ne s’intéresse donc qu’à la question de savoir si

l’aspirine a un effet bénéfique (H1) ou pas (c’est-à-dire pas

d’effet ou un effet négatif)

Un tel test est dit « unilatéral »

13Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

L’aspirine protège-t-elle contre les AVC?

Récolte de données (étude prospective)

14Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

98 902

AVC Pas d’AVC

Aspirine

Placebo 882118

1000

1000

216 1784

Page 8: Cours 6 Biostatistique - uliege.be

09/09/2021

8

L’aspirine protège-t-elle contre les AVC?

15Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT

Introduction

L’aspirine protège-t-elle contre les AVC?

Calcul de la statistique χ²

Le calcul des attendus sous l’hypothèse nulle permet de

calculer la statistique χ² (cfr BMV1)

On obtient: χ² = 2,076 avec 1 degré de liberté (vérifiez...)

Calcul de la valeur p

On peut utiliser un logiciel (excel, R, ...) pour obtenir la

probabilité d’une valeur de χ² ≥ 2,076

En R: pchisq(2.076,df=1,lower.tail=FALSE) => p = 0.1496

16Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

Page 9: Cours 6 Biostatistique - uliege.be

09/09/2021

9

L’aspirine protège-t-elle contre les AVC?

Conclusion statistique

La probabilité est supérieure au seuil classique α = 0.05

L’hypothèse nulle est donc supportée à ce seuil: pas d’effet

avéré de l’aspirine sur l’occurrence d’AVC (dans cette

expérience et à ce seuil)

17Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche (exemple)

18

Ne court-on pas le risque de se

tromper ?

Si ! Deux erreurs sont envisageables:

OK !Erreur type I

α

H0 acceptée H0 rejetée

H0 vraie

H0 fausse OK !Erreur type II

β

Cours VETE2111-1 Année académique 2021-2022

Page 10: Cours 6 Biostatistique - uliege.be

09/09/2021

10

19

Une mesure de la « qualité du test »?

Une mesure est la « puissance du test »:

P(H0 rejetée | H0 fausse)

En clair: la probabilité de détecter un

effet réel.

Mathématiquement: P = 1 - β

OK !Erreur type I

α

H0 acceptée H0 rejetée

H0 vraie

H0 fausse OK !Erreur type II

βCours VETE2111-1 Année académique 2021-2022

20

Illustration de la puissance ?

Exercice (script) en R

mypower.R

β=β(n,d,α)

Cours VETE2111-1 Année académique 2021-2022

Page 11: Cours 6 Biostatistique - uliege.be

09/09/2021

11

Quelles sont les autres situations ?

21Cours VETE2111-1 Année académique 2021-2022

Tests de χ²

(cfr BMV1)

Régression

logistique

Discrète Continue

Discrète

Continue RégressionsComparaison

moyennes

Variable

indépendante

Variable

dépendante

Les comparaisons de moyennes

F. Farnir, L. Massart, A. Rives

Page 12: Cours 6 Biostatistique - uliege.be

09/09/2021

12

Une situation simple

� Considérons le problème suivant:

◦ Dans une race de chevaux de course, la fréquence

cardiaque au repos a une distribution supposée

connue (normale, de moyenne 70 bpm et de déviation

standard 5 bpm).

◦ Un échantillon de 9 chevaux est soumis à un

entrainement intensif. A l’issue de l’entrainement, la

fréquence cardiaque moyenne au repos de ces

chevaux vaut 65 bpm.

◦ Peut-on conclure à un effet de l’entrainement sur la

fréquence cardiaque (FC) ?

Cours VETE2111-1 Année académique 2021-2022 23

Une situation simple

� Plus formellement:

◦ Une population est normale: X ~ N(µ,σ), et les

paramètres (µ = 70 ,σ = 5) sont supposés connus.

◦ On dispose d’un échantillon de taille n = 9 et

de moyenne m = 65

◦ La question est:

considère-t-on l’hypothèse (nulle) selon laquelle cet

échantillon provient de la population N(µ,σ)

corroborée ?

Cours VETE2111-1 Année académique 2021-2022 24

Page 13: Cours 6 Biostatistique - uliege.be

09/09/2021

13

Une situation simple

� Plus formellement (suite):

◦ La question est:

considère-t-on l’hypothèse (nulle) selon laquelle cet

échantillon provient de la population N(µ,σ)

corroborée ?

◦ La réponse sera oui si la probabilité d’un tel résultat

est > α = 5%, et non dans le cas inverse.

◦ Tester l’hypothèse revient donc à calculer la

probabilité (appelée « valeur p ») de ce résultat sous

l’hypothèse nulle

Cours VETE2111-1 Année académique 2021-2022 25

Une situation simple

� Question:

◦ Comment calculer la probabilité qu’une moyenne m de 9 mesures s’écarte aussi fort, voire plus fort de la moyenne µ de la population (des moyennes de 9 mesures) si l’hypothèse nulle est vraie (c-à-dsi µ = 70) ?

Cours VETE2111-1 Année académique 2021-2022 26

Page 14: Cours 6 Biostatistique - uliege.be

09/09/2021

14

Une situation simple

� Graphiquement: combien vaut la probabilité

« à gauche » de m ?

Cours VETE2111-1 Année académique 2021-2022 27

Une situation simple

� Solution empirique:

◦ Simuler des échantillons sous H0 et compter la

proportion d’échantillons dont la moyenne < 65

Cours VETE2111-1 Année académique 2021-2022 28

> compte<-0

> nb_simulations<-10000

> for (simulation in 1:nb_simulations) {

+ echantillon<-rnorm(9,mean=70,sd=5)

+ m<-mean(echantillon)

+ if (m<65) { compte<-compte+1 }

+ }

> p_valeur<-compte/nb_simulations

> p_valeur

[1] 0.0016

Page 15: Cours 6 Biostatistique - uliege.be

09/09/2021

15

Une situation simple

� Solution plus formelle - théorie:

◦ m est la moyenne d’un échantillon provenant d’une distribution de moyenne µ et de déviation standard σ◦ TLC => m ~ N(µ , σ/√n)

=> z = (m - µ)/(σ/√n)

◦ Test unilatéraux (H1 et H2) ou bilatéral (H3)H1: µe < µ => P1 = P(zth < z)H2: µe > µ => P2 = P(zth > z)H3: µe ≠ µ => P3 = P1 + P2

◦ P < α => rejet de H0.P > α => acceptation de H0.

Cours VETE2111-1 Année académique 2021-2022 29

Une situation simple

� Solution plus formelle - calculs:

◦ H0: µe = µoù µe est la « moyenne des entrainés ».

◦ H1: µe < µ (test unilatéral gauche)

◦ z = (65 – 70) / (5/ √9) = -3

◦ P = P(zth < -3) = 0.0013 < α = 0.05

◦ Rejet de l’hypothèse nulle. On en déduit que l’entrainement diminue la fréquence cardiaque (dans certaines limites…)

Cours VETE2111-1 Année académique 2021-2022 30

Page 16: Cours 6 Biostatistique - uliege.be

09/09/2021

16

Une question supplémentaire

� Que faire si on ne connait pas σ ?

◦ Le plus intuitif est probablement d’estimer σ à partir des données dont on dispose (on calcule s), et d’utiliser l’estimation en lieu et place de σ:

=> z ≈ (m - µ)/(s/√n)

◦ Le problème est que, dans cette expression, on a remplacé une constante par une variable, ce qui va modifier la distribution, qui n’est plus normale:

=> t = (m - µ)/(s/√n)

Cours VETE2111-1 Année académique 2021-2022 31

t de Student

Une question supplémentaire

� Une simulation

◦ Simulons les distributions qu’on obtient pour le

problème donné plus haut en supposant tout d’abord σconnue (on devrait alors retrouver une normale) et puis

en supposant σ inconnue

(pour obtenir la distribution de t)

Cours VETE2111-1 Année académique 2021-

2022 32

Page 17: Cours 6 Biostatistique - uliege.be

09/09/2021

17

Cours VETE2111-1 Année académique 2021-

2022 33

# Parametres

mu<-70

sigma=10

n<-9

#

nb_permut<-10000

t<-rep(0,nb_permut)

z<-rep(0,nb_permut)

# Boucle

for (i in 1:nb_permut) {

sample<-rnorm(n,mu,sigma)

m<-mean(sample)

s<-sd(sample)

z[i]<-(m-mu)/(sigma/sqrt(n))

t[i]<-(m-mu)/(s/sqrt(n))

};

# Affichage

plot(density(t),col="red",main="Comparaison z -

t",xlim=c(-5,5),ylim=c(0,0.5))

lines(density(z),col="blue")

Cours VETE2111-1 Année académique 2021-2022 34

Page 18: Cours 6 Biostatistique - uliege.be

09/09/2021

18

Une question supplémentaire

� Résultats

◦ Les distributions obtenues pour t sont plus étalées que celles obtenues pour z

◦ Les distributions (et donc aussi les valeurs seuil) varient en fonction de la taille de l’échantillon…

� Il y aura donc une famille de distributions, paramétrée par un paramètre dépendant de n: on utilise en général «le dénominateur utilisé pour le calcul de s », et on nomme ce paramètre « degrés de liberté »� Dans notre exemple: ddl = (n-1) = 8

Cours VETE2111-1 Année académique 2021-2022 35

Une question supplémentaire

� Exercice

◦ Calculer par simulation les valeurs de t avec 8

degrés de liberté qu’on ne dépasse qu’avec

une probabilité de 0.10, 0.05, 0.025, 0.01 et

0.005.

Cours VETE2111-1 Année académique 2021-2022 36

Percentile Expérimental Théorique

P(90) 1,413787103 1,3968153

P(95) 1,885880746 1,859548

P(97.5) 2,315094159 2,3060041

P(99) 2,90189636 2,8964594

P(99.5) 3,340581836 3,3553873

Page 19: Cours 6 Biostatistique - uliege.be

09/09/2021

19

Cours VETE2111-1 Année académique 2021-

2022 37

# Parametres

mu<-70

sigma=10

n<-9 # => ddl = 8

#

nb_permut<-10000

t<-rep(0,nb_permut)

# Boucle

for (i in 1:nb_permut) {

sample<-rnorm(n,mu,sigma)

m<-mean(sample)

s<-sd(sample)

t[i]<-(m-mu)/(s/sqrt(n))

};

# Affichage

ts<-sort(t)

cat(« seuil 5% = »,ts[0.95*nb_permut], «\n »)

cat(« seuil 1% = »,ts[0.99*nb_permut], «\n »)

cat(« seuil 0.1% = »,ts[0.999*nb_permut], «\n »)

Tables de t

� On pourrait construire de manière similaire:

Cours VETE2111-1 Année académique 2021-2022 38

ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)

1 3,078 6,314 12,706 31,821 63,657

2 1,886 2,92 4,303 6,965 9,925

3 1,638 2,353 3,182 4,541 5,841

4 1,533 2,132 2,776 3,747 4,604

5 1,476 2,015 2,571 3,365 4,032

6 1,44 1,943 2,447 3,143 3,707

7 1,415 1,895 2,365 2,998 3,499

8 1,397 1,86 2,306 2,896 3,355

9 1,383 1,833 2,262 2,821 3,25

10 1,372 1,812 2,228 2,764 3,169

11 1,363 1,796 2,201 2,718 3,106

12 1,356 1,782 2,179 2,681 3,055

13 1,35 1,771 2,16 2,65 3,012

14 1,345 1,761 2,145 2,624 2,977

15 1,341 1,753 2,131 2,602 2,947

16 1,337 1,746 2,12 2,583 2,921

17 1,333 1,74 2,11 2,567 2,898

18 1,33 1,734 2,101 2,552 2,878

19 1,328 1,729 2,093 2,539 2,861

20 1,325 1,725 2,086 2,528 2,845

30 1,31 1,697 2,042 2,457 2,75

100 1,29 1,66 1,984 2,364 2,626

1000 1,282 1,646 1,962 2,33 2,581

Voir syllabus…

Page 20: Cours 6 Biostatistique - uliege.be

09/09/2021

20

Tables de t

� Remarque

◦ Quand la taille de l’échantillon augmente,

l’esYmaYon de la variance s’améliore (s → σ), et

donc la valeur de t se rapproche de celle de z,

comme en témoignent les seuils de t quand le

nombre de degrés de liberté devient grand…

Cours VETE2111-1 Année académique 2021-2022 39

ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)

30 1,31 1,697 2,042 2,457 2,75

100 1,29 1,66 1,984 2,364 2,626

1000 1,282 1,646 1,962 2,33 2,581

z 1,282 1,645 1,96 2,326 2,576

En résumé

� Dans la situation où on confronte 1

échantillon, de moyenne m et de

déviation standard s, à une distribution

normale de moyenne µ

◦ Si σ est connue:

� utiliser z = (m-µ)/(σ/√n)

◦ Si σ est inconnue:

� utiliser t = (m-µ)/(s/√n) avec (n-1) degrés de liberté

Cours VETE2111-1 Année académique 2021-2022 40

Page 21: Cours 6 Biostatistique - uliege.be

09/09/2021

21

Schématiquement

Cours VETE2111-1 Année académique 2021-2022 41

1 moyenne

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

autres situations

Et maintenant ?

Cours VETE2111-1 Année académique 2021-2022 42

1 moyenne

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

2 moyennes

Page 22: Cours 6 Biostatistique - uliege.be

09/09/2021

22

Exemple introductif

� La problématique:

Un vétérinaire souhaite tester l’efficacité

d’un régime alimentaire sur l’évolution

pondérale de chiens en surpoids. Il

procède à une étude prospective sur deux

lots balancés de chiens pour lesquels la

seule différence (volontaire) est le régime

(classique ou nouveau).

Comment comparer ces deux groupes ?

Cours VETE2111-1 Année académique 2021-2022 43

Exemple introductif

� La solution :

Mettre cette expérience sous la forme

d’un test d’hypothèse, et utiliser la

démarche classique du test d’hypothèse…

Cours VETE2111-1 Année académique 2021-2022 44

Page 23: Cours 6 Biostatistique - uliege.be

09/09/2021

23

Exemple introductif

� Hypothèse testée (hypothèse nulle):

H0: µC = µT

� µC représente la moyenne de la population des

poids des chiens recevant le régime classique (C).

� µT représente la moyenne de la population des

poids des chiens recevant le régime testé (T).

Cours VETE2111-1 Année académique 2021-2022 45

Exemple introductif

� Hypothèse alternative:

H1: µC > µT

◦ On est intéressé uniquement de savoir si le

régime testé conduit à un poids adulte

inférieur en moyenne à celui des individus

recevant l’alimentation classique

(test unilatéral gauche).

Cours VETE2111-1 Année académique 2021-2022 46

Page 24: Cours 6 Biostatistique - uliege.be

09/09/2021

24

Exemple introductif

o Récolte de données:

Cours VETE2111-1 Année académique 2021-2022 47

Exemple introductif

� Discussion (1):

◦ Pas de tendance claire au niveau individuel…

◦ Il serait assez naturel de prendre une mesure de

position (typiquement, la moyenne…) sur les 2

échantillons et d’utiliser cette mesure comme

estimation de la tendance observée:

XC = 21.45 kg

XT = 20.64 kg

=> XC - XT = 0.81 kg > 0…

Cours VETE2111-1 Année académique 2021-2022 48

_

_

__

Page 25: Cours 6 Biostatistique - uliege.be

09/09/2021

25

Exemple introductif

� Discussion (2):

◦ La différence va dans le sens escompté…

◦ Mais elle n’est mesurée que sur un échantillon et rien

ne garantit que ce résultat peut être étendu à toute la

population:

Cours VETE2111-1 Année académique 2021-2022 49

��� � ��� ⇏ �� � ��

Exemple introductif

� Discussion (3):

◦ Comment s’assurer que cette différence est

« significative » ?

◦ En d’autres mots, comment s’assurer que la

probabilité d’une telle différence, alors que

l’hypothèse nulle est vraie, est < α ?

Cours VETE2111-1 Année académique 2021-2022 50

Page 26: Cours 6 Biostatistique - uliege.be

09/09/2021

26

Exemple introductif

� Discussion (4):

◦ Idée: si l’hypothèse nulle est vraie, les données

ne sont réparties dans les colonnes de la

manière observée que par hasard, chaque

observation avait la même chance d’être dans

la première ou dans la seconde colonne

Cours VETE2111-1 Année académique 2021-2022 51

Exemple introductif

� Discussion (5):

◦ Idée (suite):

=> en mélangeant les données entre les deux colonnes,

tout se passe comme si on obtenait de nouveaux

échantillons, générés sous H0. On pourrait pour chacun

de ces « nouveaux » échantillons calculer la différence

entre les moyennes et vérifier si on observe rarement ou

pas des différences telles que celle réellement observée

(0.81)…

Cours VETE2111-1 Année académique 2021-2022 52

Page 27: Cours 6 Biostatistique - uliege.be

09/09/2021

27

Exemple introductif

� Discussion (6):

◦ Combien de (pseudo) échantillons peut-on générer ?

Le premier groupe peut comprendre n’importe quelle

combinaison de 10 individus pris parmi les 20. Le nombre

de possibilités est donc:

Cours VETE2111-1 Année académique 2021-2022 53

184756!10!*10

!2010

20 ==C

Exemple introductif

� Résultat (1):

◦ En générant tous ces pseudo-échantillons, on

s’aperçoit que la différence qui nous intéresse est

atteinte ou dépassée dans 53784 cas.

◦ La probabilité d’atteindre ou de dépasser une telle

différence vaut donc:

Cours VETE2111-1 Année académique 2021-2022 54

2911.0184756

53784)81.0( ==>DP

Page 28: Cours 6 Biostatistique - uliege.be

09/09/2021

28

Exemple introductif

� Résultat (2):

◦ P = 0.2911 > α = 0.05

◦ L’hypothèse nulle (égalité des moyennes) est donc

acceptée: le nouveau régime n’a pas un effet

significatif sur le poids.

Cours VETE2111-1 Année académique 2021-2022 55

Exemple introductif

� Problème:

◦ Très fastidieux…

Cours VETE2111-1 Année académique 2021-2022 56

Page 29: Cours 6 Biostatistique - uliege.be

09/09/2021

29

Exemple introductif

� Une solution moins coûteuse (mais moins

précise):

« échantillonner les (pseudo-)échantillons »

◦ On prend N (p.e. 1000) des pseudo-échantillons

au hasard, et on évalue la proportion de ces N

pseudo-échantillons pour laquelle D ≥ 0.81

Cours VETE2111-1 Année académique 2021-2022 57

� Une solution moins coûteuse (mais

moins précise):

« échantillonner les échantillons »

Cours VETE2111-1 Année académique 2021-2022 58

# Donnees

nouveau<-c(20.6,16.4,23.7,22.8,20.0,22.7,17.1,22.0,22.9,18.2)

ancien<-c(18.6,20.2,23.9,26.7,16.6,25.1,24.7,19.3,23.3,16.1)

diff<-mean(ancien)-mean(nouveau)

tous<-c(nouveau,ancien)

# Boucle de calcul

n<-0

nb_perm<-10000

for (i in 1:nb_perm) {

melange<-sample(tous,20,replace=F)

d<-mean(melange[11:20])-mean(melange[1:10])

if (d>=diff) { n<-n+1 }

}

# Affichage des résultats

cat("# d > ",diff," = ",n,"\n")

p_valeur<-1.0*n/nb_perm

cat("=> p-valeur =",p_valeur,"\n")

Page 30: Cours 6 Biostatistique - uliege.be

09/09/2021

30

Exemple introductif

� Résultat (3):

◦ P ≈ 0.286 > α = 0.05

◦ Le résultat:

� varie aléatoirement de sous-ensemble (de pseudo-

échantillons) en sous-ensemble…

� est très similaire à celui obtenu en exploitant tous

les pseudo-échantillons.

� Si N grand assez…

� moins fastidieux … mais toujours fastidieux !

� une solution plus simple reste désirable !

Cours VETE2111-1 Année académique 2021-2022 59

De manière plus générale

� Imaginons à présent une situation similaire, mais différente:◦ Deux échantillons sont prélevés dans une

population. Chaque échantillon est ensuite mis dans des conditions différentes. Par exemple:� Régime 1 – Régime 2

� Traitement – Placebo

� Traitement 1 – Traitement 2

� …

◦ La question: cette différence de conditions entraine-t-elle une différence de moyennes sur le caractère étudié ?

Cours VETE2111-1 Année académique 2021-2022 60

Page 31: Cours 6 Biostatistique - uliege.be

09/09/2021

31

De manière plus générale

� Hypothèse nulle :

◦ H0: µ1 = µ2 => H0: µ1 - µ2 = 0

◦ L’hypothèse est donc que les « traitements » n’ont pas conduit à des moyennes différentes

� Soit les moyennes correspondent à la moyenne de la population d’origine (p.e. Placebo)

� Soit les traitements ont le même effet sur la moyenne.

◦ Une hypothèse plus générale serait: H0: µ1 - µ2 = δ, où δ est une valeur éventuellement égale à 0.

� Hypothèses alternatives :

◦ H1: µ1 - µ2 ≠ δ ou H2: µ1 - µ2 > δ ou H3: µ1 - µ2 < δ

Cours VETE2111-1 Année académique 2021-2022 61

Une approche plus math...

� Résolution:

◦ On raisonne sur

◦ « La différence de deux variables normales

indépendantes est distribuée normalement (TLC)»

◦ Donc:

� Calculons ��� et �� pour pouvoir faire les calculs de

probabilité nécessaires.

Cours VETE2111-1 Année académique 2021-2022 62

� �� � ���

� �� � ���~� ��� , ��

Page 32: Cours 6 Biostatistique - uliege.be

09/09/2021

32

Une approche plus math...

� Résolution (2): on applique le TLC:

(car les 2 échantillons sont indépendants)

Cours VETE2111-1 Année académique 2021-2022 63

��� � � � � �� � ��� � � �� � � ��� � � � ��

��� � � � ���

�� � �� � ��� � � � ��

�� � �� � � � ��� � ��

� � �� � � � � ��� � ��

� � 2 ∗ �� � � ∗ ��� � ��

� �

� � � �

��� � 2 ∗ ��� �� , ��� �

� � � �

���

Une approche plus math...

� Résolution (3):

◦ En résumé: ~� � � ��, ���

��� ��

��

◦ Cas particulier: � � �

� � �

� Par exemple, deux traitements appliqués sur la même population d’origine,

et on suppose que le traitement n’a pas altéré la variance. Alors:

et

Cours VETE2111-1 Année académique 2021-2022 64

~� � � ��, ∗1

� �

1��

" � � � � ��

∗ 1�

� 1��

Page 33: Cours 6 Biostatistique - uliege.be

09/09/2021

33

Un exemple: problème

� Un traitement médicamenteux pour combattre

l’hyperaldostéronisme (production excessive de l’aldostérone, une

hormone impliquée notamment dans le maintien de la fonction

cardiaque => voir le cours de physio) est testé sur une série de

patients, d’autres patients recevant un placebo.

� Suite à 2 semaines de traitement, les concentrations d’aldostérone

sont comparées pour les deux lots de 5 patients, pour tester si

l’effet du traitement médicamenteux est avéré.

� Les données sont présentées sur la dia suivante. On suppose:

◦ Une unité de mesure commune a été choisie

◦ Le traitement modifie éventuellement la concentration moyenne, mais

n’a pas d’effet sur la variation: la variance de cette concentration dans

la population est connue, et vaut: � � 225

Cours VETE2111-1 Année académique 2021-2022 65

Un exemple: données

Cours VETE2111-1 Année académique 2021-2022 66

Placebo Traitement

96,4 94,8

125,5 106,5

92,6 107,3

112,0 75,7

118,9 62,6

• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT

2 échantillons

Page 34: Cours 6 Biostatistique - uliege.be

09/09/2021

34

Cours VETE2111-1 Année académique 2021-2022 67

1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

Un autre problème

� Reprenons l’exemple introductif de comparaison des deux

régimes:

� Le problème est similaire au précédent, à la différence près

qu’on ne connait pas la variance � dans la population...

Cours VETE2111-1 Année académique 2021-2022 68

Page 35: Cours 6 Biostatistique - uliege.be

09/09/2021

35

Un autre problème (suite)

� Une idée, comme dans le cas d’un seul échantillon, serait

alors d’estimer cette variance (supposée encore une fois

commune aux deux sous-populations) sur base des deux

échantillons disponibles

� Pour estimer �, on peut prendre une moyenne (pondérée

par les tailles des échantillons, pour donner plus de poids à

la moyenne la mieux estimée) des variances $ � et $�

estimées à partir des deux échantillons:

Cours VETE2111-1 Année académique 2021-2022 69

$�� �

� � 1 ∗ $ � � �� � 1 ∗ $�

� � 1 � �� � 1�

∑ & ' � &� � � ∑ &�' � &��

�'(��'(

'(��'(

� � �� � 2

Un autre problème (suite)

� Comme précédemment, on remplacera l’utilisation de la

statistique Z par celle de la statistique t, avec un nombre de

degrés de liberté égal au dénominateur du calcul de la

variance

◦ Donc, ici:

⇒ * � � � �� � 2

◦ Et la statistique est: + � ��, -�,-�

./∗ �0�

1 �0�

Cours VETE2111-1 Année académique 2021-2022 70

$�� �

∑ & ' � &� � � ∑ &�' � &��

�'(��'(

'(��'(

� � �� � 2

Page 36: Cours 6 Biostatistique - uliege.be

09/09/2021

36

� Application:

◦ Reprenons les données de l’exemple

Cours VETE2111-1 Année académique 2021-

2022 71

147.14

900.6

45.21

64.20

2

2

2

1

2

1

====

s

s

X

X

Un autre problème: calculs

Un autre problème: calculs

� Application:

◦ L’hypothèse testée est: H0: µ1 - µ2 = δ = 0

◦ L’alternative d’intérêt est:

H1: µ1 - µ2 = δ < 0 (test unilatéral)

◦ On a deux échantillons issus d’une même population mais ayant subi des régimes différents

� On suppose σ1² = σ2² = σ²

� σ² est inconnu => on emploiera le test de t et σ² sera estimée à partir des deux échantillons

Cours VETE2111-1 Année académique 2021-2022 72

Page 37: Cours 6 Biostatistique - uliege.be

09/09/2021

37

� Application:◦ t = [(20.64 – 21.45) – 0]/[s*√(1/10 + 1/10)]

= -1.811/s

◦ s²= (9 * 6.900 + 9 * 14.147)/(9 + 9)= 10.524

=> t = -1.811/3.244 = -0.558

◦ P = P(t18 < -0.558) = 0.292 (cfr résultats obtenus ↑)� pt(-0.558, df=18) => [1] 0.2918594

◦ L’hypothèse nulle est acceptée: pas d’effet du traitement

Cours VETE2111-1 Année académique 2021-2022 73

Un autre problème: calculs

L’exemple avec R…

� L’exemple introductif avec R…

Cours VETE2111-1 Année académique

2021-2022 74

Fichier de données: "regime.txt"

> f<-read.table(file="regime.txt",head=T,sep="\t")

> t.test(f$Nouvelle.formule,f$Ancienne.formule,

var.equal=T,alternative="l")

Two Sample t-test

data: f$Nouvelle.formule and f$Ancienne.formule

t = -0.5583, df = 18, p-value = 0.2918

alternative hypothesis: true difference in means

is less than 0

95 percent confidence interval:

-Inf 1.705747

sample estimates:

mean of x mean of y

20.64 21.45

Page 38: Cours 6 Biostatistique - uliege.be

09/09/2021

38

Un autre problème: remarques

� Remarques:

1. Si σ1² ≠ σ2², on utilise un test approximatif, appelé « test t

de Welch »:

+2 3 � ��, -�,-�

4��

0�1

4��

0�

où:

Cours VETE2111-1 Année académique 2021-2022 75

Un autre problème: remarques

� Remarques:

2. Tous les tests présentés font intervenir (� � ��).

Si l’hypothèse nulle est:

56: � � �� ⇔ 56: � � �� � 0on remplace :� ���; par 0

Si l’hypothèse nulle est:

56: � � �� � <où < est une grandeur connue, on remplace :� ���;par <

Cours VETE2111-1 Année académique 2021-2022 76

Page 39: Cours 6 Biostatistique - uliege.be

09/09/2021

39

Cours VETE2111-1 Année

académique 2021-2022 77

1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2² +��1��,� ��� � ��� � � � ��

>? ∗ 1�

� 1��

t ou z ?

� Règle:

◦ Quand la variance σ² des données est inconnue, elle

doit être estimée par s² et on utilise alors t plutôt que

z.

◦ Mais:

� Quand n ↑, t → z et il est raisonnable d’uYliser z

(typiquement, quand n > 30)

� Toutefois, l’hypothèse d’une population distribuée

normalement reste nécessaire, qu’on emploie t ou z

Cours VETE2111-1 Année académique 2021-2022 78

Page 40: Cours 6 Biostatistique - uliege.be

09/09/2021

40

Cours VETE2111-1 Année

académique 2021-2022 79

1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2²

+��1��,� ��� � ��� � � � ��

>? ∗ 1�

� 1��

n1+n2-2>30

Une question supplémentaire

� Quel est le risque de travailler avec de « petits échantillons » ?

◦ Puissance faible (P ↑ quand n↑)

◦ Biais dans l’échantillon� « Confusion » d’effets

Cours VETE2111-1 Année académique 2021-2022 80

Traitement 1 Traitement 2

Page 41: Cours 6 Biostatistique - uliege.be

09/09/2021

41

Une question supplémentaire

� Quel est le risque de travailler avec de

« petits échantillons » ?

◦ Puissance faible (P ↑ quand n↑)

◦ Biais dans l’échantillon

� Influence importante d’informations individuelles

Cours VETE2111-1 Année académique 2021-2022 81

Traitement 1 Traitement 2

Une question supplémentaire

� Quel est le risque de travailler avec de

« petits échantillons » ?

◦ Il est donc nécessaire de « balancer » les

observations dans les deux groupes.

Cours VETE2111-1 Année académique 2021-2022 82Cours VETE2111-1 Année académique 2019-2020

Traitement 1 Traitement 2

Page 42: Cours 6 Biostatistique - uliege.be

09/09/2021

42

Analyse de données « pairées »

� Considérons l’analyse suivante:

on a dosé l’hydroxyproline dans 5 muscles avec deux

méthodes (A et B). Voici les résultats:

Les deux méthodes donnent-elles le même résultat ?

Cours VETE2111-1 Année académique 2021-2022 83

Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9

Analyse de données « pairées »

� Hypothèse nulle:

Les deux méthodes donnent les mêmes résultats, et

donc:

H0: µ1 = µ2 => H0: δ = µ1 - µ2 = 0

H1: δ ≠ 0 (bilatérale)

� L’idée: en travaillant avec la différence entre mesures

faites sur le même muscle, on élimine l’effet individuel !

Cours VETE2111-1 Année académique 2021-2022 84

Page 43: Cours 6 Biostatistique - uliege.be

09/09/2021

43

Analyse de données « pairées »

� Algébriquement:

Notant di = Xi1 – Xi2, on obtient un échantillon

de nd différences,

◦ dont la moyenne estime δ = µ1 - µ2 (H0 : δ = 0)

◦ dont la variance $���peut s’estimer $��

� � .@�

�@

=> utilisation d’un test de t pour un

échantillon de �� différences

(et donc avec �� � 1 degrés de liberté)

Cours VETE2111-1 Année académique 2021-2022 85

dds

d

s

dt =−= δ

Analyse de données « pairées »

� Exemple:

Cours VETE2111-1 Année académique 2021-2022 86

Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9

d = A-B

3

0

3

1

-1

2.1=d 2.32 =ds 64.05/2.3

2 ==d

s

5.18.0/2.1 ==t

( ) ( )( ) 208.044

=−<> ttouttp H0 est acceptée

� Calculs:

pt(-1.5,df=4)+pt(1.5,df=4,lower.tail=F)

Page 44: Cours 6 Biostatistique - uliege.be

09/09/2021

44

Analyse de données « pairées »

� Remarques:

◦ Le nombre de degrés de liberté est nd-1 (= 4) et non

pas n1 + n2 – 2 (=8)

◦ Comme il n’y a qu’un échantillon de valeurs

(différences), il n’ y a pas à se soucier des problèmes

d’homosédasticité.

◦ Ce type d’analyses n’est pas toujours faisable…

� Exemple: régimes sur la croissance

Cours VETE2111-1 Année académique 2021-2022 87

L’exemple avec R...

o Un autre exemple avec R…

Cours VETE2111-1 Année académique 2021-2022 88

Fichier de données: "muscles.txt"

Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9

> f<-read.table(file="muscles.txt",head=T,sep="\t")

> t.test(f$A,f$B,paired=T)

Paired t-test

data: f$A and f$B

t = 1.5, df = 4, p-value = 0.208

alternative hypothesis: true difference in means is not

equal to 0

95 percent confidence interval:

-1.021156 3.421156

sample estimates:

mean of the differences

1.2

Page 45: Cours 6 Biostatistique - uliege.be

09/09/2021

45

Cours VETE2111-1 Année

académique 2021-2022 89

1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2²

+��1��,� ��� � ��� � � � ��

>? ∗ 1�

� 1��

n1+n2-2>30pairées

utiliser

d=X1-X2

Voir chapitreANOVA

≥ 2 moyennes

Comparaison de pourcentages

� Considérons à présent le problème suivant:

15% des bovins d’une région sont porteurs d’une

tare génétique. Testant ses 20 bovins, un éleveur

n’en trouve qu’un qui soit porteur. Cette

observation est-elle compatible avec ce qui était

attendu dans cette région, ou bien peut-on conclure

que cette étable est moins touchée ?

� => On souhaite comparer une proportion

estimée pest = 1/20 avec la proportion

théorique π = 0.15

Cours VETE2111-1 Année académique 2021-2022 90

Page 46: Cours 6 Biostatistique - uliege.be

09/09/2021

46

Comparaison de pourcentages

� Mise sous la forme d’un test d’hypothèse:

H0: πétable = πrégion

H1: πétable < πrégion (unilatéral)

� Le calcul de la probabilité de ce qui a été observé si H0

est vraie peut se faire facilement (et de manière

exacte…)

Cours VETE2111-1 Année académique 2021-2022 91

Comparaison de pourcentages

� Calcul de la probabilité de ce qui a été observé (si H0

est supposée vraie)

=> p = 0.039 + 0.137 = 0.176 > α = 0.05

Cours VETE2111-1 Année académique 2021-2022 92

0

0,05

0,1

0,15

0,2

0,25

0,3

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Binomiale B(n=20,p=0.15)

pbinom(1,size=20,prob=0.15)

Page 47: Cours 6 Biostatistique - uliege.be

09/09/2021

47

Comparaison de pourcentages

� L’hypothèse nulle est acceptée (P > α):

on observe pas de différence significative entre la

situation régionale et la situation dans l’étable

Cours VETE2111-1 Année académique 2021-2022 93

Comparaison de pourcentages

� Si la taille de l’échantillon augmente:

◦ Le calcul binomial (direct et exact) devient fastidieux

◦ Il peut être remplacé par un calcul indirect (on passe par z puis on

calcule p(<z)…) et approximatif (on utilise l’approximation

gaussienne de la loi binomiale, vue précédemment)

� On a vu que:

" � AB4C,D

E∗ �FE0

� Dans notre exemple: " � 6,6G,6, GH,�I∗H,JI

�H

� �1,252

=> P(zth ≤ -1.252) = 0.105 > α = 0.05

Cours VETE2111-1 Année académique 2021-2022 94

Page 48: Cours 6 Biostatistique - uliege.be

09/09/2021

48

19

Comparaison de pourcentages

� Remarque:

◦ Comme il a été dit auparavant, cette approximation a

des limitations…

◦ Rappelons que ce test est équivalent à un test de χ²:

χ² = (3-1)²/3 + (17-19)²/17 = 1.569 = z² = (-1.252)²

Cours VETE2111-1 Année académique 2021-2022 95

Observés

Attendus

Porteurs Sains

1

3 17

15/34 = 0.441219

Comparaison de pourcentages

� Que faire si on compare deux pourcentages

observés (plutôt qu’un pourcentage observé à

un pourcentage prévu) ?

◦ Exemple:

Cours VETE2111-1 Année académique 2021-2022 96

Trait 1

Trait 2

Guéris Malades

15

12 48

%

12/60 = 0.2000

Page 49: Cours 6 Biostatistique - uliege.be

09/09/2021

49

Comparaison de pourcentages

� Mise sous la forme d’un test d’hypothèse:

H0: π1 = π2 = πH1: π1 ≠ π2 (hyp. bilatérale)

� On peut suivre la même approche que celle suivie plus

haut (comparaison de 2 moyennes), et calculer Z si H0 est

vraie:

Cours VETE2111-1 Année académique 2021-2022 97

+−

−=

−+−

−−−=

21

21

2

22

1

11

2121

11)1(

)(

)1()1(

)()(

nn

pp

nn

ppZ

ππππππππ

15/34 = 0.44121915

12 48 12/60 = 0.2000

27 67

Comparaison de pourcentages

� Problème: on ne connait pas π…

� Solution: on l’estime à partir des données ! (et on

emploie alors t au lieu de z)

Cours VETE2111-1 Année académique 2021-2022 98

Trait 1

Trait 2

Guéris Malades %

► 27/94 = 0.2872 ► p

► ►

Page 50: Cours 6 Biostatistique - uliege.be

09/09/2021

50

Comparaison de pourcentages

� On obtient donc:

� En pratique:

◦ On emploie souvent z, ce qui équivaut au test de χ² pour tables de contingence (voir dias suivantes)

Cours VETE2111-1 Année académique 2021-2022 99

+−

−=

21

21

11)1(

)(

nn

ppZ

ππ

+−

−=

21

21

11)1(

)(

nnpp

ppt

=>

avec (n1 + n2 – 2) ddl

Comparaison de pourcentages

� La solution est donc:

" �

1534 � 12

602794 ∗ 67

94 ∗ 134 � 1

60

� 2.483

=> " > 1.96 (seuil bilatéral pour α = 5%)

=> rejet de H0.

� Conclusion: l’efficacité des deux traitement est

différente (cfr H1)

Cours VETE2111-1 Année académique 2021-2022 100

Page 51: Cours 6 Biostatistique - uliege.be

09/09/2021

51

19 34*67/94

Comparaison de pourcentages

� La solution avec une table de contingence:

χ² = 6.166 (= 2.483²) > 3.841 (= 1.96²)

=> Même conclusion !

Cours VETE2111-1 Année académique 2021-2022 101

Trait 1

Trait 2

Guéris Malades

15

12 48

Observés

Trait 1

Trait 2

Guéris Malades

34*27/94

60*27/94 60*67/94

Attendus

m<-matrix(c(15,19,12,48),byrow=T,nr=2)

chisq.test(m,correct=F)

19 34*95/136

Comparaison de pourcentages

� L’avantage de cette solution: extensible aux situations où

on compare plus de deux pourcentages…

χ² = 6.287 => p(χ²th(2) > χ²) = 0.043

=> rejet de H0 pour α = 0.05

Cours VETE2111-1 Année académique 2021-2022 102

Trait 1

Trait 2

Guéris Malades

15

12 48

Observés

Trait 1

Trait 2

Guéris Malades

34*41/136

60*41/136 60*95/136

Attendus

Trait 3 14 28 Trait 2 42*41/136 42*95/136

pchisq(6.287,df=2,lower.tail=F)

Page 52: Cours 6 Biostatistique - uliege.be

09/09/2021

52

Cours VETE2111-1 Année

académique 2021-2022 103

1 proportion

2 proportions

n petit

Loi

binomiale

n grandApprox.

normale

π connu n1+n2-2>30

χ²≥ 2 proportions

+−

−=

21

21

11)1(

)(

nn

ppZ

ππ

+−

−=

21

21

11)1(

)(

nnpp

ppt

Une autre vue des tests

d’hypothèses

� La vue étudiée jusqu’ici:

◦ On calcule un estimateur ponctuel d’un paramètrebasé sur les données

� Exemple: �� estime µ, s estime σ◦ On en déduit une « statistique » basée sur

l’hypothèse H0 impliquant le paramètre et son estimateur

� Exemple: + � �� � � / $ ∗ 1/�

◦ On regarde si cette statistique est probable (on accepte) ou pas (on rejette)

� Exemple: calcul de la « valeur p » et comparaison à α

Cours VETE2111-1 Année académique 2021-2022 104

Page 53: Cours 6 Biostatistique - uliege.be

09/09/2021

53

Une autre vue des tests

d’hypothèses

� La nouvelle vue proposée maintenant:

◦ On remplace l’estimateur ponctuel par un

« intervalle de confiance »

� Plus d’information sur l’estimation, en fournissant de

l’information sur la variabilité de l’estimateur

� Permet également de tester des hypothèses

Cours VETE2111-1 Année académique 2021-2022 105

Une autre vue des tests

d’hypothèses

� La vue étudiée jusqu’ici:

Cours VETE2111-1 Année académique 2021-2022 106

H0

α

données

(X,p,n…)

=> S

_distrib

(z,t,χ²…)P(data|H0)

P<α: rejet H0

P>α: accepte H0

H0

α

données

(X,p,n…)

=> S

_distrib

(z,t,χ²…)ICα(S)

S ∉ IC: rejet H0

S ∈ IC: accepte H0

� Une autre approche (équivalente):

Page 54: Cours 6 Biostatistique - uliege.be

09/09/2021

54

Cours VETE2111-1 Année

académique 2021-2022 107

Intervalles de confiance

� Illustrons l’approche sur la situation suivante:

◦ Le poids moyen de la laine chez un mouton adulte Mérinos est de � � 4,5 kilos, avec un déviation standard valant � 0,5 kilos.

◦ On suspecte un gène d’être impliqué dans la production lainière: le gène a deux allèles M et m, et on pense que les individus mm auraient une production plus importante.

◦ Pour tester cette hypothèse, on obtient 9 individus de génotype mm, et on mesure la production lainière. On obtient: �� � 4,8 kilos.

◦ Que peut-on conclure de cette expérience?

Cours VETE2111-1 Année académique 2021-2022 108

Page 55: Cours 6 Biostatistique - uliege.be

09/09/2021

55

Intervalles de confiance

� Commençons par l’approche vue plus haut:

◦ La situation est celle d’un échantillon comparé à une

population de moyenne µ connue, avec σ connu

◦ H0: µ(mm) = µ(population) = µ

◦ L’estimateur (ponctuel) de µ est �� ∼ � �, �� T56

◦ On peut calculer: " � U�,-� � ⁄

� W,X,W,G6,G Y⁄

� 1,8

◦ La valeur p unilatérale (pourquoi?) est:Z � Z " � 1,8 � 0,036

◦ Comme Z [ \, l’hypothèse nulle est rejetée au seuil

\ � 5%: il semble y avoir un effet de ce gène.

Cours VETE2111-1 Année académique 2021-2022 109

Intervalles de confiance

� Une approche alternative serait:

◦ Si l’hypothèse nulle est vraie, il est possible de

prédire entre quelles limites �� devrait se situer, en

utilisant �� ∼ � �, ��

◦ La dia suivante illustre le calcul:

Cours VETE2111-1 Année académique 2021-2022 110

Page 56: Cours 6 Biostatistique - uliege.be

09/09/2021

56

Intervalles de confiance

� Illustrons l’approche sur la situation suivante:

Cours VETE2111-1 Année académique 2021-

2022 111

Intervalles de confiance

� Le développement correspondant:

◦ Z "^�⁄ _ " _ " ,^

�⁄ � 1 � \

◦ On remplace " par sa valeur:

◦ Z "^�⁄ _ U�,-

� � ⁄_ " ,^

�⁄ � 1 � \

◦ On isole �� dans les deux inéquations:

◦ Z � � "^�⁄ ∗ �

� _ �� _ � � " ,^�⁄ ∗ �

� � 1 � \

◦ On obtient un intervalle dans lequel �� a une

probabilité 1 � \ de se situer, appelé « intervalle

de confiance au seuil \ de la moyenne d’un

échantillon »

Cours VETE2111-1 Année académique 2021-2022 112

Page 57: Cours 6 Biostatistique - uliege.be

09/09/2021

57

Intervalles de confiance

� Et le calcul correspondant:

◦ Z � � "^�⁄ ∗ �

� _ �� _ � � " ,^�⁄ ∗ �

� � 1 � \

◦ Si on utilise les données du problème et un seuil

\ � 5%, on obtient:

◦ Z 4,5 � 1,96 ∗ 6,GY

_ �� _ 4,5 � 1,96 ∗ 6,GY

� 0,95

◦ Soit:

◦ Z 4,17 _ �� _ 4,83 � 0,95

Cours VETE2111-1 Année académique 2021-2022 113

Intervalles de confiance

� Le graphique correspondant:

Cours VETE2111-1 Année académique 2021-

2022 114

Page 58: Cours 6 Biostatistique - uliege.be

09/09/2021

58

Intervalles de confiance

� On peut donc prédire l’intervalle dans lequel devrait

tomber la moyenne d’un échantillon si on connait la

moyenne de la population (et, dans notre exemple, la

déviation standard)

� Mais notre problème est différent ! Nous souhaitons

savoir si la moyenne (inconnue) de la population dont

provient notre échantillon est compatible avec le

moyenne (connue) d’une population de référence

◦ Ce qui revient à tester 56: � éaℎ � � Z�Z � �� Le raisonnement est tout-à-fait similaire...

Cours VETE2111-1 Année académique 2021-2022 115

Intervalles de confiance

� Le développement est le suivant:

◦ Z "^�⁄ _ " _ " ,^

�⁄ � 1 � \

◦ On remplace " par sa valeur:

◦ Z "^�⁄ _ U�,-

� � ⁄_ " ,^

�⁄ � 1 � \

◦ On isole � dans les deux inéquations:

◦ Z �� �"^�⁄ ∗ �

� _ � _ �� � " ,^�⁄ ∗ �

� � 1 � \

◦ On obtient un intervalle dans lequel � a une

probabilité 1 � \ de se situer, appelé « intervalle

de confiance au seuil \ de la moyenne de la

population »

Cours VETE2111-1 Année académique 2021-2022 116

Page 59: Cours 6 Biostatistique - uliege.be

09/09/2021

59

Intervalles de confiance

� Et le calcul est, cette fois:

◦ Z �� � "^�⁄ ∗ �

� _ � _ �� � " ,^�⁄ ∗ �

� � 1 � \

◦ Si on utilise les données du problème et un seuil

\ � 5%, on obtient:

◦ Z 4,8 � 1,96 ∗ 6,GY

_ � _ 4,8 � 1,96 ∗ 6,GY

� 0,95

◦ Soit:

◦ Z 4,47 _ � _ 5,13 � 0,95

Cours VETE2111-1 Année académique 2021-2022 117

Intervalles de confiance

� Remarques:

◦ On obtient donc, en plus de l’estimateur ponctuel

de µ, un intervalle dans lequel µ a une probabilité

donnée de se trouver

� Si \ ↘, la proba ↗ et l’intervalle s’élargit

◦ Il est possible d’utiliser l’intervalle obtenu pour

tester une hypothèse (bilatérale) sur µ

� Dans notre exemple, comme la moyenne de la population

(µ = 4.5) est incluse dans l’intervalle de confiance au seuil \de la moyenne de la population dont provient l’échantillon

(IC = [4.47; 5.13]), on ne peut pas exclure que ces deux

moyennes soient identiques: on accepte H0: µ(pop) = µ(ech)

Cours VETE2111-1 Année académique 2021-2022 118

Page 60: Cours 6 Biostatistique - uliege.be

09/09/2021

60

Intervalles de confiance

� Que fait-on si σ est inconnue ?

◦ Le développement est totalement similaire au cas

précédent, en remplaçant par s et Z par t

◦ On obtient alors:

Z �� �+e�� , �, ∗

$� _ � _ �� � + ,e

�� , �, ∗$� � 1 � \

Cours VETE2111-1 Année académique 2021-2022 119

Intervalles de confiance

� Exemple - énoncé:

◦ On a mesuré le taux basal du facteur de transcription

NF-Kβ dans le sang de 10 porcs pour identifier les

animaux où ce facteur est activé, traduisant une

infection virale. Les valeurs mesurées sont les

suivantes:

◦ Entre quelles limites l’expression moyenne de ce

facteur a-t-elle 95% de chance de se trouver ?

Cours VETE2111-1 Année académique 2021-2022 120

102 106 98 99 104 107 96 98 100 102

Page 61: Cours 6 Biostatistique - uliege.be

09/09/2021

61

Intervalles de confiance

� Exemple - solution:

◦ On calcule: �� � 101,2

◦ On calcule: $� � 13,29 ⇒ $ � 3,65

◦ La valeur de +�, � +f qu’on ne dépasse que dans 2.5%

des cas vaut: +f 0,975 � 2,26

◦ L’intervalle de confiance de µ vaut donc:

�� �+e�� , �, ∗

$� ; �� � + ,e

�� , �, ∗$�

� 101,2 � 2,26 ∗3,65

10 ; 101,2 � 2,26 ∗3,65

10

� h98,59; 103,81i

Cours VETE2111-1 Année académique 2021-2022 121

Intervalles de confiance

� Que fait-on avec les proportions?

◦ Si l’échantillon est grand et qu’on peut utiliser l’approximation

normale de la binomiale:

Z Z �"e�� ∗

Z ∗ 1 � Z�

_ j _ Z � " ,e�� ∗

Z ∗ 1 � Z�

� 1 � \

� Remarque: comme n ↗, on a remplacé t par Z

◦ Si l’échantillon est petit, on aura recours aux distributions

binomiales (voir dia suivante)

Cours VETE2111-1 Année académique 2021-2022 122

Page 62: Cours 6 Biostatistique - uliege.be

09/09/2021

62

Intervalles de confiance

� Comment calculer k�e j quand n petit ?

◦ Si on a r individus (sur n) qui présentent la caractéristique qui nous

intéresse, notre estimation ponctuelle de j sera p = r/n

� On va chercher la valeur p1 (p2) menant à une distribution pour

laquelle obtenir « r ou plus »

(« r ou moins ») occurrences de l’évènement d’intérêt n’a qu’une

probabilité de α/2.

� La dia suivante illustre le principe dans le cas de figure suivant:

on a testé 10 moutons pâturant dans une zone humide pour la

présence de Fasciola hepatica (un parasite infectant le foie,

connue sous le nom de « douve du foie »). Trois résultats sont

positifs. Quelle est la prévalence π de ce parasite dans cette zone ?

Cours VETE2111-1 Année académique 2021-2022 123

Cours VETE2111-1 Année

académique 2021-2022 124

Intervalles de confiance

Z 0,07 _ j _ 0,65 � 1 � \

� Comment obtenir les valeurs seuil de j?

Page 63: Cours 6 Biostatistique - uliege.be

09/09/2021

63

Intervalles de confiance

� Comment calculer ICa(p) quand n petit ?

◦ Algébriquement:

� B(r|p1,n) + B(r+1|p1,n) + … + B(n|p1,n) = α/2 où Z ∈ 0.0; 0.3� B(0|p2,n) + B(1|p2,n) + … + B(r|p2,n) = α/2 où Z� ∈ 0.3; 1.0

◦ Exemple avec R:

> # Valeurs possibles de p1 (au 1/1000 près)

> p<-seq(0,0.3,0.001)

> # Probas binomiales correspondantes

> probas<-1-pbinom(2,size=10,prob=p)

> # Différences avec alpha/2

> diffs<-abs(probas-0.025)

> # Calcul de p1

> p[diffs==min(diffs)]

[1] 0.067

Cours VETE2111-1 Année académique 2021-2022 125

Intervalles de confiance

� Un exemple similaire:

◦ Un cas de BSE a été reporté le mois passé. Sachant cela, et en

supposant l’épidémie stabilisée, à combien de cas par mois

dois-je m’attendre en moyenne ?

◦ Réponse:

� En moyenne, sur base de cet échantillon, on attend évidemment 1

cas par mois… (estimateur ponctuel)

� Il serait plus informatif de fournir une fourchette dans laquelle on a

par exemple 95% de chance de trouver le vrai nombre de cas

moyen (estimateur par intervalle de confiance) !

� Cherchons: IC0.05(µ) = [µI; µS]

où µ est la moyenne d’une distribution de Poisson

Cours VETE2111-1 Année académique 2021-2022 126

Page 64: Cours 6 Biostatistique - uliege.be

09/09/2021

64

Intervalles de confiance

� Solution:

◦ Il s’agit d’un exemple d’utilisation de la « loi de Poisson »

◦ On cherche �m et �n tels que:

o 1T�m � o 2T�m � ⋯ � \ 2⁄o 0T�n � o 1T�n � \ 2⁄

◦ La première équation est facile à résoudre, dans ce cas, en notant

que: o 1T�m � o 2T�m � ⋯ � 1 � o 0T�m � 1 � q,-r

⟹ q,-r � 1 � \ 2⁄ � 0.975⟹ �m � � ln 0.975 � 0.025

◦ La seconde équation nécessite de résoudre l’équation non-

linéaire: q,-v � � ∗ q,-v � 0.025� En utilisant R, on obtient la solution �n � 5.572

Cours VETE2111-1 Année académique 2021-2022 127

IC Poisson

Intervalles de confiance

� La prédiction d’un prochain tirage:

◦ Problème:

� Ayant échantillonné n individus dans une population

(normale), est-il possible de préciser un intervalle dans lequel

un (n+1)ème individu aurait une probabilité (1-α) de figurer ?

� En d’autres termes, on recherche l’intervalle de confiance d’un

prochain tirage X

Cours VETE2111-1 Année académique 2021-2022 128

Page 65: Cours 6 Biostatistique - uliege.be

09/09/2021

65

Intervalles de confiance

� La prédiction d’un prochain tirage:

◦ Solution:

� On peut voir le problème comme un exemple de situations où

2 échantillons sont extraits d’une même population, un

échantillon de taille n et un de taille 1.

� Evidemment, ici, µ1 = µ2 = µ !

� On sait que:

+ � �� � ��� � � � � / $�� ∗

���

��

avec (n1 – 1) + (n2 – 1) degrés de liberté

Cours VETE2111-1 Année académique 2021-2022 129

Intervalles de confiance

� La prédiction d’un prochain tirage:

◦ Solution (suite):

� On utilise:

� � � �, �� � 1� � � �� � �� �� � ��, ��� � X� � � �� � 2 � � � 1 � 2 � � � 1

� $�� �

∑ x��

1∑ x��

��1��,��

∑ x��

�, � $�

� Ce qui conduit à:

+ ��� � �

$ ∗ � � 1�

Cours VETE2111-1 Année académique 2021-2022 130

Page 66: Cours 6 Biostatistique - uliege.be

09/09/2021

66

Intervalles de confiance

� La prédiction d’un prochain tirage:

◦ Le même développement que plus haut conduit alors à:

Z �� � +e�� ∗ $ ∗

� � 1�

_ � _ �� � + ,e�� ∗ $ ∗

� � 1�

� 1 � \

avec t ~ t (n-1) degrés de liberté.

Cours VETE2111-1 Année académique 2021-2022 131

Intervalles de confiance

� La prédiction d’un prochain tirage:

◦ Illustration:

� La teneur moyenne en glucose sanguin a été établie sur 36

chevaux de 4 à 6 ans, en parfaite santé: la moyenne m est de

86.4 mgr/100ml, avec un IC(α=0.05) = m ± 4.06

Entre quelles limites un cheval, pris au hasard dans les mêmes

conditions a-t-il 95% de chance d’avoir sa teneur en glucose?

� Solution:

� t*S/√n = 4.06 => S = 4.06* √n/t

� n = 36

� t = 2.03 (cfr table avec 35 ddl)

� => S = 12

Cours VETE2111-1 Année académique 2021-2022 132

Page 67: Cours 6 Biostatistique - uliege.be

09/09/2021

67

Intervalles de confiance

� La prédiction d’un prochain tirage:� Solution (suite):

� P(m – tα/2 *S*√ (n + 1)/n < X < m + tα/2 *S*√ (n + 1)/n ) = 1-α

� P(86.4 – 2.03*12* √37/36 < X < 86.4 + 2.03*12* √37/36 ) = 0.95

=> P(61.704 < X < 111.096) = 0.95

Cours VETE2111-1 Année académique 2021-2022 133

Intervalles de confiance

� Qu’en est-il des variances ?� Pour déduire un IC pour la prédiction S² d’une variance σ², il faut

connaitre la distribution des S².

� On montre (et on admettra…) que:

(n-1)*S²/σ² ~ χ² (n-1)

ou, de manière équivalente:

Σx²/σ² ~ χ² (n-1)

Cours VETE2111-1 Année académique 2021-2022 134

Page 68: Cours 6 Biostatistique - uliege.be

09/09/2021

68

Intervalles de confiance

� Qu’en est-il des variance (suite) ?

◦ On en déduit que:

Z ye��

� _∑ z�

� _ y ,e��

� � 1 � \

◦ De là, on peut également déduire que:

Z∑ z�

y ,e��

� _ � _∑ z�

ye��

� � 1 � \

Cours VETE2111-1 Année académique 2021-2022 135

Intervalles de confiance

� Qu’en est-il des variance (suite) ?� Exemple: si la variance mesurée sur 10 données est de 60, dans

quel intervalle la vraie variance σ² a-t-elle 95% de chance de se

trouver ?

� Solution:

� S² = 60 => Σx² = (10-1)*S² = 540

� χ²0.025(9) = 2.700, χ²0.975(9) = 19.023

� P(540/19.023 < σ² < 540/2.700) = 0.95

=> P(28.287 < σ² < 200.000) = 0.95

� Remarquez que cet IC n’est pas symétrique autour de l’estimateur

ponctuel.

Cours VETE2111-1 Année académique 2021-2022 136