Download - Items 2003

5/11/2018 Items 2003 - slidepdf.com

http://slidepdf.com/reader/full/items-2003 1/33

1

Les banques d’items. Construction d’une banque pour le

Test de Connaissance du Français.

DEVOUCHE1

Emmanuel

Centre International d’Etudes Pédagogiques (CIEP)

1, avenue Léon Journault

F92318 Sèvres

Nombre total de mots du documents : 11104.

1 L’auteur adresse ses vifs remerciements à Yannick Savina qui a mis en place et développé la

méthodologie sous-jacente à l’élaboration du TCF. Cet article doit beaucoup aux documents

internes qu’il a rédigés alors qu’il travaillait au CIEP.



2

Les banques d’items. Construction d’une banque pour le

Test de Connaissance du Français.

Summary

This article first presents the construction, organization and functioning of an item bank,

through an evaluation of the pros and cons of its utilisation. Then, the process of

elaborating an item bank comes illustrated through the analysis of the TCF, a language

test developed by the CIEP. While presenting this process, we'll explain and comment the

methodology and criteria according to which items will be selected for a test. As a

conclusion, we will compare the item bank theory to its application.

Key wordsItem banking, item response model, language test

Résumé

Cet article présente tout d'abord la construction, l'organisation et le fonctionnement

d'une banque d'items, tout en s’interrogeant sur les avantages et les contraintes liés à

son utilisation. Il illustre ensuite le processus d'élaboration d'une banque d'items à

travers l’analyse du Test de Connaissance du Français développé par le Centre

International d'Etudes Pédagogiques. L’étude de ce processus permet de déterminer la

méthodologie et les critères qui président à la sélection des items pour un test donné :

nous commenterons ces différents aspects, afin de confronter la théorie initiale des

banques d’items à son utilisation.

Mots-clés

Banques d’items, modèle de réponses à l’item, test de connaissance en langue



3

1. INTRODUCTION

Une banque d’items est un système de « gestion des items qui permet de stocker des

informations afin de pouvoir élaborer des tests aux contenus et difficultés connus. »

(Milanovitch, 1998).

Cet article se propose de présenter le processus de construction d’une banque d’items à

partir d’un exemple concret, le Test de Connaissance du Français (TCF®), élaboré par le

Centre international d’études pédagogiques (CIEP). Cette illustration sera l’occasion

d’aborder la pratique d’une banque d’items, avec les avantages et inconvénients que cela

suppose. L’accent sera ainsi davantage mis sur la dimension pratique, l’aspect théorique

étant plus largement traité dans la littérature spécialisée. Par ailleurs, bien que les

banques d’items possèdent toutes un certain nombre de principes communs, de

nombreux points de la présentation seront spécifiques à la banque d’items du TCF.

Après une présentation de la théorie de la réponse à l’item, une partie sera consacrée au

concept de banque d’items. Nous passerons en revue ses avantages et ses contraintes et

donnerons quelques illustrations de banques existantes. Nous aborderons ensuite le

processus de validation des items appliqué au CIEP pour le TCF, en développant plus

particulièrement les aspects pratiques liés à l’application du modèle du Rasch. Enfin,

préalablement à la discussion, nous présenterons le principe de l’ancrage et de

l’assemblage d’un test.

2. LA THEORIE DE LA REPONSE A L’ITEM

2.2. Pr incipe fondamental et avantages de la théorie de la réponse à l’item

La théorie de la réponse à l’item (TRI), développée au siècle dernier, est apparue comme

une réponse aux limites de la théorie classique des tests et notamment à la dépendance

existant entre les différentes mesures (estimations) et l’échantillon (pour aller plus loin,

lire van der Linden, 1986 ; Dickes, Tournois, Flieller, Kop, 1994 ; Embretson et Reise,

2000). La TRI offre des techniques pour construire une échelle de mesure invariante,

rendant possible une mesure objective de traits psychologiques. Le principe fondamental

de cette théorie est que personnes (de l’échantillon) et items (du test) peuvent être

localisés sur un même continuum latent qui décrit simultanément la compétence2 de la

personne et la difficulté de l’item. La non-dépendance à l’échantillon tient au caractère

2 Il est nécessaire de bien distinguer la ‘compétence’ au sens psychométrique de la ‘compétence’

au sens linguistique : « competence is a psychological construct, but proficiency is a measure. »

(Jones, 1992).



4

linéaire et invariant de l’échelle qui autorise l’addition ultérieure d’items mesurant le

même trait latent, et de personnes appartenant à la même population générale,

moyennant un ajustement des mesures (ce point sera abordé dans le paragraphe

décrivant le principe de l’ancrage).

Ainsi le principal avantage de la TRI est avant tout que, à l’intérieur du domaine défini

par le trait latent, l’estimation de la compétence d’une personne est indépendante de

l’échantillon d’items utilisé, et l’estimation de la difficulté d’un item est indépendante de

l’échantillon de personnes sur lequel l’item est prétesté. Par ailleurs, la TRI permet

d’obtenir des erreurs d’estimation séparées pour chaque item et pour chaque personne,

et de prendre ainsi en compte le comportement de chaque item et de chaque personne.

De plus, l’estimation de la compétence d’une personne peut être simultanément reliée à

un groupe de personnes (le test peut être normatif) et à la performance probable de

cette personne à n’importe quel autre item (le test peut devenir critériel). Enfin, la TRI

facilite la création de banques d’items en autorisant le calibrage des items sur une

échelle commune.

2.2. Choisir un modèle de réponse à l’item

Un modèle de réponse à l’item (MRI) décrit en termes mathématiques la relation entre

des « constructs » ; par exemple, compétence de la personne et difficulté de l’item. Un

tel modèle représentant un idéal, son application à des données réelles comprend un

certain degré d’inadéquation, dont on souhaite qu’il soit le plus petit possible. On

distingue habituellement trois grands types de MRI : le modèle logistique à un paramètre

(dont le plus connu est le modèle de Rasch ; Wright et stone, 1979) et les modèles

logistiques à deux et trois paramètres (Lord et Novick, 1968). Ces modèles diffèrent dans

le poids attribué aux items. Le modèle de Rasch, le plus simple, possède un seul

paramètre appelé ‘compétence-difficulté’. Le modèle à deux paramètres (modèle 2P)

nécessite en plus un paramètre pour le ‘caractère discriminant’ de l’item, et le modèle à

trois paramètres (modèle 3P) un paramètre supplémentaire dit de ‘conjecture’ (Dickes, et

al., 1994 ; Embretson et Reise, 2000).

Les arguments en faveur d’un modèle en particulier reposent sur la précision de

l’estimation, des considérations pratiques et économiques, mais surtout sur une

orientation philosophique différente (Jones, 1992). Le plus élaboré, le modèle 3P, sera le

plus approprié dans le cas où tous les paramètres sont nécessaires pour expliquer les

données, c’est-à-dire dans le cas où les items varient beaucoup du point de vue de ladiscrimination, et où la conjecture est un facteur incident dans les scores. Dans les autres



5

cas, les modèles 1P et 2P fonctionneront aussi bien, voire mieux. La taille de l’échantillon

est un facteur à prendre en compte car plus le modèle est complexe, plus il nécessitera

de sujets. Avec des échantillons de 100 à 200 personnes, le modèle de Rasch est le seul

choix possible. Le modèle 2P demandera au moins trois fois plus de sujets, et le modèle

3P, dix fois plus (Jones, 1992). En ce qui concerne le modèle de Rasch, Linacre (1994)

nous donne une indication de la stabilité du calibrage des items, avec une garantie

associée en fonction de la taille de l’échantillon. Ainsi, l’auteur garantit une stabilité de

plus ou moins 0.5 logit à 99% pour un échantillon allant de 108 à 243 personnes. Notons

que cette approche est partagée par Wright (1977) et Bond et Fox (2001). L’exigence

plus réduite en terme de nombre de sujets fait donc du modèle de Rasch le plus

économique du point de vue du temps comme du point de vue du coût.

La différence la plus fondamentale entre ces modèles peut être exprimée comme suit : la

question du modèle de Rasch est « Les données empiriques correspondent-elles (‘fit’)

aux attentes du modèle de mesure ? » ; alors que la question des modèles 2P et 3P est

« Comment les paramètres additionnels peuvent être manipulés pour maximiser

l’ajustement des modèles aux données ? » (Bond et Fox, 2001). Les défenseurs du

modèle 1P ou modèle de Rasch revendiquent que seul ce modèle permet d’obtenir une

mesure objective : le modèle de Rasch n’est pas un ‘modèle de données’, mais une

‘définition de la mesure’. En d’autres termes, avec le modèle de Rasch, si les items du

test ne correspondent pas au modèle, ce sont les items qui posent problème et non lemodèle. Par opposition, les modèles plus complexes sont perçus comme imposant des

contraintes arbitraires sur les valeurs que les paramètres peuvent prendre dans le

processus d’estimation (Jones, 1992). Selon Bond et Fox (2001), « c’est précisément

l’addition de paramètres supplémentaires qui dépouille les données de leurs propriétés

fondamentales de mesure » (p. 191, trad.). En bref, choisir le modèle de Rasch, c’est

accorder la primauté au modèle de mesure et non aux données. Une telle approche

implique toutefois que le construct que le test est censé évaluer soit unidimensionnel,

sinon le choix du modèle de Rasch revient à sacrifier la validité de contenu (Bond et Fox,2001).

2.3. MRI et banque d’items

Le recours au modèle de Rasch (et de manière générale à un MRI) permet un calibrage

qui conduit à une échelle commune aux individus et aux items. Tous les items mesurant

un trait particulier peuvent être positionnés le long d’une échelle, leurs positions et leurs

espacements étant déterminés par le niveau de difficulté auquel ils correspondent. Laréussite d’une personne à une partie de ces items peut être exprimée au travers d’une



6

valeur correspondant à un point donné de cette échelle. Un individu a ainsi une

probabilité supérieure à 50% de réussir aux items situés à gauche de sa position et

inférieure à 50 % de réussir aux items situés à droite de sa position (cf. figure 1). Quant

aux items occupant exactement la même position que l’individu sur l’échelle de difficulté,

ils seront réussis avec une probabilité de 50 % (Choppin, 1979).

- insérer figure 1 -

Il est important de souligner que la construction d’une banque d’items sans un MRI est

irréaliste. Masters et Evans (1986) pensent que la méthode psychométrique utilisée pour

transformer une collection d’items en un système de mesure cohérent est probablement

la partie la plus importante d’une banque d’items : « Sans une méthode psychométrique

sous-jacente, une banque d’items cesse d’être un système de mesure et redevient une

simple collection. » (1986, p. 365). L’utilisation de liens (items ancres) dans les tests

permet d’ajouter de nouveaux items à un ensemble d’items déjà calibrés (la ‘banque’).

De ce point de vue, la mise en banque d’items est un cas particulier du calibrage vertical

(‘test equating’).

3. LA BANQUE D’ITEMS

3.1. Le concept de banque d’items

« Une banque d’items est une grande collection d’items organisés et catalogués comme

les livres d’une bibliothèque. L’idée est que l’utilisateur du test peut sélectionner les

items pour répondre à la fabrication d’un test précis. Compte tenu qu’une banque d’items

peut contenir plusieurs milliers d’items, le nombre possible de tests que l’on peut

fabriquer est astronomique. Le principal avantage de ce système est sa flexibilité. Les

tests peuvent être courts ou longs, faciles ou difficiles, à volonté. » (Choppin, 1979). Une

telle approche implique le recours à une méthode permettant de calculer pour chaque

ensemble d’items (mesurant un trait commun et issu d’une banque d’item), et pour

chaque ensemble de réponses à ces items, un score calibré de compétence qui soit

interprétable relativement à tous les items de la banque, et non pas seulement aux items

d’un même test. La construction d’une banque d’items offre donc l’énorme avantage de

produire des formes multiples d’un même test tout en préservant la stabilité de la

mesure. Cet avantage est essentiel lorsqu’il s’agit, comme c’est le cas pour le TCF, de

produire un test différent pour chaque session, considérant qu’il y a une dizaine de

sessions par an, et que chaque test consomme une certaine quantité d’items.



7

Ingebo (1997) souligne que, dans la mesure où construire une banque d’items, c’est

développer un outil permettant de produire une multitude de tests, des erreurs dans la

construction de la banque d’items se répercuteront nécessairement sur les tests

construits à partir de cette banque et, de fait, sur l’appréciation du niveau des candidats.

Lors de la définition du domaine de compétence, les développeurs du test doivent avant

tout s’attacher à définir très précisément ce qu’ils veulent mesurer. La question du

contenu des items constituant l’outil d’évaluation est fondamentale car elle renvoie au

problème de validité de l’outil. Les rédacteurs des items doivent disposer de manuels de

rédaction qui précisent les règles de fond et de forme à respecter, au regard de la

compétence à évaluer. Par suite, les items produits seront relus de manière à vérifier leur

adéquation avec les règles définies, et seuls ceux jugés conformes seront saisis dans la

banque d’items.

Une banque d’items est tout d’abord une structure conçue pour répondre à une utilisation

prédéfinie et susceptible d’évoluer. La logique sous-jacente est de ce fait indépendante

du contenu ou de la forme des items qui la composent. Une banque d’items, c’est aussi

une organisation hiérarchique : plusieurs banques, liées par des règles de communication

précises et régentant la circulation des items. Dans cette organisation complexe, l’item

représente l’unité la plus petite, et doit posséder un code identifiant unique, un profil et

un historique. L’historique, indissociable de l’item, contient une fiche signalétique

composée de champs pouvant servir de critères de recherche ou de sélection. Il est doncindispensable de bien renseigner le système si l’on souhaite qu’il fonctionne

correctement. Toute étape du processus de traitement de l’item, autrement dit tout

mouvement de l’item dans la banque est obligatoirement inscrit dans son historique, et

tout item qui rentre dans la banque d’items n’en ressort jamais.

3.2. Avantages d’une banque d’items

Les avantages d’une banque d’items couplée à un MRI sont nombreux. Nous proposons

ci-dessous une liste non exhaustive inspirée notamment de l’article de Wright (1977) qui

constitue une référence en la matière.

Flexibilité des banques d’items

Cet avantage est probablement l’un des principaux : soulignée par Wright (1977),

Choppin (1979) et Dickes, Tournois, Flieller et Kop (1994), la flexibilité renvoie à la

possibilité de créer un test sur mesure, c’est-à-dire de mettre ou d’enlever des items

dans un test. En effet, même si la banque d’items contient des items hétérogènes

(certains utilisés dans un programme éducatif régional, et d’autres utilisés à un niveau

national par exemple), ils sont tous sur une échelle commune et conviennent tous du

point de vue de leur qualités psychométriques et de leur adéquation avec la variable



8

latente. On peut ainsi développer des tests en fonction des niveaux de compétence à

évaluer et de la précision souhaitée. Cet avantage est flagrant lorsque l’on veut suivre le

développement d’une compétence. Un seul test ne peut couvrir l’ensemble des niveaux à

évaluer tout en restant de longueur raisonnable et de bonne précision. La banque

d’items, grâce à l’échelle commune, permet de construire des tests pour chaque niveau

dont les résultats restent comparables.

Caractère dynamique de la banque d’items

Une banque d’items permet aisément l’ajout, le déplacement ou la suppression d’items

(Masters et Evans, 1986). Les procédures d’ancrage permettent en effet d’alimenter la

banque au rythme des phases de prétest. De plus, un contrôle régulier de la qualité

favorise la détection d’items qui ne conviennent plus pour diverses raisons : ils sont alors

modifiés ou migrent vers une partie dévolue de la banque d’items. Deux banques

peuvent aussi être fusionnées, à condition qu’elles mesurent le même trait, et qu’elles

aient en commun un nombre suffisant d’items.

Utilisation de critères externes de réussite

Une banque d’items peut intégrer des critères externes de réussite comme la réussite

des candidats à tel ou tel examen, leur admission en niveau supérieur d’étude, etc. Il

suffit de coder ces critères en binaire puis de les calibrer en même temps que les items

d’un prétest (Wright, 1977). On obtient alors des points sur l’échelle de mesure, qui sont

interprétables en termes d’aptitudes maîtrisées, de niveau d’études ou de niveau

d’admission (Choppin, 1979). Croisé avec la flexibilité, cet avantage permet de

sélectionner les items les mieux adaptés, par exemple, à un test d’admission d’un niveau

donné.

Sécurité et économie

L’historique associé à chaque item permet de contrôler précisément son utilisation. Lors

de la fabrication d’un test on peut ainsi tenir compte du nombre d’utilisations de l’item,

de son nombre d’utilisations avec les autres items du test, et des centres où il a été

prétesté et utilisé. De cette manière, on diminue les risques « d’apprentissage », tout ens’autorisant à réutiliser des items dont le coût d’obtention est élevé.

Validation et expérimentation

L’existence d’une échelle commune à l’intérieur de la banque d’items permet

d’expérimenter de nouveaux types d’items, dont les résultats seront confrontés à ceux

des items contenus dans la banque. Ces nouveaux items peuvent provenir d’hypothèses

concernant la validité de la banque d’items (c’est-à-dire de l’ensemble des items la

constituant) et ainsi contribuer à une meilleure définition de la variable à mesurer

(Wright, 1977).



9

3.3. Contraintes liées à l’utilisation d’une banque d’items

Contraintes de construction

La banque d’items n’est pas en soi une solution à tout problème de mesure. Ses

avantages reposent sur le maintien de la qualité dans l’écriture des items, dansl’adéquation du contenu des items avec le trait latent et dans les caractéristiques

psychométriques des items introduits. Sa construction, son développement et son

utilisation requièrent des compétences dans le domaine évalué, dans l’évaluation et dans

les aspects mathématiques et théoriques qui lui sont sous-jacents.

Le contrôle continu de la qualité

Il n’est pas possible de considérer que le calibrage d’un item dans la banque d’items est

immuable. L’utilisation d’une banque d’items impose un contrôle continu de la qualité. La

difficulté d’un item peut être influencée, par exemple, par une évolution de la définition

de la variable latente ou par des différences liées au contexte culturel (apparition d’un

biais). La tendance des items à changer de niveau de difficulté ou à être biaisés doit être

surveillée à travers les analyses cumulées des résidus, en fonction du temps, du lieu et

de la personne (Wright 1977). Il s’agit d’établir un diagnostic périodique sur les qualités

psychométriques des items, leur précision d’estimation et leur invariance (van der

Linden, 1986) : à titre d’exemple, les statistiques relatives aux items du TCF sont

contrôlées et mises à jour après la passation d’un test. Choppin (1979) souligne à ce titre

le danger de se focaliser sur la production de tests et de laisser stagner la banqued’items.

Coût et rentabilité à long terme

Il est indispensable de prévoir une phase de développement assez longue avant de

pouvoir espérer utiliser une banque d’items. Il est difficile d’estimer le coût que nécessite

son développement dans la mesure où l’investissement porte sur l’infrastructure

informatique, la logistique et les compétences des personnes impliquées. Quant au

temps, il doit être suffisant pour constituer un stock d’items de qualité, et dépend donc

des moyens humains et financiers mis en œuvre. A terme cependant, et à condition

qu’elle ait été constituée selon les règles, la banque offrira à son utilisateur tous les

avantages cités précédemment, et assurera ainsi une certaine rentabilité.

3.4. Exemples de banques d’items

Une banque d’items peut être utilisée dans tout domaine ayant un objectif d’évaluation.

Chartier et Vrignaud (1999) proposent une liste non-exhaustive de différentes

conceptions de l’évaluation qui constituent autant d’objectifs d’utilisation d’une banque

d’items. Une banque d’items contient de quelques centaines à plusieurs milliers d’items,

en fonction du degré de résolution et de la segmentation. Wright et Bell (1984)



10

présentent quelques banques d’items relatives à plusieurs domaines contenant de 51

items à près de 10000 items. De même, la segmentation de l’échelle de difficulté est

variable : le TCF se décompose en 6 niveaux, mais l’on trouve des échelles possédant

jusqu’à 100 niveaux, un choix de précision qui dépend surtout des besoins de

l’évaluation.

Dans le domaine de l’évaluation de la langue, de nombreux pays ont développé des

outils, notamment pour faire face à l’immigration et définir ainsi un critère pour obtenir la

citoyenneté. La plupart des organismes européens chargés du développement des outils

d’évaluation de la langue (y compris le CIEP) appartiennent à l’association ALTE

(Association of Language Testers in Europe) si bien que l’on observe une certaine

homogénéité en la matière. Toutefois, si tous respectent les mêmes règles (Code of

Practice), des différences sensibles peuvent être soulignées, notamment en ce qui

concerne la constitution de la banque d’items. Pour illustrer notre propos, nous

proposons de présenter brièvement les banques d’items de trois pays européens.

La LIBS3, développée par l’ESOL4 de l’université de Cambridge, constitue une référence

en matière de banque d’items. Elle intègre plusieurs tests différents qui s’adressent,

selon le test, à des scolaires, des étudiants et des professionnels. Cette banque contient

à peu près 250 000 tâches5 et 7500 tests (stockés dans ce qu’ils nomment une « live

bank » et qui correspond à notre banque de stockage des tests). La mise à jour des

tâches dans la LIBS est réalisée environ trois fois par an, et ce pour chaque composante

de chaque test, si bien que l’ajout de nouvelles tâches est un processus presquehebdomadaire. La méthodologie sous-jacente à la validation et au calibrage des items est

quasi la même que celle appliquée pour le TCF car la mise au point du système de

production du TCF a bénéficié de l’expérience de l’ESOL de Cambridge. Il est important

de préciser qu’à Cambridge, la même banque (la LIBS) sert à l’élaboration d’outils

différents, et que le bon fonctionnement du système repose sur une organisation

hiérarchisée, très réglementée et très sécurisée, où à chaque type d’outil correspond un

département. Notons également, que la segmentation en niveaux dépend de l’outil

considéré : par exemple, l’IELTS

6

(l’outil le plus proche du TCF) situe le candidat sur uneéchelle à 9 niveaux alors que la BEC7 se décompose en 5 niveaux.

3 Local Item Banking System

4 English for Speakers of Other Languages

5 Une tâche peut être composée de 1 ou plusieurs items (parfois plus de 10 items). La distinction

item / tâche est nécessaire car un même support peut être associé à plusieurs questions (items).

Le TCF utilise également cette distinction.

6 International English Language Testing System7 Business English Certificates



11

Les banques d’items du TestDaF8 et du CNaVT9, développées respectivement par l’intitut

TestDaF en Allemagne, et par les universités Catholique de Louvain et d’Amsterdam en

Hollande, représentent d’autres exemples de banques fonctionnelles. Le TestDaF

s’adresse exclusivement aux étudiants désirant s’inscrire à l’université et uniquement

pour les niveaux 3, 4 et 5 (en référence aux 6 niveaux établis par le Conseil de l’Europe).

Le processus d’intégration de nouveaux items dans la banque est, comme pour la LIBS,

un processus continu qui repose également sur une phase de prétest, avec cependant

une fréquence moins importante du fait de la taille de l’organisme. Leur processus de

validation et de calibrage des items est assez contraignant car il impose une première

évaluation sur une population d’étrangers et de natifs, puis deux sessions de prétest

entrecoupées d’une révision du matériel et d’un dépouillement des questionnaires qu’ils

proposent à chaque étape aux candidats et aux examinateurs. La révision porte non

seulement sur le contenu mais également sur les qualités psychométriques des items

(théorie classique et modèle de Rasch). L’institut TestDaF produit 4 tests différents par

an à partir de la banque, pour répondre aux besoins des 4 sessions annuelles qu’il

organise.

Le CNaVT touche également plus particulièrement (mais pas exclusivement) la population

étudiante étrangère et se développe selon un cycle annuel : une session de test par an,

qui sert simultanément de session de prétest. N’ayant pas accès à une population prétest

suffisamment importante, l’organisme accorde beaucoup d’attention à la création des

items, lesquels sont alors testés en direct lors de la session annuelle de test. Lesanalyses psychométriques (modèle de Rasch et modèle 2P) permettent d’identifier et

d’exclure les items non conformes. Les candidats sont alors évalués uniquement sur les

items conformes, et les items conformes sont ajoutés à la banque après ajustement de

leur calibrage (cf. la partie sur le processus d’ancrage). La banque ainsi constituée

s’adresse avant tout aux enseignants : pour leur permettre d’accéder à un outil

d’évaluation et pour les inciter à prendre une part active dans l’évaluation de langue.

Leur site Internet (exclusivement en hollandais) propose un accès à la banque, via un

identifiant et un mot de passe.Pas plus que pour le TestDaF il n’a été possible d’obtenir des informations plus précises

sur le nombre d’items de la banque du CNaVT, ou sur le nombre de candidats testés par

an, leur origine… A notre connaissance, seul l’ESOL de Cambridge (pour l’IELTS) produit

un rapport annuel où l’on trouve des informations sur la population testée, sur le

développement du test, sur la reconnaissance du test, et sur la recherche développée sur

le test. Le CIEP travaille actuellement sur un rapport annuel similaire.

8 Test Deutsch als Fremdsprache (Test d’allemand langue étrangère)9 Certificaat Nederlands als Vreemde Taal (Certificat d’hollandais langue étrangère)



12

4. LE TCF, TEST DE CONNAISSANCE DU FRANÇAIS

4.1. Rationnel du test

Le développement des échanges internationaux, la mobilité accrue des personnes et les

exigences d’une politique linguistique extérieure fondée sur la promotion du pluralisme

culturel et du plurilinguisme ont conduit en 1999 le ministère de l’Education nationale à

confier au Centre international d’études pédagogiques (CIEP) la création d’un test de

connaissance du français. L’objectif d’un tel test était de permettre à des publics non

francophones de faire évaluer et valider leurs connaissances en français, de façon fiable

et reconnue, selon des modalités simples et rapides. Le TCF®, test de connaissance du

français lancé officiellement en janvier 2002, est le fruit de deux années de

développement.

Le TCF est un test de niveau linguistique en français langue générale, qui évalue les

connaissances de compréhension orale et écrite ainsi que la maîtrise des structures de la

langue. Le résultat obtenu au test donne lieu à délivrance d'une attestation de niveau,

précisant d’une part un niveau global et d’autre part le niveau du candidat dans chacune

des trois sous-échelles qui composent le test. Le TCF s’inscrit dans le cadre d’orientations

préconisées par le Conseil de l’Europe et la Commission des Communautés européennes,

qui visent à favoriser la mobilité et à valoriser les compétences linguistiques des

citoyens. Il témoigne de la volonté française de s’inscrire dans une perspective

complémentaire des projets décidés à Strasbourg et à Bruxelles.

Le TCF s’adresse aux apprenants inscrits dans une école de langue et qui souhaitent

connaître leur niveau, aux étudiants qui souhaitent venir étudier en France et qui doivent

faire la preuve de leurs compétences en français avant d’entrer en première année

d’université, aux stagiaires qui souhaitent connaître leur niveau de français avant une

formation, ou encore toute personne engagée dans le monde du travail et qui désire

bénéficier de la mobilité professionnelle et doit de ce fait attester d’un certain niveau en

français. Les organismes intéressés par le TCF regroupent des autorités éducatives, des

organismes de formation, des Universités, des Grandes écoles, des employeurs, ou

encore des entreprises.

Le TCF est disponible à ce jour dans 102 centres agréés à l’étranger, répartis dans 46

pays, et dans 37 centres agréés en France. Par ailleurs, le CIEP a également agréé 8

centres en France et en Europe qui servent de centres de prétest. La passation du TCF

conduit à la délivrance d’une attestation où le score obtenu est associé à un niveau de

connaissance, conformément à l’échelle de niveaux définie par le Conseil de l’Europe. Lesniveaux sont définis en termes de capacités afin que les acteurs du monde éducatif



13

(étudiants, organismes de formation, …) et les acteurs du monde professionnel

(employés, entreprises, …) puissent connaître de façon précise la compétence en français

d’une personne ayant passé le TCF.

Dans la mesure où le TCF propose 10 sessions par an, il s’est avéré indispensable de

recourir à la construction d’une banque d’items. Les deux années de développement

(2000-2001) ont permis d’élaborer un produit adéquat du point de vue du contenu, et de

procéder à plusieurs prétests. Par ailleurs, comme toute base de données, et à plus forte

raison parce que les règles qui la régissent sont très strictes, une banque d’items

implique un support informatique conséquent, qui lui aussi demande un certain temps de

développement. Si aujourd’hui le processus de conception du test est bien défini, la base

de données développée par le service informatique du CIEP nécessite encore des

améliorations, et la phase de prétest se poursuit car l’ajout de nouveaux items dans la

banque reste une préoccupation permanente.

4.2. La banque d’items du TCF

La figure 2 présente l’organigramme de la banque d’items utilisée dans le cadre du TCF.

L’application du concept de banque d’items du TCF implique un support informatique (un

logiciel de base données) qui autorise un mode gestion efficace, sécurisé, et qui impose

des règles d’utilisation strictes.


La saisie des items a lieu obligatoirement dans la banque d’entrée de la banque d’items

(banque des items saisis) et est actuellement possible à distance grâce à une interface

MySQL : les rédacteurs se connectent à la banque d’items du TCF sur Internet et ont

accès à une interface conçue pour rédiger les items, via leur identifiant et un mot de

passe. Ce système offre de multiples avantages :

1. les rédacteurs peuvent travailler chez eux, saisissent directement leur production (ce

qui limite les risques d’erreur et le coût liés à la saisie ‘administrative’ des items), et sont

obligés de respecter un certain format lors de la rédaction ;

2. l’item rédigé est automatiquement enregistré dans la banque sous un identifiant

unique, au bon format, ses différentes caractéristiques (niveau, clé, …) étant

automatiquement distribuées dans les champs pertinents de la banque ;

3. les chef d’équipe et la commission interne peuvent évaluer aisément le contenu de

l’item dès la clôture de la commande, et ce de n’importe quel lieu disposant d’un accès à

Internet (toujours via un identifiant et un mot de passe), et les modifications sont

automatiquement enregistrées ;



14

4. la gestion des rédacteurs et de leurs productions est plus aisée, et facilite par

conséquent l’émission d’une commande d’items répondant aux besoins de la banque.

La banque des items saisis autorise l’assemblage d’items en vue de l’élaboration d’un

prétest. Les items d’un prétest passent alors de la banque des items saisis à la banque

des items en prétest (cf. figure 2). Après la phase de prétest et les analyses

psychométriques nécessaires, les paramètres statistiques obtenus sont associés aux

items (l’importation dans la base de données est automatique), puis les items du prétest

sont désassemblés et transférés vers la banque des items prétestés où ils peuvent suivre

plusieurs chemins : (1) être acceptés et se déplacer vers la banque de construction du

test, (2) être refusés et migrer vers la banque des items rejetés. Dans ce dernier cas,

certains des items pourront être soumis à modification et réintégrer alors le statut

d’items non calibrés dans la banque de saisie. Certains items ‘conformes’ pourront aussi

être stockés dans la banque des items ancres.

Le recours à un système informatisé est, nous l’avons évoqué plus haut pour la saisie des

items, un avantage réel dans la construction et la gestion d’une banque d’items (il est

difficile de concevoir une banque d’items sans support informatique). Il est aussi

particulièrement utile pour sélectionner un item ou un ensemble d’items. Les champs

renseignés lors de la saisie et à chaque étape du long processus de validation sont autant

de critères potentiels pour opérer des filtres dans la banque : combien d’items attendentd’être prétestés, combien d’items sont des minis conversations, combien d’items de

compréhension orale de niveau 3 disponibles pour un test, etc…

5. PROCESSUS D’ELABORATION DU TCF

Un item présent dans un test est une sorte de survivant, au terme d’un long processus

de sélection. Au fil des étapes, les items sont « tamisés », et seuls ceux qui témoignent

d’une réelle adéquation avec les exigences de chacune de ces étapes pourront espérerintégrer un test.

Cette nouvelle partie détaille le long processus de sélection (représenté dans la figure 3)

qui doit garantir la qualité des items contenus dans la banque d’items du TCF et par

conséquent dans les tests produits à partir de la banque.




15

5.1. Rédaction et évaluation des items

Trois équipes de rédacteurs, une pour chaque échelle constituant le test, sont chargées

de l’élaboration des items. Ces équipes, placées sous la responsabilité d’un chef, sont

composées de professeurs de lettres ou de langue. Chaque rédacteur dispose d’un ‘manuel du rédacteur’ dans lequel sont définis, entre autres, les 6 niveaux de

compétence évalués et les règles de rédaction à respecter.

Les rédacteurs répondent à une commande spécifique mensuelle émanant du CIEP, et

soumettent les items rédigés aux chefs d’équipe. Ces derniers peuvent accepter ou

rejeter l’item, ou encore inciter à une amélioration du contenu. Après vérification, les

chefs d’équipe font parvenir les items au CIEP. A réception de la commande, la

Commission interne d’évaluation (CIE) du CIEP vérifie que les items produits conformes

aux attentes. L’évaluation porte tout autant sur le contenu que sur la forme, et les items

non-conformes sont soit rejetés, soit modifiés. Chaque item accepté est alors importé

dans la banque d’items, avec son historique et son identifiant unique. La figure 4

présente un exemple d’item de la partie « maîtrise des structures de la langue » (la

séquence de 8 chiffres précédant l’item est le code sous lequel l’item est identifié). Dans

cet exemple, il s’agit de compléter une mini conversation (texte lacunaire) en retrouvant

la bonne réponse (la clé) parmi l’ensemble des choix possibles. D’autres formes d’items

sont également utilisées (questions sur un texte, choix d’un commentaire de dessin, …)

mais toutes ont en commun la présentation des choix possibles sous forme de liste.


5.2. Construction et passation du prétest

Le prétest est constitué à partir des items acceptés par la CIE. Il est composé de 80

items, 30 pour la ‘compréhension orale’, 20 pour les ‘structures de la langue’ et 30 pour

la ‘compréhension écrite’. A l’intérieur de chaque échelle, les items sont organisés par

ordre croissant de niveau, le nombre d’items par niveau et par échelle étant défini au

préalable. La mise en forme du document du prétest constitue la phase finale de cette

étape.

Le prétest est ensuite soumis à une population d’environ 200-250 personnes susceptibles

d’être des candidats au TCF. La passation du prétest se déroule dans des conditions

similaires aux conditions de passation du test : mêmes consignes, mêmes durées,mêmes feuilles de réponses. Les candidats reportent leurs réponses sur la feuille prévue



16

à cet effet, ainsi que les informations démographiques utiles telles que sexe, langue(s)

maternelle(s), nationalité. Cette feuille de réponses sera ensuite numérisée : elle

permettra d’une part de donner un retour qualitatif aux candidats, et d’autre part

d’analyser les items.

Nous avons effectué à ce jour 14 prétests, évaluant plus de 900 items. L’échantillon de

candidats prétestés compte au total 3430 personnes (soit en moyenne 245 personnes

par prétest). L’âge moyen de ces 3430 candidats est de 25.2 ans. Les âges s’étendent de

16 à 61 ans, et la dispersion moyenne est de 7.3 ans. La population est à 70 % féminine

et à 75 % étudiante. Par ailleurs, les candidats de l’échantillon représentent 141

nationalités différentes (principalement chinoise, allemande, japonaise, américaine,

polonaise, coréenne, colombienne, russe, espagnole) et 95 langues maternelles

différentes (principalement le chinois, l’espagnol, l’allemand, l’anglais, l’arabe, le

japonais, le polonais, le russe, le coréen).

5.3. Etude du prétest selon le modèle de mesure classique

L’application du modèle de mesure classique sur les données du prétest est une étape

nécessaire avant de procéder au calibrage des items (Hambleton et Swaminathan, 1985).

Elle présente l’intérêt de détecter les items dont la clé n’est pas reconnue, les items dont

un ou plusieurs distracteurs ne fonctionnent pas ou mal, ou encore les items pas ou trop

peu discriminants, ceux qui sont trop faciles ou trop difficiles. Préalablement à l’analyse

des items selon le modèle de mesure classique, il est nécessaire de ‘nettoyer’ le fichier de

données : supprimer de l’échantillon les candidats dont le nombre de non-réponses est

trop important (supérieur à 50 %) ou qui n’ont pas répondu à une échelle entière, et

recoder les absences de réponse et les réponses multiples. En effet, les valeurs

manquantes en grand nombre sont indicatives d’un problème lors de la passation, et sont

susceptibles d’introduire une certaine imprécision lors de l’application du MRI. Quant à la

distinction absence de réponse / réponses multiples / mauvaise réponse, elle est utile

pour étudier le profil de l’item : comment a-t-il été perçu par les candidats ? Par suite,

les données sont soumises au logiciel Iteman10 (ITEMAN, 1996).

L’analyse classique vise tout d’abord à éliminer les items trop faciles ou trop difficiles.

Nous utilisons l’indice classique de difficulté p afin d’exclure les items réussis par une

proportion trop faible (inférieure à 10%) ou trop forte (supérieure à 90%) de sujets.

10



17

Par ailleurs, il est nécessaire d’exclure les items qui s’avèrent pas ou peu discriminants.

L’indice utilisé est le coefficient de corrélation point-bisérial (rpbis) entre la réussite/échec

à l’item et le score total sans l’item. Nous avons choisi d’exclure tout item dont l’indice de

discrimination est inférieur à 0,20.

Enfin, cette analyse permet de détecter les items dont la clé et/ou les distracteurs ne

fonctionnent pas, ainsi que les items associés à un fort taux d’absence de réponse ou de

réponses multiples. La détection de problèmes de clé repose sur l’indice rpbis associé à

chaque réponse possible : le rpbis le plus fortement positif doit être celui de la clé. Un

distracteur non choisi, ou choisi par une très forte proportion de l’échantillon entraîne le

rejet de l’item.

Jusqu’à présent, l’application de tous ces critères nous a conduits à rejeter en moyenne

un peu plus de 12 items par prétest (soit 15 %) lors de l’analyse classique. Notons que

ce chiffre est en diminution (moins de 9 items par prétest sur les 5 dernier prétests) car

le constat de dysfonctionnements liés à la clé, aux distracteurs ou à la difficulté de la

question a conduit à une amélioration des règles de rédaction des items et du système

de vérification de la commission interne d’évaluation. Les items restants sont alors

calibrés par le modèle de Rasch.

5.4. Vérification de quelques hypothèses préalables à l’application du modèle de

Rasch.

L’utilisation du modèle de Rasch requiert la vérification de quelques hypothèses

préalables, notamment l’unidimensionnalité des items et l’homogénéité de leur pouvoir

discriminant (ces deux hypothèses sont aussi appelées ‘hypothèse d’indépendance locale’

et ‘hypothèse de constance de la discrimination des items’ ; Dickes et al., 1994).

Unidimensionnalité

L’idée d’une unidimensionnalité dans les modèles de réponse à l’item (pas seulement

pour le modèle de Rasch) est un concept mathématique : dès lors que l’on souhaiteordonner les personnes en fonction de leur niveau de compétence, on travaille

(mathématiquement) dans un monde à une dimension. Hamp-Lyons précise que

« L’unidimensionnalité (…) est une propriété psychométrique indépendante du concept de

‘dimensions’ de la compétence en langue, lesquelles sont des propriétés

psycholinguistiques. » (1989, p. 115, trad.). Vérifier l’unidimensionnalité des items ne

renvoie donc pas à la question de l’unidimensionnalité de la compétence que l’on

souhaite mesurer au travers du test. Par conséquent, la question n’est pas de dire si le

construct psychologique mesuré est ou non unidimensionnel, mais plutôt de savoir s’il est

pertinent, en terme de mesure, d’additionner les différentes parties d’un test, autrement



18

dit de résumer tous les items via une appréciation globale. Une telle approche est en tout

cas compatible avec l’approche de l’évaluation du Conseil de l’Europe (Cadre européen

commun de référence pour les langues, 2000).

Embretson et Reise (2000) passent en revue les différentes approches permettant

d’évaluer l’unidimensionnalité d’une matrice de données. Le bilan est assez négatif, et la

tendance actuelle est de se tourner vers l’utilisation de l’analyse factorielle non linéaire

comme un outil possible pour évaluer la dimensionnalité, notamment l’analyse des

résidus. Pour notre part, nous avons choisi d’appliquer une analyse en composantes

principales (ACP) sur la réussite/échec aux items. Bien que Embretson et Reise (2000)

émettent quelques réserves quant à cette méthode, ils soulignent toutefois l’utilité de

cette technique ‘heuristique’ en ce sens qu’elle étaye l’hypothèse selon laquelle les

données sont dominées par un seul facteur. Les ACP réalisées sur chacun des prétests

montrent toujours un premier axe dominant sous-tendant la performance au test et qui

explique en moyenne 14,6 % de la variance du nuage (les valeurs varient entre 12 et

18 % selon le prétest). La part de variance du nuage expliquée par le deuxième et le

troisième axe tombe respectivement en moyenne à 3,8 et 3,3 %. Cette analyse permet

d’identifier les items mal représentés par l’axe dominant et de les exclure. Nous nous

assurons également de la consistance interne du test en calculant le coefficient α de

Cronbach. Cet indice se révèle varier de 0,88 à 0,92 selon le prétest considéré et garantit

ainsi que le test est homogène et fidèle. Notons, pour cet indice également, une

remarque de Embretson et Reise (2000) selon laquelle la taille du coefficient alpha n’estpas pertinente pour attester de la dimensionnalité.

Homogénéité du pouvoir discriminant

Nous avons évoqué, lors de la partie sur l’application du modèle de mesure classique,

que nous procédions à l’élimination des items pas ou peu discriminants. Bien que cette

sélection relève d’abord du bon sens, elle est également cohérente avec le désir de

conserver les items correspondant à un certain pouvoir discriminant. Afin d’identifier les

items qui ne répondraient pas à cette exigence, nous procédons à la représentation

graphique des items, en utilisant pour coordonnées l’indice de difficulté p et la corrélation

ptbis. Cette approche graphique permet de juger de l’acceptabilité du pouvoir

discriminant d’un item en tenant compte de son niveau de difficulté. Une telle souplesse

est nécessaire si l’on considère que les items situés aux extrémités de l’échelle de

difficulté ne peuvent pas avoir le même pouvoir discriminant que ceux de difficulté

moyenne. Cette particularité tient au fait que nous ne connaissons pas a priori avec

assez de précision le niveau de compétence des personnes appartenant à l’échantillon qui

sert pour le prétest. Pour l’ensemble des items de la banque, la valeur de cet indice est

en moyenne de 0,37, pour une dispersion moyenne de 0,09.



19

Choix heureux par ignorance (conjecture)

Une dernière vérification, liée à l’hypothèse selon laquelle les items ne doivent pas

favoriser les choix heureux par ignorance, peut être ajoutée. Afin d’examiner ce dernier

point, on isole les individus dont le score total appartient au tiers inférieur, puis on

examine leur réussite moyenne aux items les plus difficiles (p<0,30). Les items difficiles

qui ne permettent pas de distinguer les individus du tiers inférieur du reste de

l’échantillon, sont alors rejetés.

5.5. Calibrage des items avec le modèle de Rasch

Présentation du modèle de Rasch

Le modèle de Rasch spécifie la relation mathématique entre la performance observée et

la variable latente. Il suppose que la probabilité Pni pour qu’un sujet n fournisse la bonne

réponse à l’item i est déterminée par deux paramètres : un paramètre relatif au sujet ( β )

qui mesure la position du sujet sur la variable latente, et un paramètre relatif à l’item (δ )

qui mesure la difficulté de l’item sur la même variable latente11 (pour une présentation

plus détaillée du modèle, voir Dickes et al., 1994).

Les analyses sont réalisées avec le logiciel BIGSTEPS (Wright & Linacre, 1997).

Qualité de l’ajustement

Pour chaque item, on vérifie la qualité de l’ajustement en regardant la variance des

écarts standardisés au modèle (indice identifié sous le terme ‘outfit’ par Bigsteps). Ces

écarts sont d’autant plus importants que la réponse est inattendue, compte tenu de la

compétence du sujet et de la difficulté de l’item. Un individu fort qui échoue à un item

facile, ou un individu faible qui réussit un item difficile, contribuent donc de manière plus

importante à cet indice. Toutefois, afin d’éviter de rejeter un item au nom seulement de

quelques réponses surprenantes, faites par des individus pour lesquels l’item est

inapproprié en terme de difficulté, on regarde également la variance pondérée des écarts

standardisés au modèle (indice identifié sous le terme ‘infit’ par Bigsteps). Cet indice est

calculé de manière à réduire l’importance des réponses des individus pour lesquels l’item

est inapproprié. Ces deux indices sont donc des ‘moyennes des carrés’ exprimées sous la

forme de Khi2 divisés par leurs degrés de liberté. Ainsi, la valeur attendue de ces indices

est 1, pour un domaine de variation allant de 0 à ∞+ (Bond et Fox, 2001).

L’identification d’un item dont l’ajustement au modèle est mauvais, est rendu possible

grâce au critère recommandé dans la littérature : les indices doivent varier entre 0,7 et

1,3 (Bond et Fox, 2001 ; Wright, Linacre, Gustafson et Martin-Löf, 1994). Linacre et

11 )exp(1

)exp(in

inni p

δ β δ β −+

−=



20

Wright (1994) précisent qu’un sous-ajustement (‘underfit’) est le signe qu’il y a plus de

variation qu’attendu et que la réponse est imprévisible ; et qu’un sur-ajustement

(‘overfit’) indique au contraire moins de variation qu’attendu par le modèle et une

réponse trop déterminée, ou trop ‘Guttman’. On peut voir sur la figure 5 (en haut du

graphique) que les items e58, e79 et o21, par exemple, présentent un indice ‘outfit’

anormalement élevé. Les items dont les indices ‘infit’ et ‘outfit’ sont anormalement

élevés, ou faibles, feront l’objet d’une attention toute particulière, et seront éliminés ou

non au regard des autres paramètres qui les caractérisent.


Dans la mesure où les indices infit et outfit ne suffisent pas à décider de l’adéquation

d’un item au modèle, pour chaque item, on compare graphiquement les probabilités

prévues aux probabilités observées. Traditionnellement, on constitue six groupes de

compétences par quantilage, puis pour chaque groupe et chaque item, on calcule la

probabilité observée d’une réponse correcte et la probabilité prévue par le modèle. Il est

également possible d’avoir recours à une représentation graphique où l’on fait apparaître

les données individuelles en termes de probabilité de la réponse observée, en fonction de

la compétence mesurée de la personne. On voit ainsi apparaître le nombre d’individus

dont les réponses sont inattendues dans le cadre du modèle de Rasch. Les figures 6 et 7

illustrent deux profils différents d’item, respectivement conforme et non conforme. Lafigure 6a permet d’apprécier la coïncidence des deux courbes, et la figure 6b12, que peu

d’individus présentent une réponse inattendue : peu d’entre eux (17%) se localisent en

dessous de la ligne horizontale fixée à 0,413. En revanche dans la figure 7a, les deux

courbes ne coïncident pas : la courbe des probabilités observées est plutôt horizontale et

indique que l’item est non discriminant pour les 5 premiers niveaux. De plus, on peut

observer sur la figure 7b que beaucoup d’individus (27%) présentent une réponse

inattendue, l’item ayant en effet des indices infit et outfit supérieurs à 1,2. Ces deux

items sont également indiqués par des flèches sur la figure 5, l’item conforme étant situéau centre.

- insérer figures 6 et 7 -

12 En abscisse : la compétence estimée de la personne pour l’ensemble d’items considéré ; en

ordonnée : 1/(1+zscore²) où zscore est la valeur résiduelle standardisée de cette personne pour

cet item.

13 Le choix de la limite est évidemment arbitraire ; son intérêt est surtout d’avoir une limite

comparable pour tous les items afin de définir à terme un critère sémantique.



21

5.6. Vérification des caractéristiques attendues du modèle de Rasch

Après l’application du modèle de Rasch, il est recommandé de procéder à des

vérifications portant sur l’invariance des estimations des difficultés des items et des

compétences des candidats, et sur la dispersion aléatoire des valeurs résiduelles. Le

lecteur trouvera dans cette partie des vérifications qui sont équivalentes aux tests

d’adéquation (Dickes et al., 1994).

Indice global

Le modèle de Rasch propose des indices (‘reliability’ dans Bigsteps) destinés

respectivement à déterminer si les personnes seraient ‘classées’ de la même manière

face à un autre ensemble d’items mesurant le même construct, et à déterminer si les

items seraient localisés au même endroit sur l’échelle commune, dans le cas où ils

seraient soumis à un autre échantillon de personnes de compétences équivalentes. Cet

indice correspond dans les deux cas au rapport de la variance des estimations après

soustraction de la variance erreur sur la variance des estimations, en quelque sorte un

coefficient Eta2. Cet indice est calculé sous deux formes pour les items comme pour les

individus par Bigsteps : on calcule, d’une part, une variance erreur où le mauvais

ajustement est considéré comme un reflet de la nature stochastique du modèle (limite

supérieure de l’indice) et, d’autre part, une variance erreur où le mauvais ajustement est

considéré comme un écart de la matrice de données par rapport aux spécifications du

modèle (limite inférieure de l’indice). Ces deux cas extrêmes permettent d’apprécier la

fiabilité des estimations (Bond et Fox, 2001). Selon le prétest considéré, cet indice varie

pour les personnes de 0,86 à 0,99, et pour les items de 0,95 à 0,99.

Recherche d’items à fonctionnement différentiel

Lorsque les données sont bien ajustées par le modèle de Rasch, les difficultés estimées

des items doivent être indépendantes de l’échantillon ayant servi à leur obtention. Dans

la littérature spécialisée, cette étape est appelée ‘recherche d’items à fonctionnement

différentiel’ ou plus communément ‘recherche de biais14’. Il s’agit de déterminer si le

paramètre d’un item change selon que l’on considère telle ou telle partition del’échantillon. La méthode consiste à créer deux ou plusieurs sous-groupes de candidats et

à leur appliquer à chacun le modèle de Rasch (toujours en utilisant BIGSTEPS). Une telle

méthode est essentiellement limitée par la taille des sous-échantillons constitués, qui

n’est pas toujours suffisante pour permettre l’application du modèle de Rasch. Il est de

plus nécessaire que les sous-groupes constitués soient, en moyenne, de compétence

équivalente. Dans la mesure où le TCF évalue la compétence en langue française, en plus

du traditionnel biais de sexe, nous nous intéressons notamment au biais de langue

14 La notion de biais dépend bien entendu des attentes des développeurs du test.



22

maternelle. Toutefois, la recherche de biais ne se limite pas forcément à ces seules

caractéristiques des candidats, par exemple, dans le cas où les candidats d’un prétest

proviennent de plusieurs centres, il est également pertinent de vérifier l’existence d’un

éventuel biais de centre. L’identification d’un item à fonctionnement différentiel repose

sur la lecture du nuage de points avec la droite d’invariance. La figure 8 illustre le cas

d’un item qui se révèle plus difficile pour les candidats de langue maternelle tonale d’Asie

que pour les candidats de langue maternelle agglutinante (item g31, à gauche) et la

figure 9 le cas d’un item qui apparaît plus difficile pour les hommes que pour les femmes

(item o09, en haut à droite).

- insérer figure 8 et figure 9 -

Cependant, si l’identification d’items présentant un biais est une démarche qui ne pose

pas de problèmes dans son application, la signification de ces biais est parfois assez

obscure, comme le souligne Flieller (1999). Pour illustration, si nous avons pu identifier

l’origine du biais de sexe, explicable par le thème traité dans l’item plus favorable aux

femmes, il n’a pas été possible d’en faire de même pour le biais de langue. Sur

l’ensemble des prétests réalisés, nous n’avons identifié que peu d’items présentant un

problème de biais (moins de 1%). Il est toutefois difficile de dire si cette faible proportion

est indicative du nombre moyen d’items biaisés, dans la mesure où la contrainte de taille

des sous-échantillons évoquée plus haut rend parfois impossible l’application de laprocédure de vérification. Notons également que les logiciels récents intègrent pour la

plupart cette procédure de vérification.

Invariance des estimations des compétences des candidats

De même que la réussite à l’item ne doit pas dépendre du sexe du candidat ou de sa

langue maternelle, il est nécessaire que l’estimation de la compétence du candidat soit

indépendante de l’échantillon d’items ayant servi à son obtention. L’invariance des

estimations des compétences des candidats est évaluée selon le même principe que

l’invariance des estimations des difficultés des items. On constitue plusieurs échantillons

d’items, en se basant par exemple sur la distinction classique pair-impair, ou sur la

distinction des trois échelles constituant le test. Quelle que soit la partition choisie, il est

important est que les échantillons d’items constitués soient en moyenne de difficulté

équivalente.

Analyse des valeurs résiduelles

L’application d’une analyse factorielle sur les valeurs résiduelles permet de détecter si les

données observées dévient de manière importante de l’hypothèse d’unidimensionnalité



23

(Wright, 1996). En effet, si les données correspondent bien à l’existence d’une seule

dimension, l’extraction de cette dimension de la matrice des données devrait laisser des

valeurs résiduelles dont la dispersion est aléatoire. Ces résidus sont donc soumis à une

ACP afin de vérifier qu’aucune tendance générale n’émerge. On peut observer

notamment si les valeurs propres sont peu dispersées (Durand, 1998). Sur l’ensemble

des prétests réalisés, le premier axe explique en moyenne 4,6 % de la variance totale,

un taux qui ne dépasse jamais 5,2 %. Le deuxième axe quant à lui explique en moyenne

3,8 % de la variance, et le troisième 3,5 %, les valeurs propres diminuant très

progressivement.

Toutes ces vérifications conduisent à rejeter en moyenne 4 items par prétest (soit 5 %),

un nombre qui varie de 1 à 8 items (1,3 à 10 %) selon le prétest considéré.

5.7 Processus d’ancrage

Le recours à l’ancrage est indispensable pour la construction puis pour l’alimentation

d’une banque d’items. Afin de construire une échelle commune à tous les items

provenant de prétests différents, on utilise des items ancres. Chaque prétest est relié à

un ou plusieurs autres par un certain nombre d’items communs permettant de maintenir

l’échelle. Les items ancres, dont on connaît les valeurs sur l’échelle commune, servent à

calculer le décalage nécessaire pour placer les nouveaux items d’un prétest sur cette

échelle, étant donné que le zéro de l’échelle obtenue lors d’un prétest est arbitraire.

L’ajout de nouveaux items

Deux méthodes peuvent être employées pour calibrer les items de différents prétests :

l’ajout des items au fur et à mesure des prétests (‘common item equating’) et le

calibrage simultané de tous les prétests (‘one step item banking’ ; Jones, 1992). Dans la

première méthode, chaque prétest est calibré individuellement, et les mesures des items

sont ajustées à celles des items de la banque grâce aux items communs (ancres). Dansla seconde méthode, tous les items (de la banque et des prétests) sont soumis

simultanément au modèle de Rasch. Il est alors nécessaire de recourir à un programme

capable de gérer une matrice avec des données manquantes, car tous les items ne sont

vus que par une partie des candidats. Cette deuxième méthode, plus simple que le

calibrage et l’ajustement des items des prétests au fur et à mesure, est plus adaptée

lorsqu’il s’agit de commencer la constitution de la banque d’items. En effet, en procédant

ainsi, chaque item est calibré sur un plus grand nombre de personnes, et chaque

personne est évaluée sur un plus grand nombre d’items. Dans le cas de la banque

d’items du TCF, qui contient à ce jour plus de 700 items, l’échelle de difficulté sous-



24

jacente peut être considérée comme suffisamment stable pour permettre l’addition de

nouveaux items au rythme des prétests. Il est toutefois nécessaire de surveiller la

stabilité de l’échelle, soit en procédant régulièrement à des calibrages simultanés (une

fois par an par exemple), soit en procédant au calibrage des items après d’importantes

sessions de test. Cette dernière procédure s’avère d’autant plus efficace que les tests

sont eux-mêmes liés par des items ancres, car la stabilité peut alors aussi être éprouvée

d’un test à un autre.

Choix des items ancres

Compte tenu de l’importance du maintien de l’échelle, le choix des items ancres est une

étape qui demande beaucoup d’attention. Un item ancre ne doit laisser aucun doute

quant à la validité de contenu, à la forme et à toutes les qualités psychométriques qui le

caractérisent. Il doit en quelque sorte symboliser l’invariance propre aux items de

l’échelle. L’idée est de sélectionner des items qui répondent à ces exigences, et de les

placer dans plusieurs prétests afin de vérifier leur propriété d’invariance. Alors seulement

ces items sélectionnés pourront prendre le statut d’ancre. La figure 6a illustre le cas d’un

item a priori compatible avec l’exigence du statut d’ancre (p = .57, rptbis = .41, infit =

0.97, outfit = 0.97).

Le plan d’ancrage

Afin de contrôler la qualité et la cohérence de l’ancrage on utilise un plan d’ancrage (voir

Wright et Stone (1979) pour une description détaillée). Dans ses formes les plus

abouties, le plan d’ancrage est un réseau qui tend à maximiser le nombre de liens entre

les prétests. On distingue deux types de liens, directs et indirects. Les liens directs entre

prétests sont obtenus par les items qu’ils ont en commun. Ils servent à calculer le

décalage, mais seulement après analyse de la qualité du lien, ceci afin d’exclure les

ancres de mauvaise qualité. Les liens indirects entre prétests sont obtenus en suivant le

réseau des liens directs. Ils servent à contrôler la cohérence des liens directs. On

détermine ensuite le nombre d’ancres par prétest et leur place dans le prétest.

Dans le cas du TCF, compte tenu des évolutions potentielles du test (abandon de certains

types d’items, réorganisation des échelles, …), le nombre d’ancres doit être important.

Pour illustration, nous plaçons en moyenne 15 ancres par prétest (18,8 % des items), en

moyenne 5 par échelle. Ce nombre limite ainsi le risque qu’aucune ancre ne fonctionne,

auquel cas le prétest entier serait inutilisable car il ne pourrait être localisé sur l’échelle

commune. Par la suite, lorsque l’invariance d’une partie des ancres aura pu être

observée, ce nombre pourra être réduit (3 par échelle par exemple). La figure 10 illustre

le type de plan d’ancrage que avons choisi d’utiliser : il implique 3 prétests, reliés entre

eux et à la banque d’items.



25

5.8 Assemblage d’un test

La construction d’un test est réalisée à partir des items contenus dans la banque des

items prétestés (cf. figure 2). Il s’agit de sélectionner 80 items, en respectant les

quantités respectives de chaque échelle et le niveau que le test est censé évaluer. Après

l’assemblage des items, on établit une table de conversion score brut-score calibré afin

de pouvoir attribuer un niveau au candidat en se basant sur le nombre d’items réussis.

Pratiquement, la construction d’un test pose essentiellement le problème du choix des

items. Si la banque d’items est bien conçue, elle doit permettre la sélection des items via

les différents champs disponibles. Par exemple, pour construire la partie compréhension

écrite du TCF, il faut pouvoir filtrer uniquement sur items de cette échelle dans la banque

des items prétestés. De plus, les informations relatives à la difficulté et au thème de

l’item doivent être accessibles afin de proposer au candidat des items variés dans du

point de vue du sujet traité et de difficulté croissante pour un niveau donné. Il est

également nécessaire de pouvoir connaître à tout moment le niveau évalué par

l’assemblage, pour le modifier, au besoin, en désélectionnant certains items pour en

choisir d’autres plus adaptés à l’objectif. Le choix des items pourra reposer sur leur

courbes d’information, en utilisant les items dont la courbe d’information est maximale

pour le niveau de difficulté que l’on cherche à évaluer. Il reste alors à calculer la courbe

d’information du test sur la base de celle des items afin de vérifier que le test mesure

bien le niveau souhaité.

L’assemblage peut bien sûr être automatisé lorsque le nombre d’items disponibles est

suffisant (Amstrong, Jones et Kunce, 1998 ; van der Linden, 1998), mais dans notre cas,

un ‘tâtonnement’ est encore nécessaire compte tenu de notre volonté de diversifier les

formes et sujets des items, et de la contrainte qu’impose l’établissement du plan

d’ancrage. Le support informatique sera en revanche très utile lors de la constitution du

livret de test.

6. DISCUSSION

Les avantages d’une banque d’items reposent essentiellement sur le calibrage des items

et la constitution d’une échelle commune, et dépendent de ce fait en beaucoup du MRI

sous-jacent. Le choix du MRI n’est donc pas anodin et, bien que le modèle de Rasch nous

paraissent, à l’heure actuelle, le plus adéquat, nous n’excluons pas le passage à un

modèle 2P. Des études comparatives sont en cours afin de déterminer si ce changement

constituerait un avantage. L’autre facteur indispensable pour bénéficier des avantagesd’une banque d’items est de disposer d’items de qualité. Si le processus de validation du



26

contenu d’un item n’est pas véritablement sujet à polémiques, les procédures statistiques

utilisées pour déterminer les qualités psychométriques d’un item peuvent varier

sensiblement d’une méthodologie à une autre. Dans le cadre de la TRI, la première

différence tient au MRI choisi. Par suite, même deux méthodologies basées sur le même

modèle, peuvent faire des choix différents dans les indices utilisés, dans les critères

appliqués, ou même dans les étapes de l’analyse. Cette hétérogénéité tient, nous

semble-t-il, à des divergences théoriques et au fait qu’aucune méthode n’est pleinement

satisfaisante. L’ouvrage de Embretson et Reise (2000) sur la TRI propose une discussion

très intéressante et récente sur cette question.

Une banque d’items, en tant qu’outil d’évaluation, peut convenir à n’importe quel

domaine. Ses qualités ne dépendront pas du nombre d’items qu’elle contient, pas plus

que du nombre de niveaux qu’elle distingue, mais bien de la méthodologie sous-jacente.

Toutefois, on peut rappeler l’intérêt de posséder beaucoup d’items dans sa banque si l’on

veut garantir un minimum de sécurité et accéder à une utilisation plus économique des

items en banque. Une faible quantité d’items pose également un problème de la validité

de contenu. Par ailleurs, bien que les banques d’items possèdent toutes une même

logique de base, chaque banque d’items est unique car la banque d’items est le noyau

d’un système de production de tests. Par exemple, la banque d’items du TCF comprend

une banque de formation (cf. figure 2), où sont stockés des items rejetés mais instructifs

pour les rédacteurs, une banque de promotion, contenant des items qui ne pourront plusapparaître dans un test, et une banque destinée à l’expérimentation de nouvelles formes

d’items. Une banque d’items est aussi susceptible de stocker des informations relatives à

la gestion des rédacteurs (commandes, paiements, respect des délais, …), aux étapes

liées à la fabrication du matériel de test (impression des livrets et des feuilles de

réponses, fabrication des supports audio, …). Il est également possible de relier la

banque d’items au système de gestion administrative des centres de passation afin de

savoir si tel test a déjà été proposé à tel centre. Bien que la banque d’items du TCF

constitue un système déjà fonctionnel, elle est encore au stade d’un noyau dont lesdifférentes couches supérieures sont en développement. Le système utilisé par l’ESOL de

Cambridge représente une forme plus aboutie de banque d’items. En effet, ce dernier

offre non seulement les possibilités de gestion évoquées précédemment, mais également

des procédures d’interface avec de nombreux éléments périphériques (logiciels de

statistiques, logiciel d’ancrage, logiciel de conversion des scores bruts, etc). Cette

banque illustre bien l’idée qu’une banque d’item est un outil ‘sur mesure’, dont la

dimension informatique est presque aussi importante que la procédure de calibrage. De

nombreuses recherches actuelles portent d’ailleurs sur l’optimisation de l’outil



27

informatique au service de la banque d’items (Amstrong, Jones et Kunce, 1998 ; van der

Linden, 1998).

Enfin, la banque d’items n’est pas la solution finale au problème que pose l’évaluation.

Aucune banque d’items n’est supérieure au matériel qu’elle contient, et de ce fait les

utilisateurs de banques d’items continueront à porter la responsabilité de la qualité des

tests produits : qu’ils soient toujours impartiaux, appropriés, fidèles et valides (Choppin,

1979).

BIBLIOGRAPHIE

Amstrong, R.D., Jones, D.H., et Kunce, C.S. (1998). IRT test assembly using a network-

flow programming. Applied Psychological Measurement, 22 (3), 237-247.

Bond, T.G. et Fox, C.M. (2001). Applying the Rasch model. Laurence Erlbaum Associates,

London.

Cadre européen commun de référence pour les langues (2000). Didier.

Chartier, P. et Vrignaud, P. (1999). Rapport sur l’analyse critique des banques d’outils de

la DPD. Paris : Service de Recherche de l’INETOP/CNAM.

Choppin B. (1979). Testing the questions - The Rasch model and item banking, in M.

St.J. Raggett, C. Tutt, P. Raggett (Eds). Assessment and Testing of Reading:

Problems and Practices. London: Ward Lock Educational. Chap. 5.Dickes, P., Tournois, J., Flieller, A. et Kop, J.-L. (1994). La psychométrie. Paris : PUF.

Durand, J.-L. (1998). Taux de dispersion des valeurs propres en ACP, AC et ACM.

Mathématiques Informatique et Sciences Humaines, 36(144), 15-28.

Embretson, S.E. et Reise, S.P. (2000). Item response theory for psychologists. Laurence

Erlbaum Associates, London.

Flieller, A. (1999). Etude d’un test lexical (définitions lacunaires) par des modèles de

Réponse à l’Item. Psychologie et Psychométrie, 20 (2/3), 65-84.

Hambleton, R.K. et Swaminathan, H. (1985). Item response theory. Boston etDordrecht : Kluwer.

Ingebo G.S. (1997). Probability in the measure of achievement. Rasch Measurement.

MESA Press.

ITEMAN (1996). Assessment Systems Corporation. http://www.assess.com/Software/iteman.htm

Jones, N.F. (1992). An item bank for testing English language proficiency: Using the

Rasch model to construct and objective measure. PhD thesis.

Linden van der W. J. (1986). The changing conception of measurement in education and

psychology. Applied Psychological Measurement, 10 (4), 325-332.



28

Linden van der W. J. (1998). Optimal assembly of psychological and educational tests.

Applied Psychological Measurement, 22 (3), 195-211.

Lord, F.M. et Novick, M.R. (1968). Statistical theories of mental test scores. New York :

Addison-Wesley.

Masters, G. N. et Evans, J. (1986). Banking non-dichotomously scored items. Applied

Psychological Measurement, 10 (4), 355-367.

Milanovitch, M. (1998). Studies in Language testing: Multilingual glossary of language

testing terms, Cambridge University Press.

Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of

Educational Measurement, 14(2), 97-116.

Wright, B. D. (1996). Comparing Rasch measurement and factor analysis. Structural

Equation Modeling, 3(1), 3-24.

Wright, B. D. et Bell, S. R. (1984). Items banks: What, why, how. Journal of Educational

Measurement, 21(4), 331-354.

Wright, B. D. et Linacre, J. M. (1997). Bigsteps 2.71. Chicago: MESA Press. Logiciel

gratuit et téléchargeable sur le site http://www.winsteps.com/bigsteps.htm

Wright, B. D., Linacre, J. M., Gustafson, J-E. et Martin-Löf, P. (1994). Reasonable mean-

square fit values. Rasch Measurement Transactions, 8(3), 370.

Wright, B. D. et Stone, M. H. (1979). Best Test Design. Chicago: MESA Press.



29

-5 -4 -3 -2 -1 0 1 2 3 4 5

(Compétence de la personne) - (difficulté de l'item)

0

0.5

1

P r o b a b i l i t é

d ' u n e

r é p o

n s e

c o r r e c t e

Relation entre compétence-difficulté et probabilité d’une réponse correcte.

figure 1

Banque es Items Sa s s

Items prêts pourêtre prétestés

Items à modifier

Banque de construction du Test

Banque des items Prétestés

Banque des items de Promotion

Banque de Stockage des tests

Banque des items de Formation

Banque des items Rejetés

Banque des items en prétestCommission Interne d'Evaluation

Banque des items Ancres

Banque d'Expérimentation

Analyses psychométriques

Organigramme de la banque d’items du TCF®.

figure 2



30

Représentation schématique des cycles de mise ne banque des items et de production de

test au Centre International d’Etudes Pédagogiques.

figure 3

- Je ne me sens pas très rassurée dans ce grand appartement.

- Soyez tranquille, mes voisins sont des gens …A pour qui

B à qui

C sur qui

D en qui

… on peut compter.

Exemple d’item de la partie ‘structures de la langues’ utilisé dans le TCF.

figure 4



31

Nuage des indices INFIT et OUTFIT pour les items d’un prétest. Les flèches pointent les

items o03 (au centre) et g47 (en haut à droite).

figure 5

Probabilité de la réponse correcte en

fonction de la compétence (item o03).

figure 6a

Probabilité de la réponse observée en

fonction de la compétence (item o03).

figure 6b

figure 6



32

Probabilité de la réponse correcte en

fonction de la compétence (item g47).

figure 7a

Probabilité de la réponse observée en

fonction de la compétence (item g47).

figure 7b

figure 7

Nuage des estimations des difficultés des items d’un prétest pour les candidats de langue

maternelle agglutinante et les candidats de langue maternelle tonale d’Asie (r = 0,84).

La droite représente la ligne d’invariance. La flèche pointe l’item g31.

figure 8



33

Nuage des estimations des difficultés des items d’un prétest pour les hommes et pour les

femmes (r = 0,92). La droite représente la ligne d’invariance. La flèche pointe l’item o09.

figure 9

Banqued'items

15 15

lululu5

Prétest A 6 Prétest B15 items ancres 15 items ancres

6 5

Prétest C16 items ancres

Exemple de plan d’ancrage utilisé pour le TCF.

figure 10

Download - Items 2003

Top Related