Items 2003

Download Items 2003

Post on 11-Jul-2015

63 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

<p>Les banques ditems. Construction dune banque pour le Test de Connaissance du Franais.DEVOUCHE1 Emmanuel Centre International dEtudes Pdagogiques (CIEP) 1, avenue Lon Journault F92318 Svres Nombre total de mots du documents : 11104.</p> <p>1</p> <p>Lauteur adresse ses vifs remerciements Yannick Savina qui a mis en place et dvelopp la</p> <p>mthodologie sous-jacente llaboration du TCF. Cet article doit beaucoup aux documents internes quil a rdigs alors quil travaillait au CIEP.</p> <p>1</p> <p>Les banques ditems. Construction dune banque pour le Test de Connaissance du Franais.Summary This article first presents the construction, organization and functioning of an item bank, through an evaluation of the pros and cons of its utilisation. Then, the process of elaborating an item bank comes illustrated through the analysis of the TCF, a language test developed by the CIEP. While presenting this process, we'll explain and comment the methodology and criteria according to which items will be selected for a test. As a conclusion, we will compare the item bank theory to its application. Key words Item banking, item response model, language test Rsum Cet article prsente tout d'abord la construction, l'organisation et le fonctionnement d'une banque d'items, tout en sinterrogeant sur les avantages et les contraintes lis son utilisation. Il illustre ensuite le processus d'laboration d'une banque d'items travers lanalyse du Test de Connaissance du Franais dvelopp par le Centre International d'Etudes Pdagogiques. Ltude de ce processus permet de dterminer la mthodologie et les critres qui prsident la slection des items pour un test donn : nous commenterons ces diffrents aspects, afin de confronter la thorie initiale des banques ditems son utilisation. Mots-cls Banques ditems, modle de rponses litem, test de connaissance en langue</p> <p>2</p> <p>1. INTRODUCTION Une banque ditems est un systme de gestion des items qui permet de stocker des informations afin de pouvoir laborer des tests aux contenus et difficults connus. (Milanovitch, 1998). Cet article se propose de prsenter le processus de construction dune banque ditems partir dun exemple concret, le Test de Connaissance du Franais (TCF), labor par le Centre international dtudes pdagogiques (CIEP). Cette illustration sera loccasion daborder la pratique dune banque ditems, avec les avantages et inconvnients que cela suppose. Laccent sera ainsi davantage mis sur la dimension pratique, laspect thorique tant plus largement trait dans la littrature spcialise. Par ailleurs, bien que les banques ditems possdent toutes un certain nombre de principes communs, de nombreux points de la prsentation seront spcifiques la banque ditems du TCF. Aprs une prsentation de la thorie de la rponse litem, une partie sera consacre au concept de banque ditems. Nous passerons en revue ses avantages et ses contraintes et donnerons quelques illustrations de banques existantes. Nous aborderons ensuite le processus de validation des items appliqu au CIEP pour le TCF, en dveloppant plus particulirement les aspects pratiques lis lapplication du modle du Rasch. Enfin, pralablement la discussion, nous prsenterons le principe de lancrage et de lassemblage dun test.</p> <p>2. LA THEORIE DE LA REPONSE A LITEM</p> <p>2.2. Principe fondamental et avantages de la thorie de la rponse litem La thorie de la rponse litem (TRI), dveloppe au sicle dernier, est apparue comme une rponse aux limites de la thorie classique des tests et notamment la dpendance existant entre les diffrentes mesures (estimations) et lchantillon (pour aller plus loin, lire van der Linden, 1986 ; Dickes, Tournois, Flieller, Kop, 1994 ; Embretson et Reise, 2000). La TRI offre des techniques pour construire une chelle de mesure invariante, rendant possible une mesure objective de traits psychologiques. Le principe fondamental de cette thorie est que personnes (de lchantillon) et items (du test) peuvent tre localiss sur un mme continuum latent qui dcrit simultanment la comptence2 de la personne et la difficult de litem. La non-dpendance lchantillon tient au caractre</p> <p>2</p> <p>Il est ncessaire de bien distinguer la comptence au sens psychomtrique de la comptence</p> <p>au sens linguistique : competence is a psychological construct, but proficiency is a measure. (Jones, 1992).</p> <p>3</p> <p>linaire et invariant de lchelle qui autorise laddition ultrieure ditems mesurant le mme trait latent, et de personnes appartenant la mme population gnrale, moyennant un ajustement des mesures (ce point sera abord dans le paragraphe dcrivant le principe de lancrage). Ainsi le principal avantage de la TRI est avant tout que, lintrieur du domaine dfini par le trait latent, lestimation de la comptence dune personne est indpendante de lchantillon ditems utilis, et lestimation de la difficult dun item est indpendante de lchantillon de personnes sur lequel litem est prtest. Par ailleurs, la TRI permet dobtenir des erreurs destimation spares pour chaque item et pour chaque personne, et de prendre ainsi en compte le comportement de chaque item et de chaque personne. De plus, lestimation de la comptence dune personne peut tre simultanment relie un groupe de personnes (le test peut tre normatif) et la performance probable de cette personne nimporte quel autre item (le test peut devenir critriel). Enfin, la TRI facilite la cration de banques ditems en autorisant le calibrage des items sur une chelle commune.</p> <p>2.2. Choisir un modle de rponse litem Un modle de rponse litem (MRI) dcrit en termes mathmatiques la relation entre des constructs ; par exemple, comptence de la personne et difficult de litem. Un tel modle reprsentant un idal, son application des donnes relles comprend un certain degr dinadquation, dont on souhaite quil soit le plus petit possible. On distingue habituellement trois grands types de MRI : le modle logistique un paramtre (dont le plus connu est le modle de Rasch ; Wright et stone, 1979) et les modles logistiques deux et trois paramtres (Lord et Novick, 1968). Ces modles diffrent dans le poids attribu aux items. Le modle de Rasch, le plus simple, possde un seul paramtre appel comptence-difficult. Le modle deux paramtres (modle 2P) ncessite en plus un paramtre pour le caractre discriminant de litem, et le modle trois paramtres (modle 3P) un paramtre supplmentaire dit de conjecture (Dickes, et al., 1994 ; Embretson et Reise, 2000). Les arguments en faveur dun modle en particulier reposent sur la prcision de lestimation, des considrations pratiques et conomiques, mais surtout sur une orientation philosophique diffrente (Jones, 1992). Le plus labor, le modle 3P, sera le plus appropri dans le cas o tous les paramtres sont ncessaires pour expliquer les donnes, cest--dire dans le cas o les items varient beaucoup du point de vue de la discrimination, et o la conjecture est un facteur incident dans les scores. Dans les autres</p> <p>4</p> <p>cas, les modles 1P et 2P fonctionneront aussi bien, voire mieux. La taille de lchantillon est un facteur prendre en compte car plus le modle est complexe, plus il ncessitera de sujets. Avec des chantillons de 100 200 personnes, le modle de Rasch est le seul choix possible. Le modle 2P demandera au moins trois fois plus de sujets, et le modle 3P, dix fois plus (Jones, 1992). En ce qui concerne le modle de Rasch, Linacre (1994) nous donne une indication de la stabilit du calibrage des items, avec une garantie associe en fonction de la taille de lchantillon. Ainsi, lauteur garantit une stabilit de plus ou moins 0.5 logit 99% pour un chantillon allant de 108 243 personnes. Notons que cette approche est partage par Wright (1977) et Bond et Fox (2001). Lexigence plus rduite en terme de nombre de sujets fait donc du modle de Rasch le plus conomique du point de vue du temps comme du point de vue du cot. La diffrence la plus fondamentale entre ces modles peut tre exprime comme suit : la question du modle de Rasch est Les donnes empiriques correspondent-elles (fit) aux attentes du modle de mesure ? ; alors que la question des modles 2P et 3P est Comment les paramtres additionnels peuvent tre manipuls pour maximiser lajustement des modles aux donnes ? (Bond et Fox, 2001). Les dfenseurs du modle 1P ou modle de Rasch revendiquent que seul ce modle permet dobtenir une mesure objective : le modle de Rasch nest pas un modle de donnes, mais une dfinition de la mesure. En dautres termes, avec le modle de Rasch, si les items du test ne correspondent pas au modle, ce sont les items qui posent problme et non le modle. Par opposition, les modles plus complexes sont perus comme imposant des contraintes arbitraires sur les valeurs que les paramtres peuvent prendre dans le processus destimation (Jones, 1992). Selon Bond et Fox (2001), cest prcisment laddition de paramtres supplmentaires qui dpouille les donnes de leurs proprits fondamentales de mesure (p. 191, trad.). En bref, choisir le modle de Rasch, cest accorder la primaut au modle de mesure et non aux donnes. Une telle approche implique toutefois que le construct que le test est cens valuer soit unidimensionnel, sinon le choix du modle de Rasch revient sacrifier la validit de contenu (Bond et Fox, 2001).</p> <p>2.3. MRI et banque ditems Le recours au modle de Rasch (et de manire gnrale un MRI) permet un calibrage qui conduit une chelle commune aux individus et aux items. Tous les items mesurant un trait particulier peuvent tre positionns le long dune chelle, leurs positions et leurs espacements tant dtermins par le niveau de difficult auquel ils correspondent. La russite dune personne une partie de ces items peut tre exprime au travers dune</p> <p>5</p> <p>valeur correspondant un point donn de cette chelle. Un individu a ainsi une probabilit suprieure 50% de russir aux items situs gauche de sa position et infrieure 50 % de russir aux items situs droite de sa position (cf. figure 1). Quant aux items occupant exactement la mme position que lindividu sur lchelle de difficult, ils seront russis avec une probabilit de 50 % (Choppin, 1979). - insrer figure 1 Il est important de souligner que la construction dune banque ditems sans un MRI est irraliste. Masters et Evans (1986) pensent que la mthode psychomtrique utilise pour transformer une collection ditems en un systme de mesure cohrent est probablement la partie la plus importante dune banque ditems : Sans une mthode psychomtrique sous-jacente, une banque ditems cesse dtre un systme de mesure et redevient une simple collection. (1986, p. 365). Lutilisation de liens (items ancres) dans les tests permet dajouter de nouveaux items un ensemble ditems dj calibrs (la banque). De ce point de vue, la mise en banque ditems est un cas particulier du calibrage vertical (test equating).</p> <p>3. LA BANQUE DITEMS</p> <p>3.1. Le concept de banque ditems Une banque ditems est une grande collection ditems organiss et catalogus comme les livres dune bibliothque. Lide est que lutilisateur du test peut slectionner les items pour rpondre la fabrication dun test prcis. Compte tenu quune banque ditems peut contenir plusieurs milliers ditems, le nombre possible de tests que lon peut fabriquer est astronomique. Le principal avantage de ce systme est sa flexibilit. Les tests peuvent tre courts ou longs, faciles ou difficiles, volont. (Choppin, 1979). Une telle approche implique le recours une mthode permettant de calculer pour chaque ensemble ditems (mesurant un trait commun et issu dune banque ditem), et pour chaque ensemble de rponses ces items, un score calibr de comptence qui soit interprtable relativement tous les items de la banque, et non pas seulement aux items dun mme test. La construction dune banque ditems offre donc lnorme avantage de produire des formes multiples dun mme test tout en prservant la stabilit de la mesure. Cet avantage est essentiel lorsquil sagit, comme cest le cas pour le TCF, de produire un test diffrent pour chaque session, considrant quil y a une dizaine de sessions par an, et que chaque test consomme une certaine quantit ditems.</p> <p>6</p> <p>Ingebo (1997) souligne que, dans la mesure o construire une banque ditems, cest dvelopper un outil permettant de produire une multitude de tests, des erreurs dans la construction de la banque ditems se rpercuteront ncessairement sur les tests construits partir de cette banque et, de fait, sur lapprciation du niveau des candidats. Lors de la dfinition du domaine de comptence, les dveloppeurs du test doivent avant tout sattacher dfinir trs prcisment ce quils veulent mesurer. La question du contenu des items constituant loutil dvaluation est fondamentale car elle renvoie au problme de validit de loutil. Les rdacteurs des items doivent disposer de manuels de rdaction qui prcisent les rgles de fond et de forme respecter, au regard de la comptence valuer. Par suite, les items produits seront relus de manire vrifier leur adquation avec les rgles dfinies, et seuls ceux jugs conformes seront saisis dans la banque ditems. Une banque ditems est tout dabord une structure conue pour rpondre une utilisation prdfinie et susceptible dvoluer. La logique sous-jacente est de ce fait indpendante du contenu ou de la forme des items qui la composent. Une banque ditems, cest aussi une organisation hirarchique : plusieurs banques, lies par des rgles de communication prcises et rgentant la circulation des items. Dans cette organisation complexe, litem reprsente lunit la plus petite, et doit possder un code identifiant unique, un profil et un historique. Lhistorique, indissociable de litem, contient une fiche signaltique compose de champs pouvant servir de critres de recherche ou de slection. Il est donc indispensable de bien renseigner le systme si lon souhaite quil fonctionne correctement. Toute tape du processus de traitement de litem, autrement dit tout mouvement de litem dans la banque est obligatoirement inscrit dans son historique, et tout item qui rentre dans la banque ditems nen ressort jamais. 3.2. Avantages dune banque ditems Les avantages dune banque ditems couple un MRI sont nombreux. Nous proposons ci-dessous une liste non exhaustive inspire notamment de larticle de Wright (1977) qui constitue une rfrence en la matire. Flexibilit des banques ditems Cet avantage est probablement lun des principaux : souligne par Wright (1977), Choppin (1979) et Dickes, Tournois, Flieller et Kop (1994), la flexibilit renvoie la possibilit de crer un test sur mesure, cest--dire de mettre ou denlever des items dans un test. En effet, mme si la banque ditems contient des items htrognes (certains utiliss dans un programme ducatif rgional, et dautres utiliss un niveau national par exemple), ils sont tous sur une chelle commune et conviennent tous du point de vue de leur qualits psychomtriques et de leur adquation avec la variable 7</p> <p>latente. On peut ainsi dvelopper des tests en fonction des niveaux de comptence valuer et de la prcision souhaite. Cet avantage est flagrant lorsque lon veut suivre le dveloppement dune comptence. Un seul test ne peut c...</p>

Recommended

View more >