pedagogischekringleuven.files.wordpress.com€¦ · web view2020. 9. 24. · 49 hoe groter de...

PSYCHODIAGNOSTIEK: SLIDES + NOTITIES LES + FRAGMENTEN BOEK GEINTEGREERD Schuingedrukt = notities van in de les Onderstreept = fragmenten uit boek

HOOFDSTUK 1: HISTORISCHE ONTWIKKELING VAN HET TESTEN

1.1 VOORLOPERS

o Chinese oudheid: ÷vorderingentoetsen voor dienaars ÷selectie op basis van testscores in boogschieten, muziek, rekenen,...

Leiders beoordelen dienaars voor blijven/ontslaan

o Oud testament: Gideon en zijn leger stonden klaar om ten strijde te trekken.

Gideon kreeg boodschap van God: ‘het zijn er teveel, je moet selecteren’ Deze selectie gebeurde op 2 manieren: - men vroeg aan die 32.000: ‘wie is er bang?’ → zelfbeoordeling

→ 22.000 man vertrok - bijkomende proef: Gideon ging met zijn mannen naar het water en vroeg hen water te drinken uit de rivier. Diegene die het water opdronken als een hond (300) (de meest toegewijdenen) koos men om te gaan vechten. → gedragstaak

o Oude grieken: typologie van de lichaamsvochten

Belangrijke poging om karaktereigenschappen te vatten. Gaat terug op

het werk van Hypocrates die een theorie had over temperamenten van mensen. Het relatieve belang van lichaamsvochten. 4 lichaamsvochten: - slijm: flegmatici: links boven -> futloosheid, luiheid, passiviteit - bloed: sanquinici: links onder -> vriendelijk gezellig opgewekt

elegant verfijnd en hulpvaardig - gele gal: cholerisch: rechts boven -> dadendrang, ambitie (mannelijke eigenschappen) en veel mannelijke energie

1 - zwarte gal: melancholici: rechts boven -> conventioneel, weinig indrukken van buitenaf en erg in zichzelf gekeerd

Beoordeling was heel erg ongestructureerd. De klinische blik van de arts die beoordeelde.

o Middeleeuwen en nieuwere tijd:

✓ Giambattista della Porta: zoölogische methode, gebaseerd op dierfysiognomie oude Grieken

ME: fysieke eigenschappen gelinkt aan karakterkenmerken Kijken hoe iemand was door te kijken op welk dier hij/zij leek = zoölogische methode → we houden hier in ons taalgebruik nog dingen van over: iemand is schaapachtig, iemand is een echte leeuw

✓ Johann Kaspar Lavater: fysiognomiek

Fysiognomiek = uitloper van zoölogie Zelfde ideeëngoed onder een andere vorm met de bedoeling om het wetenschappelijk te maken. Lavater wou dit op een wetenschappelijke manier uitbouwen Hij keek naar het silhouette van het gelaat. Hij ontwikkelde een heel interpretatiesysteem, waarbij bepaalde silhouetten op bepaalde karaktereigenschappen sloegen.

2

Op kader: papier met half doorzichtigheid. De interpreteur tekent het silhouette uit op dat papier en kon dat dat gaan bestuderen. Doordat dit wetenschappelijk leek, kende deze theorie heel veel bijval.

Maar er kwam ook kritiek door de twijfel aan de wetenschappelijkheid. Zo is bijvoorbeeld geweten dat Darwin eigenlijk op een haar na afgewezen was van die expeditie op de Beagle omdat zijn neus niet helemaal overeenstemde met de theorie van Lavater.

✓ Franz Joseph Gall: frenologie

Frenologie: schedelvorm ligt aan de basis van bepaalde eigenschappen. Naarmate een eigenschap meer aanwezig is in een bepaald deel van de hersenen, gaan de hersenen daar sterker ontwikkeld zijn en dus groter zijn, waardoor de schedel daar uitzet.

3

prentje uit boek voor het inschatten van iemands betrouwbaarheid

✓ Césare Lombroso: criminele fysiognomie

Criminele fysiognomie: je kan obv bepaalde uiterlijke kenmerken zien of iemand een misdadiger is. Bv. aaneengegroeide wenkbrauwen

✓ Chiromantie = karaktereigenschappen afleiden uit de vorm en

dikte van de kussentjes van je hand.

o tot in recentere tijden uitlopers van theorieën over verband tussen lichamelijke kenmerken en psychologische eigenschappen

4 Leptosoom type: Magere mensen zijn minder gezellig en in zichzelf gekeerd Pyktisch type: dikke mensen zijn vriendelijk, gezellig Athletische type: minder duidelijk beeld van eigenschappen: passief en afwachten, maar ook verrassend uit de hoek komen -> risico op epileptie

→ zulke theorieën werden vanaf het begin van de 20ste eeuw wel minder populair, onder meer als gevolg van het ontstaan van een nieuw instrument: de psychologische test

Reden dat ze verdwenen zijn: - de nazi’s gebruikten veel van die theorieën gebruikten ter verantwoording - intussen was er een nieuw instrument voor handen: psychologische test.

PERIODE TOT VERSCHIJNEN BINET-SIMON-TEST (BOEK P 16)

1.2 AANLOOP

aanloop tot wetenschappelijke ontwikkeling testdiagnostiek in de loop van de 19de eeuw onder stimulans van verschillende disciplines: psychiatrie: behoefte aan diagnosemogelijkheden met betrekking tot aard en niveau van geestelijke afwijkingen

kentering: meer aandacht voor psychiatrisch zieke mensen enerzijds en de mentaal gehandicapten anderszijds. Er kwam de nood om diagnostisch dingen te ontwerpen om dit onderscheid te kunnen maken.

experimentele psychologie: belang van gestandaardiseerde onderzoeksprocedures

genetica: interesse in verschillen tussen mensen

1.2.1 Stimulansen vanuit de psychiatrie

o Philippe Pinel ÷krankzinnigen zijn niet misdadig maar ziek ÷ontstaan van interesse voor geestelijke abnormaliteit en zwakzinnigheid heeft geesteszieke mens bevrijd uit kerkers e.d.

o Jean-Etienne Esquirol ÷onderscheid tussen zwakzinnigheid en krankzinnigheid Eerste die een definitie gaf van ‘idiotie’ = mentale handicap

o Edouard Séguin ÷training van zwakzinnige kinderen ÷focus op motorische en sensorische functies ÷performantietest: Séguin Form Board 1 van de hele gekende voorlopers van tests = performantietest Om vast te stellen wat de maat van zwakzinnigheid was en de training (helpt of niet?)

5 o Charcot

÷grondlegger van de neurologie ÷leidde een van de belangrijkste centra voor psychiatrie en neurologie in Europa: Hôpital la Salpétrière in Parijs

Hij stimuleerde de aandacht voor mentale psychopathologie

o Francis Galton ÷neef van Darwin (Origin of Species: aandacht voor erfelijkheid van lichamelijke eigenschappen) ÷erfelijkheid van psychische eigenschappen aan dezelfde wetten onderhevig ÷Galton legde de basis voor wetenschappelijk testonderzoek: - belang van onderzoek naar individuele verschillen - nood aan systematisering van onderzoekstechnieken - weergave van onderzoeksresultaten in statistische termen (nadien verder uitgewerkt door zijn collega Pearson) - “antropometrisch laboratorium”, wel voornamelijk peilend naar lichamelijke eigenschappen

Resultaten op een wetenschappelijke manier weergeven: statistisch

DUITSLAND

o Rieger Voorstel gedaan voor een algemeen toepasbare methode voor het intelligentie onderzoek

o Kraeplin Pogingen tot diagnose van krankzinnigheid

o Ebbinghaus Psychische vermoeidheid meten met een test waarin onvolledige zinnen moesten worden aangevuld, maar die in werkelijkheid functioneerde als een intelligentietest

o Ziehen -Evaluatie van de antwoorden niet reeds vooraf verrichten, maar deze laten afhangen van de prestaties van de geteste personen -Behoefte aan methoden om de verschillen tussen geestezieken en de verschillende gradaties in zwakzinnigheid te bepalen

Al deze mensen samen brachten de behoefte voor een methode om een onderscheid te maken tussen zwakzinnigen en mentaal gehandicapten en in verschil in gradatie van handicap.

6 1.2.2. Stimulansen vanuit de experimentele psychologie

o Wilhelm Wundt ÷1879: eerste psychologisch labo in Leipzig ÷start systematisch experimenteel onderzoek op grote schaal ÷beperkingen in relevantie voor testdiagnostiek

- focus op algemene wetten en samenhangen en niet op afwijkingen en verschillen - focus op primaire sensorische en motorische functies en niet op hogere en complexere cognitieve en intellectuele processen

Een derde domein dat invloedrijk was is het domein van de experimentele psychologie. Hij heeft een directe aanleiding gegeven aan onderzoek doen op grote schaal. Bv. condities exact beschrijven, storende variabelen vermijden, uitkomsten nauwkeurig verwerken...

Pag. 18 2 obstakels voor de ontwikkeling van het testen

1) het doel van het onderzoek was de generaliseerbaarheid van de wetten en samenhangen → afwijkingen en verschillen werden beschouwd als experimenteerfouten 2) onderzoek bleef beperkt tot de primaire sensorische en motorische functies, en de hogere en meer complexe cognitieve en intellectuele processen werden goeddeels buiten beschouwing gelaten

▪ Experimentele psychologie heeft naast een stimulerende ook een remmende werking uitgeoefend op de testpsychologie. ▪ Er werd waarde gehecht aan de exacte beschrijving van experimenteercondities ▪ In 1893 werd er binnen de American Psychological Association een commissie ingesteldn met als taak het registreren van tests en het formuleren van hun gebruiksmogelijkheden.

1.2.3 Stimulansen vanuit de genetica

o James MckKeen Cattell

÷promoveerde bij Wundt over individuele verschillen in reactietijd ÷1890: artikel in tijdschrift Mind waarin voor het eerst het woord ‘test’ gebruikt wordt ÷ontwikkelde, geïnspireerd door de lichamelijke proeven van Galton, een reeks van ‘mentale’ tests (psychofysische proeven) ÷stichtte in VS ‘laboratorium voor experimentele psychologie en testpsychologie’

7 KENTERING Wundt had doctoraatsstudenten. Bv. Cattell: was heel erg geïnteresseerd in individuele verschillen. Het was tegen de zin van Wundt. Mentale tests: maar in beperkte mate: vooral psychofysische proeven. Testpsychologie kwam erbij als belangrijk domein.

Pag. 19 In zijn wijze van onderzoeken kwamen 3 elementen voor, die alle een pijler van het wetenschappelijk testonderzoek zouden gaan vormen 1)Wenselijkheid van het onderzoek van individuele verschillen 2)Noodzaak van systematisering van de onderzoekstechnieken 3)Resultaten van de onderzoeken uitdrukken in termen van afwijkingen van het gemiddelde (Galton)

Pearson: correlatiecoëfficiënt, rangcorrelatie, multipele correlatie, factoranalyse

kenmerken van deze periode ▪ nog geen psychologisch testen op grote schaal ▪ interesse incidenteel en theoretisch gericht ▪ onderzoek voornamelijk in laboratoria ▪ focus op sensorische en motorische functies, niet op complexere hogereordefuncties

▪ later begon men te experimenteren met het gebruik van tests buiten het laboratorium - onderwijs - psychiatrie - personeelsselectie

▪ in die contexten werd duidelijk dat de methoden uit het experimenteel labo beperkingen hadden voor gebruik in meer praktijkgerichte settings → geleid tot een ontwikkeling van andere tests.

Ontstaan in labo, maar men experimenteerde meer in andere domeinen. Veel proefjes uit het labo waren heel beperkt.

▪ dit gaf aanleiding tot het ontstaan van nieuwe testvormen: - intelligentietests -psychotechnische proeven -persoonlijkheidsvragenlijsten -projectietests

8

PERIODE TUSSEN VERSCHIJNEN BINET-SIMON-TEST EN DE EERSTE WERELDOORLOG (BOEK P 20)

1.3 Intelligentietests

o bakermat van de eerste intelligentietests = het onderwijs - eind 19de

eeuw: behoefte aan beter opgeleid personeel ten gevolge van industrialisering en rationalisering van bedrijven - meer doorstroming van lager naar vervolgonderwijs - bij keuze van vervolgopleiding werden persoonlijke capaciteiten belangrijker dan afkomst - van daaruit behoefte aan instrumenten om geestelijke capaciteiten te meten - ‘mentale tests’ van Cattell vertoonden geen verband met onderwijsprestaties

De opgaven hadden weliswaar alle een sterk verbaal karakter, maar bestreken toch een grote variëteit van problemen, zoals het benoemen van objecten, het aanvullen van onvolledige zinnen en het begrijpen van verhaaltjes.

o Alfred Binet ÷werkte bij Charcot in La Salpétrière ÷was directeur van een laboratorium fysiologische psychologie aan de Sorbonne ÷Roots in labo ÷Interesse in studie van individuele verschillen ‘Mentale leeftijd’

▪ 1896 Binet & Henri: La Psychologie Individuelle

- studie van individuen als alternatief voor algemene psychologie - criteria “mental test” ÷“aussi variés que possible de façon { embrasser la plus grande nombre de facultés psychiques” → ze moeten gevarieerd zijn en zo’n groot mogelijk aantal vermogens aanspreken ÷“surtout relatifs aux facultés supérieures” → peilen naar hogereordefunctie bv. aandacht, redeneren, begrijpen enz. ÷“leur exécution ne dure pas plus d’une heure et demie pour un individu” → uitvoering niet langer dan 1.5 u ÷“assez variés, de façon à ne pas ennuyer l’individu soumis { l’épreuve” → gevarieerd zodat het individu zich niet verveeld. ÷“appropriés au milieu auquel appartient l’individu” → het mogen geen wereldvreemde dingen zijn, maar peilen naar dingen waar de mensen mee vertrouwd zijn. ÷“ne nécessitent pas d’appareils compliqués et d’installation spéciale” → bv. geen frenologie, maar veel eenvoudiger dan dat.

▪ 1904 opdracht ministerie van onderwijs: onderscheid maken tussen zwakbegaafde en luie kinderen ▪ leidde tot eerste intelligentietest: Binet-Simon 1905

9 -30 proefjes (opgaven dagelijks leven) - uitgeprobeerd bij 50 normale kinderen van verschillende leeftijden - gerangschikt volgens moeilijkheid (“leeftijdsdifferentiatie”) → proeven zo kiezen dat ze in de bekwaamheid naar bepaalde peilen differentiëren bij verschillende leeftijden - nog geen objectieve scoring

▪ vernieuwende benadering - accent op complexe mentale processen (begrip, geheugen, oplossen van problemen en verbeeldingskracht) - toetsing aan empirie -totaalscore als maat van intelligentie (“algemene intelligentie”)

Invoering leerplicht. Wat moest er gebeuren met kinderen die niet konden leren -> dus binnen het onderwijssysteem moest een oplossing gezocht worden zodat die kinderen niet werden thuisgehouden.

Hoe kunnen we het onderscheid maken tussen kinderen die lui zijn en kinderen die het echt niet kunnen. → Commissie opgesteld om onderscheid te kunnen maken ->

Binet aan het hoofd. →Eerste intelligentietest: Binet-Simon test 1905 (data kennen, want er zijn er meerdere)

De test moest meten naar algemene intelligentie → proefjes die het best correleerden met het totaal, waren de meest interessante proefjes

▪ Binet-Simon 1908 - gedeeltelijk andere items - items gegroepeerd in leeftijdsschalen (3-12 jaar) - notie mentaal niveau: ÷leeftijd van het normale kind waarmee de prestaties van het onderzochte kind in overeenstemming zijn ÷basisjaar + 1 jaar per vijf correct opgeloste items uit een hogere reeks

▪ Binet-Simon 1911 - gelijk aantal proeven (n=5) per leeftijdsschaal - proeven voor jongere leeftijdsgroepen (3 mnd, 9 mnd, 1 jaar, 2 jaar) - andere berekening mentaal niveau ÷basisjaar + 1/5 jaar voor elke succesvol beëindigde proef uit een hogere categorie ÷decimaal getal

Alle proefjes die normaal een kind van 3 jaar kan oplossen, vormen de proefjes voor een kind van leeftijdsschaal 3 jaar. Mentaal niveau was een belangrijke stap.

10 ▪ Binet-Simon tests zijn ook populair in US ▪ vertaling door Goddard, maar met andere bedoeling - eugenetische beweging - selectiemiddel - toestemming tot immigratie - verplichte sterilisatie

Expansie naar andere landen. Eugenetische beweging: beweging met als doel om kwaliteit van de genetica van het volk te verbeteren. Bv. armoede en misdaad dacht ze dat te maken had met genetica. Hij wilde dus niet dat die mensen hun genen doorgaven aan een volgende generatie. Selectiemiddel: er waren wetten in de maak die verplichte sterilisatie wilde opleggen aan bepaalde mensen. ook om de grote toestroom van immigranten een halt toe te roepen. Er waren ook mensen die hier tegenin gingen.

o Lewis Terman

÷hoogleraar universiteit Stanford ÷geëngageerd in eugenetische beweging ÷gebruikte Binet-Simon tests als middel om aangeboren intelligentie te meten Hij heeft het werk van Binet voortgezet

▪ Stanford-Binet 1916 - gedeeltelijk andere items - uitbreiding leeftijdsbereik tot 16 jaar - vanaf 16 jaar intelligentie volledig ontwikkeld - test ook bruikbaar voor oudere kinderen en volwassenen - veel grotere proefgroep dan Binet (wel alleen blanke Californiërs) - invoering intelligentiequotiënt (geïnspireerd door Stern) ÷IQ= (ML/CL)*100 ÷maximale CL gefixeerd op 16 jaar ÷hoogste ML die behaald kan worden is 19.5 jaar

Vervolg op de Binet-Simon test. Uitbreiden tot 16 jaar: men dacht dat de intelligentie-ontwikkeling stopte op 16 jaar. Het voordeel dat het nu in de VS was: men kon met veel grotere groepen werken. Maar geen variatie in etniciteit, want er waren alleen maar blanke mensen die meededen. ML: mentale leeftijd CL: chronologische leeftijd

Reeds bij de eerste versie van 1916 was aan 2 zeer belangrijke testtechnische eisen voldaan: er werden standaardinstructies geformuleerd, zodat vergelijkbaarheid van testscores mogelijk werd, en er werden normen geconstrueerd, gebaseerd op een representatieve steekproef. Ook nam Terman het idee van Stern over om de mentale leeftijd, die werd bepaald op basis van de testprestatie, te delen door de chronologische leeftijd.

11 kenmerken van de periode voor WO I —vooral in de praktijk van intelligentietesting grote vooruitgang —theoretische vraag naar samenstellende elementen van intelligentie blijft grotendeels onbeantwoord —nog geen testings op grote schaal (collectieve afname) —nog geen valideringsonderzoek —door WO I grote nood aan instrumenten voor selectie voor en plaatsing in diverse functies —hierdoor kwam er een ander toepassingsdomein van intelligentietests op de voorgrond

Spearman: alle tests: 2 intelligentiefactoren : - algemene (g-)factor - specifieke (s-)factor Thurstone: Multi-factorentheorie Thorndike + Burt: educational achievement tests: achtergebleven leerlingen als zodanig herkennen en de prestaties van verschillende scholen vergelijken.

PERIODE VAN HET BEGIN VD EERSTE WERELDOORLOG TOT DE TWEEDE

(boek p 22) ▪ omdat individuele diagnostiek erg tijdrovend is, werd ook collectieve

intelligentietest geïntroduceerd: Army Alpha Army alpha: collectieve test voor rekruten Foto: rekruten zitten neer op grond en hebben een soort schrijfplankje de reden dat ze hun hand opsteken, is dat ze nog niet konden beginnen

▪ later ook niet-verbale variant: Army Bèta Grote rol bij het algemeen vergelijkend onderzoek tussen bevolkingsgroepen, al was hun betrouwbaarheid vaak geringer dan die van de verbale tests. ▪ In de VS: individuele test nam er relatief een minder belangrijke positie in dan in Europa ▪ Terman Merrill / Wechsler series ▪ Thurstone: aandacht voor de kritische evaluatie van de test zelf. Hij was van mening dat de resultaten van een test betrouwbare testscore dienen op te leveren, en als men met een test gedrag buiten de testsituatie probeert te voorspellen (= criteriumgedrag) dient de relatie tussen test en criterium van tevoren te zijn aangetoond. ▪ 3 afzonderlijke methoden kunnen met betrekking tot het testen van de persoonlijkheid worden onderscheiden

1) observatie: bedoeld om inzicht te geven in de kwalitatieve aspecten van de prestatie 2 ) persoonlijkheidsvragen -> de eerste: eigenlijk niets anders dan gestandaardiseerde,op schrift gestelde, psychiatrische interviews. Niet alleen de

persoonlijkheid als zodanig, maar ook allerlei specifieke terreinen, zoals dat van de interesses, de waarden en de attitudes leken vervolgens gemakkelijk toegankelijk door middel van vragenlijsten

12 3) projectietests: stimulus aangeboden waarop de persoon vrij mag reageren al naargelang de betekenis die deze stimulus voor hem of haar heeft of de associaties die hij oproept. Sterk beïnvloed door psychoanalyse. -> bv. Rorschach (inktvlekkentest), TAT

ZIE SAMENVATTING PAG. 27

▪ toch ook vooruitgang op vlak van individuele testdiagnostiek: Stanford-Binet 1937 - uitbreiding leeftijdsbereik (2 jaar – 22j 10m) - verdere

uitbreiding aantal proeven - representatievere onderzoeksgroep (wel nog steeds alleen blank) → wel uit verschillende staten

- invoering van parallelvormen - meer psychometrische zorg

Foto van Nederlandse test van Stanford-Binet uit 1937 Nog niet zo lang geleden nog gebruikt

o David Wechsler ÷hoofdpsycholoog aan het Bellevue Psychiatric Hospital in New York ÷professor klinische psychologie aan de New York University WISC Wechsler was Amerikaanse psycholoog

▪ 1939 “the measurement of adult intelligence” kritiek op tests uit de Stanford-Binet traditie: - Intelligentie is te gedifferentieerd om in één score te vatten - Aard van de proeven verschilt naar gelang van de leeftijd → terecht - Proeven zijn hoofdzakelijk verbaal - Mentale leeftijd is niet geschikt voor gebruik bij volwassenen

▪ twee nieuwe principes - puntenschalen (i.p.v. leeftijdsschalen) → proefjes samenzetten volgens inhoud, je verbond punten aan het goed hebben van elk item. - verbale en performantiële intelligentie (i.p.v. algemene mentale bekwaamheid)

▪ deviatie-IQ Deviatie-IQ: normering en afgeleide scores, was een nieuw gegeven waarbij men afstapte van het delen van de ML door CL en overstapte op het vergelijken van de score van een bepaalde persoon tov de vergelijkingsgroep. (= gemiddelde)

Intussen kwamen er toch nog twee herzieningen Stanford-Binet

Stanford-Binet 1960 ▪ geen parallelvormen meer ▪ maximale chronologische leeftijd opgetrokken tot 18 jaar

13 ▪ invoering deviatie-IQ (gemiddelde 100, SD 16) - uitvinding van Wechsler - oplossing voor twee problemen:

1)ML stijgt niet zoals CL 2) standaarddeviatie IQ verschilt naargelang leeftijdsgroep

▪ in 1972: nieuwe normen (niet uitsluitend blanken) Ze bleven geloven in hun test, dus nog 2 herzieningen

Stanford-Binet 1986 ▪ inhoudsschalen in plaats van leeftijdsschalen - 15 schalen - 4 groepen: verbaal,

abstract/visueel, kwantitatief, onmiddellijk geheugen ▪ standaardscores voor elke subtest (M=50, SD=8) ▪ deviatie-IQ per groep en voor geheel ▪ nooit in het Nederlands verschenen

Laatste poging, maar het kalf was al verdronken: men had niet zoveel interesse meer voor de Stanford-Binet test

1.4 Psychotechnische proeven

▪ parallel aan intelligentietests in de context van onderwijs ontwikkelden zich psychotechnische proeven in de context van personeelsselectie en beroepskeuzeadvies - door technische en industriële revolutie waren rond de eeuwwisseling nieuwe beroepen ontstaan - nood aan instrumenten om geschiktheid voor deze beroepen te onderzoeken - ontstaan van bureaus voor beroepskeuze

o Hugo Münsterberg ÷pionier van de psychotechniek ÷van oorsprong Duitser ÷werkzaam aan Harvard University ÷ontwikkelde onder meer psychologische proeven voor de selectie van trambestuurders Door wereldoorlog had men nood aan veel functies in het leger: bekwaamheidsproeven in psychotechnische labo’s

▪ WO I stimuleerde de ontwikkeling van psychotechnische proeven voor selectiedoeleinden - vooral in Duitsland erg populair - psychotechnische laboratoria schieten als paddenstoelen uit de grond Bv. phillips deed dit Men maakte gebruik van opstellingen die doen denken aan labosituaties. Hier vond men dit minder

hinderlijk dan in het onderwijs.

Selectie van Franse piloten: persoon op stoel en verbond die met allerlei apparatuur op hartslag e.d. te registreren en dan vuurde men een schot af en men keek hoe hard die persoon schrok.

14 Reactietijdproef → De Post maakte hier gebruik van en investeerde hier veel in. -> selectie chauffeurs. Kijken of mensen die zich aanbieden de juiste vaardigheden hadden.

Proef over aanvoelen van bewegingen Pl deed beweging die de ppn niet kon zien, maar de ppn moest doen wat hij dacht dat de pl deed.

Proef met kaarsen (bovenaan): aangestoken door pl. Onderaan hingen gummibeertjes. Welk beertje hoorde bij welke kaars om ze uit te krijgen? → doordacht zijn.

▪ rond 1930 gebeurden een aantal verschuivingen: - geschiktheid voor een beroep hangt niet alleen af van capaciteiten maar ook van persoonlijkheid - hulp van psycholoog werd niet alleen ingeroepen bij selectie voor technische beroepen maar ook bij selectie voor leidinggevende en organisatorische beroepen ▪ deze verschuivingen leiden mee tot de intrede van een nieuw soort psychotechnische proeven: observatieproeven

Rond 1930: evolutie Men begon te beseffen dat de geschiktheid voor bepaalde beroepen niet enkel afhangt van wat je allemaal kan, maar ook van je persoonlijkheid of toch de kenmerken ervan.

Observatieproeven bestonden hiervoor al. Deze foto’s zijn van voor die tijd. Foto: wiglyblok: technisch inzicht: wat je maakte was belangrijk, maar ook je strategie.

▪ vanaf de jaren 1930 bepaalden zulke proeven het beeld van de psychotechniek - niet alleen aandacht voor prestatie van geteste persoon, maar ook voor gedrag tijdens de proef - persoonlijke inbreng diagnosticus werd belangrijker - manier van verslagvoering veranderde

Dokter van de geest die iemands innerlijk moest gaan doorgronden. Aan diens

observaties werden heel veel belang gehecht. Men schreef bijna portretten.

1.5 Persoonlijkheidsvragenlijsten

15 ▪ door WO I ontstond nood aan instrumenten om emotioneel onstabiele recruten te kunnen identificeren ▪ gaf in 1917 aanleiding tot eerste persoonlijkheidsvragenlijst: Woodworth Personal Data Sheet - 116 vragen - gemaakt op vraag van Amerikaanse leger - eerste vragenlijst waarin antwoorden worden opgeteld - optelsom = index van ‘psychologische aanpassing’

▪ uit die eerste aanpassingslijst (populair) kwamen in de jaren 1930 heel wat andere vragenlijsten voort - Bernreuter Personality Inventory - Bell Adjustment Inventory - California Test of Personality

▪ deze ‘nakomelingen’ worden gekenmerkt door differentiatie - diverse aspecten van aanpassing - diverse domeinen

▪ vroege persoonlijkheidsvragenlijsten hebben sterk psychiatrische inslag - focus op aanpassing - psychiatrische ziektebeelden als vormen van ‘onaangepastheid’

▪ in de jaren 1940 ontwikkelen Hathaway en McKinley een vragenlijst die erop gericht is meerdere aspecten van persoonlijkheid en disfunctioneren te meten: de Minnesota Multiphasic Personality Inventory (MMPI) - 566 items - empirische constructiemethode Als je gaat peilen naar de mate waarin iemand aangepast is, is toch wel moeilijker dan iemands persoonlijkheid in kaart te zetten.

Schaal kwam tot stand in de kliniekcontext. Om te weten welke vragen je moest gebruiken om bv. depressie na te gaan -> kijken naar een hele hoop vragen die je geeft aan depressieve en niet-dpressieve mensen. De vragen waarop de depressieve mensen significant verschilden van de niet-depressieven, waren dan de vragen om depressie te meten.

Gevolgen: •Items zijn niet altijd face-valid. Op het eerste gezicht kan iets niet als een

depressie lijken. •Items kunnen tot verschillende schalen tegelijk behoren. •Items binnen een schaal kunnen heel heterogeen zijn.

▪ MMPI werd later herwerkt (MMPI-2) en aangepast voor adolescenten (MMPI-A)

▪ andere vragenlijsten zijn op de MMPI gebaseerd - California Personality Inventory (CPI)

÷‘MMPI voor normalen’ ÷ook empirische constructiemethode - Nederlandse Persoonlijkheidsvragenlijst (NPV)

÷aanpassing van de CPI voor het Nederlandse taalgebied

16 ÷factoranalytische constructiemethode Nu: men genereert een

grote poel van vragen die ze denken dat relevant zijn. Je doet daar FA op → daarop genereert men schalen

▪ vanuit de differentiële psychologie ontstaan factoranalytische persoonlijkheidsvragenlijsten

▪ verschillende tradities in USA versus Engeland - USA (Guilford, Cattell): oblieke factoren - Engeland (Eysenck): orthogonale factoren

▪ recente vragenlijsten die uit deze tradities voortkwamen: - Guilford LTP Temperament Survey (GLTS ‘94) - NEO-PI-R - Eysenck Personality Inventory / Amsterdamse Biografische Vragenlijst

1.6 Projectietests

▪ vanaf de jaren 1930 komt binnen de psychiatrie een nieuwe testvorm in zwang, specifiek bedoeld voor de diagnostiek van persoonlijkheid: projectietests - vanuit onvrede met apparaten-tests, die te veel focusten op de ‘buitenkant’ van de persoon - mede onder invloed van de opkomst van de psychoanalyse Laatste domein van testontwikkeling. Bakermat = psychiatrie. Dit is meer vanuit de klinische praktijk Er kwam een pleidooi voor een meer geesteswetenschappelijke test.

o Sigmund Freud ÷grondlegger van de psychoanalyse ÷lanceerde de idee dat emotioneel beladen herinneringen, die uit het bewustzijn verdrongen zijn, weer bewust gemaakt kunnen worden met behulp van subtiele duidingsmethoden Hij realiseerde dat de binnenkant van mensen zich toch wel laat zien. En als psychodiagnosticus KAN je die ook zien.

o Carl Gustav Jung ÷leerling van Freud ÷gebruikte woord-associatietest om complexen van emotioneel beladen, onverwerkte ervaringen bloot te leggen Projectieve techniek avant-la-lettre

o Hermann Rorschach ÷leerling van Freud en Jung ÷gebruikte vlekken om inzicht te krijgen in diepere persoonlijkheidsstructuur

▪ Rorschach vlekkentest - 10 platen met inktvlekken (“wat zou dit kunnen zijn?” - voor het eerst voorgesteld in 1921 in “Psychodiagnostik” (= eerste keer dat die term gebruikt werd.

17

- hedendaagse test verschilt van oorspronkelijke ÷minder platen ÷kleinere platen ÷zonder zwarte rand ÷schakering ten gevolge van drukproces - Rorschach beschreef test als ‘waarnemingsexperiment’ (BELANGRIJK) ÷bij interpretatie niet zozeer letten op inhoud van de antwoorden, maar wel op de vormkenmerken - test was aanvankelijk niet erg succesvol

“Rorschach is a blot on the history of psychology.”

Rorschach legde de nadruk op waarneming. Veel kritiek op Rorschach is op hoe ver men die interpretaties doortrekt. Hij bleef toch heel dicht bij de waarneming en focuste zich op de formele kenmerken die de mensen zagen. Bv. de kleur, wat doet de pp hiermee -> linkte het aan een persoonlijkheidskenmerk Uitgever vond dat de afbeeldingen er te veel waren. Daarom had hij er maar 10 overgehouden.

- na eerste kritische reacties komt er in de jaren 1930 wel een doorbraak en wordt de test een van de populairste en meest gebruikte psychologische tests

succes van de Rorschachtest inspireerde anderen tot de ontwikkeling van andere tests, gebaseerd op hetzelfde principe:

- platentests (bijv. Thematic Apperception Test) TAT: platen aan pp die onduidelijke scènes laten zien. De pp moet dan zeggen wat er op de plaat allemaal aan het gebeuren is.

18 - keuzetests (bijv. Szondi)

Foto’s van psychiatrische patiënten. Ppn krijgt 8 foto’s. je moet de 2 meest aantrekkelijke en de 2 minst aantrekkelijke aanwijzen. Dan kan men afleiden hoe het

met de corresponderende drift zit van een persoon. Afkeer -> drift die je niet accepteert Aantrekking -> drift die je accepteert

- tekentests (bijv. Boomtest) Bv. zware wortels betekent iets, grote kruin betekent iets

▪ in de jaren 1940 vonden projectietests ook hun weg naar de sector van personeelsselectie en beroepskeuzeadvies - ontwikkeling van speciale varianten (bijv. Vocational Apperception Test) - Boomtest tot in de jaren 1970 frequent gebruikt voor personeelsselectie

PERIODE VAN HET BEGIN VAN DE TWEEDE WERELDOORLOG TOT HEDEN

▪ VS - 2e wereldoorlog: periode waarin een expansie plaatsvond op alle terreinen van het testen. - Ook in de schoolkeuze werd het psychologisch testonderzoek hoe langer hoe meer geïntegreerd, vooral sinds met de Education Act van 1944 een meer formele toelatingspolitiek voor de verschillende scholen voor vervolgonderwijs werd geïntroduceerd. - Meer dan 9.000.000 personen werden onderzocht met de Army General Classification Test (AGCT) en hun gegevens vormden een uitstekende bron voor genuanceerde normerings- en valideringsresultaten - Ook de structuur van vaardigheden werd bepaald met hiervoor speciaal ontwikkelde differentiële testbatterijen - Speciale tests werden ontwikkeld ter bepaling van uiteenlopende specifieke functies en vaardigheden •Schoolvorderingentests •Opleidings- en kennistests •Individuele en groepsobservatietests

19 •Persoonlijkheidsvragenlijsten

•Biografische vragenlijsten - Educational testing service (ETS): bedoeling van deze non-profitorganisatie met een groot aantal psychologen, onderwijskundigen, statistici en psychometrici in dienst is tegemoet te komen aan de behoefte van het Amerikaan onderwijs- en opleidingsveld, wat betreft de toelating tot en de evaluatie van hetzelfde onderwijs - Naast ETS is in de VS een groot aantal test agencies werkzaam.

•Sommige: breed toepassingsveld Andere: gespecialiseerd - Over tests en testonderzoek en ook de psychometrie loopt de communicatie via

vele tijdschriften → zwaartepunt in de VS - Veel van deze informatie is tegenwoordig via internet beschikbaar - Handboeken over tests en de toepassing ervan brengen niet alleen veel inhoudelijke informatie over tests bijeen, maar bieden tevens een meer of minder uitgebreide behandeling van de wetenschappelijke testtheorie. - Een andere oorzaak van de versnelde testontwikkeling en testresearch is de ontwikkeling en uitbouw van de verwerking van testgegevens per computer •Rekenkundige bewerkingen •Geautomatiseerde testen per computer •Constructie en het onderhoud van itembanken •Adaptief testen

▪ Europa, vooral in Nederland - Nog steeds is de testtheorie en ook het gebruik van tests in Europa nauwelijks tot ontwikkeling gekomen. Vooral sinds de jaren ‘60 en ‘70 van de vorige eeuw is daarin in landen als Duitsland, Oostenrijk, Nederland, België en de Scandinavische landen verandering gekomen. - De ontwikkeling van de testtheorie en het testgebruik in Nederland werd in de jaren ‘40 en ‘50 van de 20e

eeuw nog in sterke mate gekenmerkt – geremd zelfs – door de oriëntatie van de psychologie op de intuïtie van de psycholoog, het Verstehen, en de ontmoeting met de cliënt. - Psychologie die in de jaren ‘50 een belangrijke invloed hadden op de stimulering van het testgebruik en, meer algemeen, de ontwikkeling van de Nederlandse psychologie als wetenschap naar min of meer Amerikaans model: Kouwer, DeGroot en Van de Geer - Een eveneens belangrijke impuls in de richting van wetenschappelijk verantwoord testgebruik ging uit van Van der Giessen, die zijn dissertatie schreef over voorspellingen in de psychologie. - Om betere communicatie en testonderzoek te bekomen, stelde het Nederlands Instituut van Psychologen in 1959 een Test Research Commissie in → belangrijkste taak: de publicatie van een overzicht van in Nederland bestaande en in gebruik zijnde tests + documentatie van het onderzoek hiermee verricht. - Schoolvorderingstests: tot in de jaren ‘60 van de vorige eeuw in ons land nauwelijks -In de jaren ’70 deed de testtheorie haar intrede bij de beoordeling van school- en opleidingsprestaties - Realisatie van 1 van zijn voorstellen (DeGroot): de oprichting van een landelijk centraal instituut voor toetsontwikkeling naar model van de Amerikaanse ETS,

20 vond plaats in de vorm van de oprichting van het CITO, het centraal instituut voor toetsontwikkeling. Dit instituut verzorgt in Nederland op grote schaal de toetsconstructie, niet alleen voor het basisonderwijs, maar ook voor allerlei vormen van voortgezet algemeen en beroepsonderwijs; niet voor het academisch onderwijs. - Aanvankelijk werden de meeste wetenschappelijke bevindingen op het gebied van testtheorie en testconstructie gepubliceerd in Nederlandse vaktijdschriften en in hoofdstukken van bundels en boeken. - De belangrijke rol van deze tijdschriften op deze terreinen is vandaag echter uitgespeeld, als gevolg van het universitaire beleid om onderzoekers vrijwel alleen nog te beoordelen op publicaties in internationale tijdschriften, in praktijk vooral de Amerikaanse. Overigens is dit beleid uitstekend gebleken om de goede kwaliteit van de Nederlandse psychometrie internationaal zichtbaarder te maken dan voorheen. Dit heeft ertoe geleid dat de Nederlandse psychometrie zoals die aan de universiteiten en het CITO wordt beoefend, internationaal een prominente plaats inneemt.

21 HOOFDSTUK 2: DEFINITIE, CLASSIFICATIES EN TOEPASSINGEN VAN DE TEST

Hoorcollege springt in boek Stimulusmateriaal in de les, moet je niet kennen, maar is ter voorbeeld

2.1 Definitie en onderdelen

Een psychologische test is “een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de betrokkene in vergelijking met anderen” (Drenth & Sijtsma, 2006, p. 40)

▪ systematische werkwijze (bv. standaardisatie) ▪ steekproef van gedragingen ▪ doel = uitspraak over individu (voorspelling, classificatie, beschrijving) vergelijking met andere mensen

Classificatie: bv. depressief Beschrijving: werkgever wil een beeld krijgen van persoonlijkheid, motivatie,... van zijn werknemers Voorspelling: of leerling geschikt is voor een beroep

“A psychological test is the measurement of a sample of behavior obtained under standardized conditions and that has established rules for scoring or interpreting this sample” (Anastasi, 1988)

▪ steekproef van gedragingen ▪ gestandaardiseerde condities ▪ uitgewerkte regels voor scoring en interpretatie

Anastasi: heel belangrijke auteur in psychodiagnostiek Altijd op dezelfde manier de test afnemen, maar ook scoren en interpreteren

Een verantwoorde en gepubliceerde test heeft doorgaans volgende onderdelen: ▪ testmateriaal - kan erg divers zijn - soms geen tastbaar materiaal Soms ook: opstel schrijven = vertrekken vanuit niets

▪ testformulieren - voor het verzamelen van materiaal (antwoorden, reacties, gedragsgegevens) waarop de interpretaties en conclusies gebaseerd zullen worden - in te vullen door respondent (vragenlijst) of proefleider

Moeten officieel aangekocht worden (copyright) → Op gestandaardiseerde formulieren, zodat er voor iedereen evenveel ingevuld wordt

▪ testhandleiding

22 - grote variatie in uitvoerigheid - vier basisingrediënten ÷testinstructie (concrete gang van zaken tijdens het testonderzoek) ÷verwerkingsprocedure (toekenning numerieke scores aan antwoorden en reacties op de opgaven) ÷normtabellen (scores van representatieve normgroep waarmee scores van de geteste persoon vergeleken kunnen worden) ÷informatie over wetenschappelijke kwaliteit van de test (betrouwbaarheid, validiteit) - voor scoring wordt soms gebruik gemaakt van een plastic sleutel

•Testinstructie: soms heel gedetailleerd (bv. lokaal waarin test gedaan wordt, de hoek tov van je ppn zitten, geluidvermijding (bv. concentratietests), instructies die je moet geven (genoeg info geven, maar ook niet te veel),...)

•Normen: meerdere normtabellen in 1 handleiding soms. De interpretatie van de score zal afhangen van welke normgroep je kiest. Soms is het interessant om 2 normgroepen te vergelijken. Bv. alochtoon kind ivm taal vergelijken met Nederlandstalige kinderen en met de kinderen van herkomst. Scoringssleutel: doorzichtig plasic dat je op een testformulier kan leggen.

2.2 Classificaties

▪ Tests kunnen op verschillende manieren ingedeeld worden: - volgens testgedrag - volgens instructie en afneming - volgens de aard van de testvragen

2.2.1. classificatie volgens testgedrag ▪ tests voor prestatieniveau versus tests voor gedragswijze -

tests voor prestatieniveau ¢van de onderzochte persoon wordt een maximale prestatie gevraagd ¢duidelijke

norm voor wat ‘goed’ is en wat ‘fout’ (bv. noem de provincies van ons land op -> hier

kan men niet over discussiëren) ¢meting van intelligentie, cognitieve capaciteiten, kennis, inzicht,... Dit is de uitvoerigst toegelichte, want komt het vaakst voor in

handboeken

2 groepen: - tests voor prestatieniveau - tests voor gedragswijze

3.1 indeling naar testgedrag pag. 76 Andere indelingen (anders dan testgedrag): -Gebruiksdoel bv. het o.b.v. de testscore voorspellen in hoeverre leerlingen geschikt zijn voor bepaalde typen vervolgonderwijs -Meetpretentie

bv. Hierbij wordt nauwkeurig onderscheid gemaakt in niveaus van kennis en inzicht, maar hierbij wordt niet primair algemene intelligentie gemeten. Een indeling van tests obv gebruiksdoel en meetpretentie

23 → nadeel: - ten aanzien van de zelfde test in verschillende gebruikssituaties bestaan geheel verschillende doelen en dus meetpretenties. - deze indeling mist ook de aansluiting met gangbare indelingen. Indeling obv gedrag: ook niet helemaal zonder problemen: Zo is niet altijd ondubbelzinnig aan te geven in welke categorie een psychologische eigenschap thuishoort.

Zie boek Onderscheid tussen enkelvoudige, veelvoudige, speciale niveautest en vorderingstests

▪ categorie 1: enkelvoudige algemene niveautests - meten ‘general ability’ en leiden tot één indicatie van intelligentie - doel = algemene niveaubepaling, niet differentiatie in deelaspecten - drie soorten

1) ontwikkelingstests en individuele intelligentietests voor kinderen bijv. Wechsler Intelligence Scale for Children (WISC-III)

Bestaan uit meerdere taken en je kan ook scores van deelaspecten meten.

2.2.1.1 Bailey Scale of Infant Development – II (BSID-II)

▪ door het gebruik van spelmateriaal of door het gedrag van testleider/ouder worden bij het kind op een gestructureerde manier gedragingen uitgelokt

▪ geschikt voor leeftijdsbereik 1 - 42 maanden ▪ afnameduur 25’-60’ ▪ Mentale Schaal - meet vaardigheden die een beroep doen op de cognitie van het kind ¡visuele en auditieve informatieverwerking, imitatie, taalontwikkeling, geheugen, probleemoplossend vermogen,... ▪ Motorische Schaal - meet vaardigheden met betrekking tot de controle over de grove en fijne spiergroepen - rollen, kruipen , zitten, staan, lopen, rennen, springen, aangepast gebruik schrijfmateriaal, ... ▪ Gedragsobservatieschaal - beoordeling van mate van alertheid, aanpassing aan de omgeving en kwaliteit van de motoriek op basis van het gedrag van het kind tijdens de testsituatie

2.2.1.2 Wechsler Intelligence Scale for Children – III (WISC-III)

▪ doelgroep: kinderen van 6 tot 16 jaar ▪ bestaat uit 13 subtests, peilend naar: - Verbale Intelligentie (bijv. Informatie,

Overeenkomsten) - Performantiële Intelligentie (bijv. Onvolledige Tekeningen, Figuur Leggen) ▪ afnameduur 75 minuten ▪ drie IQ-scores (M 100, SD 15) - Totaal IQ - Verbaal IQ - Performantieel IQ

24 ▪ drie factorscores - Verbaal

Begrip - Perceptuele Organisatie - Verwerkingssnelheid ▪ doelgroep: kinderen van 6 tot 16 jaar

▪ bestaat uit 13 subtests, peilend naar: - Verbale Intelligentie (bijv. Informatie, Overeenkomsten) - Performantiële Intelligentie (bijv. Onvolledige Tekeningen, Figuur Leggen) ▪ afnameduur 75 minuten

▪ drie IQ-scores (M 100, SD 15) - Totaal IQ - Verbaal IQ - Performantieel IQ

▪ drie factorscores - Verbaal Begrip - Perceptuele Organisatie -

Verwerkingssnelheid BSID: test voor baby’s Soms met behulp van ouders 1-42 maand Met mama in de kamer

2) individuele intelligentietests voor volwassenen bijv. Kaufmann Adolescent and Adult Intelligence Test (KAIT)

2.2.1.3 Kaufman Adolescent and Adult Intelligence Test (KAIT)

▪ doelgroep: adolescenten en volwassenen van 14 tot 85+ jaar ▪ bestaat uit 10 subtests, peilend naar: - Vloeiende Intelligentie (bijv. Logisch

Redeneren, Symbolen Leren) - Gekristalliseerde Intelligentie (bijv. Definities, Dubbele Betekenissen) - ‘uitgestelde reproductie’ .... ▪ afnameduur ....

▪ drie IQ-scores (M 100, SD 15) - Totaal IQ - Fluid IQ - Chrystallized IQ

2.2.1.4 Wechsler Intelligence Scale for Children – III (WISC-III)

▪ doelgroep: kinderen van 6 tot 16 jaar ▪ bestaat uit 13 subtests, peilend naar: - Verbale Intelligentie (bijv. Informatie,

Overeenkomsten) - Performantiële Intelligentie (bijv. Onvolledige Tekeningen, Figuur Leggen) ▪ afnameduur 75 minuten

▪ drie IQ-scores (M 100, SD 15) - Totaal IQ - Verbaal IQ

25 - Performantieel IQ

▪ drie factorscores - Verbaal Begrip - Perceptuele Organisatie - Verwerkingssnelheid

3) algemene collectieve intelligentietests

bijv. Nederlandse DifferentiatieTestserie (NDT)

3.1.1 tests voor prestatieniveau (pag. 78) Enkelvoudige algemene niveautests De eerste 2 van deze 3 soorten worden door een proefleider aan een enkel individu voorgelegd. De derde soort wordt aan alle individuen in een groep gelijktijdig voorgelegd. Individuele ontwikkelingstests Intelligentietestscore wordt meestal vergeleken met de testprestaties van leeftijdgenoten. Ook: intelligentietest voor visueel gehandicapte kinderen. -> gebaseerd op het model van Thurstone met 7 intelligentiefactoren -> de batterij bestaat uit diverse verbale en haptische (met betrekking tot tastzin) deeltests, waarvan enkele zijn ontleend aan de WISC en RAKIT → scores op deeltests worden bepaald → gecombineerd tot algemene intelligentiescores Individuele intelligentietests voor volwassenen Gericht op het vaststellen van intelligentieniveau wanneer de intelligentie min of meer als volgroeid kan worden beschouwd. Collectieve algemene intelligentietest Kan groepsgewijs worden afgenomen wanneer het testen grootschalig is en efficiëntie belangrijk is. het gaat bij deze tests om een indicatie van het algemene intelligentieniveau.

Er bestaan bijzonder weinig collectieve intelligentietests bedoeld voor de leeftijd voorafgaand aan de basisschoolleeftijd. Collectieve kinderintelligentietests = algemene collectieve schoolintelligentietests. Collectieve niet-verbale intelligentietests: beperkter qua intelligentiedomein → geen gebruik gemaakt van verbaal materiaal. Soms wordt ook de instructie niet verbaal, maar pantomimisch gegeven.

2.2.1.5 Nederlandse Differentiatie Testserie (NDT)

▪ doelgroep: leerlingen van 11 tot 15 jaar die in aanmerking komen voor plaatsing binnen het voorbereidend middelbaar beroepsonderwijs (vmbo)

▪ bestaat uit 9 subtests, peilend naar: - Redeneervermogen (bijv. Reeksen) - Verbaal vermogen (bijv. Overeenkomsten) - Ruimtelijk inzicht (bijv. Draaien) -Visueel werkgeheugen (bijv. Plaatjes Onthouden) - Semantisch werkgeheugen (bijv. Woordparen) + werktempo/nauwkeurigheid (Coderen)

26 ▪ afnameduur: 2 à 3 uur

▪ vier scores - IQ (Redeneervermogen, Verbaal vermogen, Ruimtelijk inzicht -> enigen die differentieerden met het voorbereiden op het beroepsonderwijs) - Werkgeheugen (Visueel geheugen, Semantisch geheugen) - werktempo - nauwkeurigheid

Men doet nooit obv het IQ alleen een advies over het onderwijs. Bv. hoever staat iemand in het leerproces

▪ categorie 2: veelvoudige algemene niveautests - doel = differentiatie in deelaspecten - voorwaarde: deeltests moeten afzonderlijk voldoende betrouwbaar zijn en onderling voldoende onafhankelijk - twee soorten

1) testbatterijen voor intelligentiefactoren bijv. Drenth testserie voor het hoger niveau (NAT, VAT, TNVA) -> is op een specifieke doelgroep gericht, nl. hogere intelligentieniveaus bijv. French Kit

Vooral deelaspecten, het bekomen van een totaalscore is niet nodig/mogelijk Meeste intelligentietests kunnen aan de uiteinden veel minder differentiëren (in bv. hoogbegaafden) Drenth testserie doet dit wel.

2.2.1.6 Drenth Testserie Hoger Niveau (DTHN)

▪ doelgroep: volwassenen binnen de hogere intelligentieniveaus ▪ bestaat uit drie onderdelen, die afzonderlijk of samen afgenomen kunnen worden: Test voor Niet-Verbale Abstractie (TNVA) Verbale AanlegTest (VAT) - Functies van Woorden - Verbale Analogieën - Woordenschat Numerieke AanlegTest (NAT) - Rekenvaardigheid - Cijferreeksen

▪ afnameduur: TNVA 30 min., VAT 105 min., NAT 45 min.

TNVA: abstracte redeneertest -> zeer weinig invloed van wat je op school geleerd hebt. Vooral vloeiende intelligentie -> de g-factor VAT: 3 delen: - functies van woorden (bv. welk woord in de tweede zin vervult dezelfde functie als London doet in de sleutelzin?)

- verbale analogieën (bv. wat staat tot kort zoals breed staat tot wat?)

27

- woordenschat (bv. je krijgt verklaringen van wat ‘vete’ betekent en moet dan het juiste aanduiden) NAT: 2 delen

- rekenvaardigheid - cijferreeksen (bv. reeksen aanvullen)

2.2.8 French Kit ▪ batterij van intelligentietaken, waarvan de factorstructuur gekend is ▪ voornamelijk gebruik voor onderzoeksdoeleinden

▪ vijf 2deordefactoren, waarop telkens een aantal 1steordefactoren laden: - vloeiende intelligentie (o.a. inductie, logisch redeneren, ...) - gekristalliseerde intelligentie (o.m. verbaal begrip, rekenvaardigheid,...) - visuele intelligentie (o.m. ruimtelijke oriëntatie, vizualisatie, spatiaal scannen,...) - kortetermijngeheugen (o.m. associatief geheugen, visueel geheugen,...) - productieve intelligentie (o.m. woordvlotheid, flexibiliteit met figuren,...) ▪ omdat de factorstructuur gekend is, kunnen taken uit de French Kit als referentietaak gebruikt worden om bij om het even welke andere taak te bepalen welk soort intelligentie gemeten wordt

French was iemand die een batterij van intelligentietaken had gemaakt die hij eigenlijk voor onderzoek wou gebruiken. Hij had een 40-tal taken gemaakt, nam die af bij grote groep mensen. → FA

▪ “Wat meet test x?” ÷Vergelijk de test met de opgaven uit de French kit en kies het type waarmee de test best overeenkomt ÷Lees af in factorieel schema welke de factoren van 1ste en 2de orde zijn

▪ “Welke test meet...?” ÷Bepaal de factoren van 1ste of 2de orde en ga na welke de bijhorende opgaven zijn uit de French Kit ÷Kies een test die lijkt op die opgaven

2) testbatterijen voor geschiktheden bijv. General Aptitude Testbattery (GATB)

Veelvoudige algemene niveautests (pag. 81) Nadere differentiatie en niet alleen, of soms helemaal niet, het algemene intelligentieniveau.

Testbatterij voor intelligentiefactoren Doel: elke deeltest meet een homogene dimensie van intelligentie Het meest uitgewerkte alternatief voor Thurstones factoren = systeem van intelligentiefactoren volgens Guilford. Structure of intellect – theorie = het beste op te vatten als heuristisch model.

Testbatterij voor geschiktheden ‘geschiktheden’: meer een maatschappelijke taak of een schooltaak, minder een structurele opbouw van intelligentie → al of niet zuivere abilities.

28 Testbatterij voor geschiktheden beweert de vermogens te meten die iemand in staat stellen zich voor een maatschappelijke taak of schooleisen te bekwamen. ‘geschiktheid’ = leergeschiktheid (hier) ‘leerfactoren’: vallen meestal niet samen met ‘intelligentiefactoren’ Categorie van leerpotentieeltests: bestaat uit speciale leertaken mbt (meestal bestaande) intelligentietests die extra info opleveren boven de gebruikelijke intelligentiescores.

2.2.1.7 General Aptitude Test Battery (GATB)

▪ meet cognitieve vaardigheden relevant om een veelheid aan functies met succes te vervullen

▪ 8 schriftelijke subtests, peilend naar: - Verbaal vermogen (Woordenschat) - Numeriek vermogen (Elementair Cijferwerk) - Ruimtelijk inzicht (Driedimensionale Ruimte) - Vormwaarneming (Gereedschap Vergelijken) - Waarneming van administratief materiaal (Namen Vergelijken) - Motorische coördinatie (Strepen Zetten) - Algemeen Leervermogen/Intelligentie (diverse)

▪ 4 apparatentests, peilend naar - Handvaardigheid (Plaatsen) - Vingervaardigheid (Monteren) afnameduur: 70 minuten

Eerste 3 komen ook terug in de intelligentiebatterijen Apparatentests: doetaken Strepen zetten: zo snel mogelijk 2 verticale en 1 horizontale streep zetten per vakjes

▪ categorie 3: speciale niveautests -toegespitst op een speciaal segment van begaafdheid - drie soorten

1) tests voor speciale intelligentiefactoren bijv. Raven Progressive Matrices (PM; redeneervaardigheid)

2.2.1.8 Raven Progressive Matrices

▪ figurale test met 60 meerkeuzevragen (5 sets van 12) ▪ meet algemene cognitieve capaciteiten(g-factor), waarbij geen gebruik wordt gemaakt van taal ▪ is geschikt voor autochtonen en allochtonen en op verschillende niveaus (o.a. onderwijs, selectie) ▪ geschikt voor een leeftijd van 6-60j+

2) tests voor speciale geschiktheden bijv. d2 Aandachts- en concentratietest bijv. Bourdon-Wiersmatest (aandacht en concentratie)

29

2.2.1.9 d2 Aandachts- en concentratietest

▪ doelgroep: volwassenen ▪ geteste persoon moet doelstimuli (d’s met twee apostroffen) identificeren in aanwezigheid van diverse afleiders

▪ resulteert in diverse maten: - werktempo (totaal aantal verwerkte tekens) - nauwkeurigheid (foutenpercentage, zowel overslaan als vergissen) - concentratieprestatie (totaal aantal correct – totaal aantal vergissingen) - variatie in tempo

3) tests voor speciale niet-intelligentiefactoren bijv. tests voor kleurenblindheid, handvaardigheid,...

▪ categorie 4: vorderingentests - doel = meten in hoeverre de onderzochte het doel van een opleiding bereikt heeft - verder onderscheid mogelijk tussen

-schoolvorderingentest (‘achievement test’): specifiek gericht op schoolse kennis

bijv. CITO-toetsen - vaardigheidstest (‘proficiency test’): gericht op vaardigheden buiten de directe cognitieve sfeer en kennis

Op geregelde momenten worden in scholen schoolvorderingstests afgenomen om te zien of de leerlingen kunnen wat ze zouden moeten kunnen volgens het leerplan

Vorderingentests (pag. 85) Een vorderingentest is niet hetzelfde als een kennistest, omdat het verkrijgen van kennis lang niet altijd uitsluitend, en soms zelfs helemaal niet, het doel van een opleiding is. Strikt genomen zijn de tests voor ‘reading comprehension’ (begrijpend lezen), ‘listening comprehension (begrijpend luisteren) en ‘arithmetic’ (rekenvaardigheid) ook vaardigheidstests.

▪ tests voor gedragswijze - focus op hoe iemand iets doet of op welke manier zijn prestatie of reactie plaatsvindt - geen vooraf gekende ‘goed/fout’-sleutel - meting van persoonlijkheidstrekken, voorkeuren, houdingen,... - ‘proef van bekwaamheid’, ‘beproeving’ - vragenlijst

Het gaat nu vooral om de vraag hoe iemand iets doet of op welke wijze de prestatie of reactie plaatsvindt. Het gedrag of de prestatie zijn niet van belang in verhouding tot een maximale prestatie.

3.1.2 tests voor gedragswijze (pag. 86)

30 3 specifieke problemen:

1) metingen van het prestatieniveau zijn vaak zonder veel moeite te generaliseren van een kunstmatige testsituatie naar het praktische of maatschappelijke functioneren. Heel anders bij gedragswijzen.

2) in het persoonlijkheidsonderzoek zijn er weinig objectieve gegevens die als criterium kunnen dienen en is men meestal aangewezen op een beoordelingsprocedure. Deze beoordelingen leiden helaas voornamelijk aan een gebrek aan objectiviteit en betrouwbaarheid.

3) persoonlijkheidstrekken zijn in vgl met capaciteiten vaak minder stabiel, minder over situaties generaliseerbaar en minder gelijkmatig van invloed op gedrag.

▪ categorie 1: observatietests - beoordelaar observeert de cliënt - aanvangsgegevens zijn al het resultaat van een informatieverwerkingsproces - twee soorten

1) individuele observatietests bijv. individuele opdrachten binnen assessment center

2.2.1.10 Assessment center: individuele opdrachten

Stel bijvoorbeeld dat je een verkoopsleider zoekt. Dan kunnen individuele opdrachten er zo uitzien:

▪ De kandidaat moet een presentatie verzorgen voor de directie over de aankoop van een softwaresysteem. Hij moet kiezen tussen drie softwaresystemen en vervolgens zijn keuze funderen. (presentatie) ▪ De kandidaat moet een functioneringsgesprek voeren met een jonge verkoper, waarover de klanten de laatste tijd klachten hebben. Hij moet peilen naar de oorzaken van het minder presteren en samen met hem een oplossing vinden. (gesprekssimulatie) ▪ De kandidaat moet een bakje met post (klachtbrieven, uitnodigingen,...) ordenen en de juiste prioriteiten stellen. Hij merkt bijvoorbeeld dat de eigenaar van het postbakje drie afspraken tegelijk heeft: met de juf van zijn dochtertje, met zijn collega, met een potentiële grote klant. Aan hem om te beslissen welke afspraak voorrang heeft. (postbakoefening) Duidelijk gestructureerde opdrachten

2) groepsobservatietests bijv. groepsopdrachten binnen assessment center

Groepsopdrachten: bv. groepsdiscussie: vergadering van sollicitanten

men moet proberen gewicht te leggen op de beslissing.

Observatietests De gegevens zijn indirect en vormen de basis van het interpretatieproces van de psycholoog.

Individuele observatietests

31 De rol van observator kan variëren: Volledige betrokkenheid en deelname aan het proces ↕ Neutrale toeschouwer (de geobserveerde is zich bewust van de

aanwezigheid van de testleider) → one-way screen

Groepsobservatietests Een meer gestructureerde opdracht met toewijzing van verschillende rollen. Bv. maken van een stadplattegrond. In eerste instantie denkt men bij groepsobservatietests aan een groep onderzochte personen die een taak uitvoert en een observator die de gedragingen en prestaties registreert en interpreteert. MAAR het kan ook anders: deelnemers beoordelen elkaar + psycholoog

verwerkt deze beoordelingen. Bv. samenstellen van een sociogram. (pag. 88)

2.2.1.11Assessment center: groepsopdrachten opdrachten

Stel bijvoorbeeld dat je een verkoopsleider zoekt. Dan kan een groepsopdracht er zo uitzien:

▪ De kandidaat moet met de andere sollicitanten een vergadering voeren over de verdeling van een extra budget. Het is de bedoeling dat hij zoveel mogelijk geld binnenrijft. (groepsdiscussie)

▪ categorie 2: somatofysiologische methoden - psychologische kenmerken wordt afgeleid uit meting van lichamelijke kenmerken of processen - twee soorten 1) morfologische methoden (vooral historisch belang)

bijv. fysiognomiek, zoölogische methode, frenologie,... 2) fysiologische methoden

bijv. EEG, hersenscans, huidgeleiding,...

Somatofysiologische methoden (pag. 88) Morfologische methoden Fysiologische methoden -Biochemische indices: voor de registratie van hormonale en andere biochemische processen; ook DNA-sequenties voor de meting van erfelijkheid. -Elektro-encefalogram (EEG): voor de meting van spanningsverschillen en – schommeling in het verloop hiervan in de hersenen. -Andere ‘brainscanners’: voor de bestudering van vooral disfunctionerende hersenfuncties. Bv. CAT-scans, MRI, PET en squids -Electrocardiogram (ECG): voor de psychofysiologie belangrijke frequentie en regelmaat in de hartslag. -Metingen van bloeddruk en bloedvolume -Registratie van oogbewegingen, oogposities en pupildiameter -Meting van electrodermale verschijnselen. Bv. skin conductance, galvanic skin response en skin potential reflex.

32

▪ categorie 3: zelfbeoordelingen - meestal in de vorm van vragenlijsten - vier soorten 1) interessetests

bijv. beroepeninteressetests Interessetest -> in het kader van beroepsoriëntering, schoolbaan begeleiding. Voorkeuren voor bepaalde richtingen/loopbanen

2) waarde- en attitudetests

bijv. Schaal voor Interpersoonlijke Waarden (SIW)

2.2.1.12 Schaal voor Interpersoonlijke Waarden (SIW) ▪ meet wat mensen belangrijk vinden in hun sociale relaties ▪ bestaat uit 30 groepen van drie uitspraken, waarvan telkens de ‘meest belangrijke’ en de ‘minst belangrijke’ aangeduid moeten worden

▪ peilt naar zes soorten waarden: - Sociale Steun - Conformiteit - Erkenning - Onafhankelijkheid - Altruïsme - Leiderschap ▪ afnameduur: 15 minuten

Instrument dat nog vrij veel gebruikt wordt Volgens het format van gedwongen keuze. Afwegen van uitspraken.

3) biografische vragenlijsten bijv. gestandaardiseerd anamneseformulier Het gaat over het feit dat je

zowel in groepsafnames (bv. in het kader van onderzoek) maar ook in individuele psychodiagnostiek nood hebt aan biografische gegevens.

÷persoonlijkheidsvragenlijsten bijv. MMPI-II + zie ook verder

Zelfbeoordelingen Als uit empirisch onderzoek een bepaald patroon in de instellingen en ontkenningen op de vragen wordt gevonden, dan mag men aannemen dat hieraan een gemeenschappelijke instellingen of attitude ten grondslag ligt. Men kan verdere analyses baseren op de wijze van beantwoorden ipv op de inhoud van de antwoorden.

Interessestests Waarde- en attitudetests Gebruikt om na te gaan in hoeverre iemand dogmatisch conservatief en bevooroordeeld staat tegenover diverse politieke, culturele en sociale verschijnselen.

Biografische vragenlijsten Persoonlijkheidsvragenlijsten

33 Gericht op een ruime keuze en een rijke variëteit aan aspecten van de persoonlijkheid → persoonlijkheid in engere zin. Op 3 manieren

geconstrueerd: 1) zuiver empirisch. Samengesteld obv een relatie met een relevant geacht criterium. 2) Ontstaan uit een grote hoeveelheid persoonlijkheidsitems, gegroepeerd mbv statistische methoden zoals FA en clusteranalyse. 3) Primair gebaseerd op een theorie omtrent de persoonlijkheid of temperament.

2.2.1.13 Minnesota Multiphasic Personality Inventory-2 (MMPI-2)

▪ vragenlijst bestaande uit 557 items te beantwoorden met ‘akkoord/niet akkoord’ ▪ tien klinische schalen (empirische constructiewijze) ▪ zeven validiteitsschalen ▪ vijftien inhoudsschalen

10 klinische schalen zijn via de empirische constructie opgesteld Validiteitsschalen: proberen na te gaan hoe betrouwbaar de antwoorden zijn die gegeven worden. Bv. doen mensen zich meer gestoord voor dan anders. Om zich bv. niet in de dienstplicht te moeten

4) andere methoden: - Osgood schalen / semantische differentiaal veelheid aan polariteiten is te beschrijven in termen van drie dimensies: ° evaluatie (goed/slecht) ° activiteit (actief/passief) ° potentie (sterk/zwak) + dimensies zijn niet sterk cultuurgebonden

- Role Construct Repertoire / Rep-test ° gebaseerd op theorie Kelly: persoonlijkheid bestaat uit een reeks ‘constructs’ die voor iedere mens uniek zijn ° Reptest is erop gericht om voor gedrag relevante sociale begrippen en connotaties bloot te leggen - Q-technique / Q-sort ° onderzochte moet een serie uitspraken sorteren in stapeltjes ° wordt gebruikt voor vergelijkingen, bijv. ‘huidige zelf’ versus ‘ideaal zelf’ Men geeft op voorhand een aantal categoriën. Een soort schaal. Bij een Q-sort wordt op voorhand bepaald hoeveel items je in elke categorie mag hebben. Men doet dit adhv de normaalverdeling. In het midden meer dan aan de zijkanten -> vaak met kaartjes gedaan.

▪ categorie 4: kwalitatieve prestatietests ÷cliënt krijgt opdracht; niet goed of fout uitvoeren is van belang, wel wijze waarop → informatief met het oog op een bepaalde persoonlijkheidstrek of een klinisch syndroom ÷twee soorten

1) niveautests voor gedragswijze

•experimentele tests (bv. pijndrempel, figurale na-effecten)

34 •motoriektests (bijv. tapping) Bedoeling is om iets af te leiden van

iemands persoonlijkheidskenmerken of hoog/laag scoren op bepaalde ziektebeelden. Niveautests voor gedragswijze: je moet iets doen en er moet een zekere prestatie geleverd worden. Bv. tapping test: kan correleren met impulsiviteit •intelligentietests voor klinisch gebruik (bijv. Bender Gestalt test) Indicaties van

hersendisfuncties: hoe iemand doet is belangrijker dan wat de uiteindelijke output is. Bender Gestalt test: figuren overtekenen: hoe vlot, welk systeem in het overtekenen.

•karaktertests Karaktertests: tests voor perstatieniveau: hoe volhardend iemand is bv.

•tests voor cognitieve of perceptuele stijlen (bijv. Embedded Figures Test) Embedded figures test: test voor perceptuele stijl waarbij men kijkt van hoe goed

iemand is van kleinere figuren zoeken in een groter geheel.

Kwalitatieve prestatietests Verschil tussen 2 soorten tests (niveautests voor gedragswijze en projectietests) is dat het bij niveautests gaat om een prestatie die beoordeeld wordt met de norm voor wat ‘goed’ en ‘fout’ is. Bij de projectietests is er niet meer sprake van een niveauscore, maar werkt de psycholoog met coderings- en interpretatiescategorieën, die uitgaan van kwalitatieve kenmerken van reacties op de testopgaven.

Niveautests voor gedragswijze Experimentele tests: mate van conditioneerbaarheid, oplettendheid, verschijnselen bij perceptuele taken, zoals nachtzien, figurale na-effecten, positieve of negatieve tijdfouten en reactietijden. Motoriektests: coördinatieproeven, motorisch reacties en onvrijwillige rustpauzes bij vingervlugheidstaken. Intelligentietests voor klinisch of diagnostisch gebruik: intelligentietests die gebruik worden voor de diagnostiek van disfuncties in de hersenen en hersenbeschadiging (bv. Bender Gestalt test). Ook vele intelligentietests die gebruikt worden in de neuropsychologie. Karaktertests: volhardingstests → vaak onbetrouwbaar, maar wat ze meten varieert sterk met de tijd en het zedelijke ‘klimaat’. Cognitieve of perceptuele stijlen: wijze waarop info door de persoon wordt georganiseerd.

2) projectieve technieken •perceptietests, bijv. Rorschach

•interpretatietests, bijv. Thematic Apperception Test (TAT), Children’s Apperception Test (CAT)

▪ categorie 4: kwalitatieve prestatietests

35 ÷cliënt krijgt opdracht; niet goed of fout uitvoeren is van belang, wel wijze waarop ÷twee soorten 1) niveautests voor gedragswijze 2) projectieve technieken •perceptietests •interpretatietests •expressietests, bijv. Boomtest •constructietests, bijv. Wereldspel Constructietest kan

ook zijn: opstel over ‘mijn leven als dier’ •associatietests, bijv. Zinaanvultest •keuzetests, bijv. Szondi Kwalitatieve prestatietests Projectietests Ambigue

opdracht wordt gepresenteerd, waarop de onderzochte vrij mag reageren.

2.2.2 Classificatie volgens instructie en afneming

▪ individuele tests versus groepstests - individuele test: testleider formuleert vragen/opdrachten en registreert reacties/prestaties van de onderzochte tijdens een individueel contact ÷populair in Europa ÷voordelen:

¢onderzochte kan gestimuleerd worden indien nodig (bv. als hij zijn best niet doet) ¢testleider kan nagaan of onderzochte instructies begrepen heeft ¢mogelijkheid tot observatie en verzamelen kwalitatieve gegevens

Afweging maken, wat is een meerwaarde van de informatie

3.2 indeling naar instructie en afneming (pag. 106) 3.2.1 individuele tests en groeptests Bij de individuele afneming krijgt men meer info, maar dit is niet altijd noodzakelijk. Het kan zelfs bezwaarlijk zijn omdat deze info niet op een gestandaardiseerde wijze wordt verkregen. Gevaar: allerlei toevallige gedragingen en reacties worden serieus genomen. Uit nogal wat empirisch onderzoek is gebleken dat het meenemen van dit soort van subjectieve info in het oordeel niet tot betere voorspellingen leidt (en soms zelfs tot slechtere) in vgl met de voorspelling obv de

testuitslagen alleen. Het verzamelen van deze extra gegevens leidt voor het merendeel slechts tot hypothetische conclusies, die nader onderzoek behoeven. Dergelijke gegevens kúnnen dus een goed aanvulling op de test zijn, maar vaak zijn zij overbodig en zelfs hinderlijk.

Verschillende mogelijkheden: •Groepstests - schriftelijk: antwoorden op de testformulieren of op aparte

antwoordformulieren - via een beeldscherm: antwoorden via een toetsenbord

36 •Individuele tests - schriftelijk - computer - mondeling:

antwoorden op gestelde vragen - verrichtingstest: handeling of werkzaamheid uitvoeren.

- groepstest: testleider geeft collectieve instructie voor hele groep tegelijk, surveilleert, geeft aanwijzingen tijdens afname en zamelt de voltooide opgaven in ÷moeilijker in bepaalde culturen, bij jonge kinderen en bij patiënten ÷optimale groepsgrootte hangt af van aard test, doel onderzoek en leeftijd onderzochte groep ÷voordelen: ¢efficiënt, besparing van tijd en geld

▪ snelheidstests versus niveautests - snelheidstest: peilt naar snelheid waarmee de onderzochte kan werken

¢maat = aantal opgaven dat onderzochte kan voltooien binnen bepaalde tijd ¢aantal opgaven is groter dan wat de meeste mensen binnen de voorziene tijd kunnen voltooien ¢alle opgaven hebben ongeveer zelfde moeilijkheidsgraad ¢opgaven zijn makkelijk zodat er nauwelijks fouten gemaakt worden

3.2.2 snelheidstests en niveautests (pag. 107) ‘speed test’ vs. ‘power test’ Snelheidstest: Als er al fouten worden gemaakt, wordt er bij de scoring meestal geen rekening mee gehouden. Prestatieniveautest: toegestane tijd is begrensd, maar voldoende (geen tijdsdruk)

- niveautest: peilt naar het prestatieniveau dat de onderzochte behaalt ¢maat = aantal correct opgeloste opgaven ¢opgaven variëren in

moeilijkheidsgraad ¢opgaven worden meestal in volgorde van oplopende moeilijkheidsgraad voorgelegd ¢er wordt geen tijdsdruk opgelegd

2.2.3 Classificatie volgens aard van de vragen

▪ cultuurvrije versus niet-cultuurvrije tests - cultuurvrije test: test die (vrijwel) geen appèl doet op condities die door cultuur en onderwijs worden beïnvloed

37 ¢bij uitstek geschikt voor onderzoek naar verschillen tussen volkeren en culturen in psychologische eigenschappen ¢gradueel begrip: volledig cultuurvrije tests bestaan niet ¢vaak nonverbaal, omdat taal bij uitstek cultuurbepaald is ¢voorbeeld: Raven Progressive Matrices

Bv. het begrip ‘skill’ Iedereen heeft altijd ook onderliggende vaardigheden die niet willen worden gemeten in de test, maar die zich wel voordoen. Aangezien sommige culturen (doordat ze bv. kunnen lezen wat er staat) voorstaan op anderen moet de invloed van deze ‘skills worden beperkt. Dit kan op 3 manieren: zie pag. 111

- niet-cultuurvrije test: test die een appèl doet op condities die door cultuur en onderwijs worden beïnvloed

¢verbale tests zijn bijna vanzelfsprekend niet-cultuurvrij ¢ook veel niet-verbale tests zijn cultuurbepaald (bijv. verwijzing naar westerse schoolcontext)

▪ directe versus indirecte tests - directe test: test waarbij het voor de onderzochte duidelijk is wat men wil meten of voorspellen ¢prestatieniveautests ¢vorderingentests ¢biografische informatievragenlijsten ¢opinievragenlijsten ¢attitudetests ¢... 3.3.2 directe tests en indirecte tests Indirecte tests: alle projectiemethoden, omdat de onderzochte hierbij geen of een onjuist idee heeft van wat de psycholoog uit de antwoorden of reacties afleidt. Bv. plaatjes interpreteren, associaties en zinaanvullingen. De meeste zelfbeoordelingen en persoonlijkheidsvragenlijsten zijn indirect.

3.3.3 vrije antwoordentests en keuzeantwoordentests vrije-antwoordenvorm: de

onderzochte moet zelf het antwoord bedenken en formuleren. keuze-antwoordenvorm: de onderzochte moet een keuze te maken uit vooraf door de testconstructeur geformuleerde antwoordmogelijkheden. Andere termen: open vs. gesloten vragen ongecodeerde vs. geprecodeerde vragen. Opmerking: de term

‘vraag’: ongelukkig gekozen → bedoeld: antwoord

2.3 De gangbare procedure voor het meten van psychologische eigenschappen (pag 61)

▪ Psychologische eigenschappen worden ondersteund door theorieën - Dit zijn alle eigenschappen die niet samenvallen met de operaties die men moet verrichten om ze te meten

38 ▪ Het toekennen van scores (getalswaarden) aan een prestatie op een intelligentietest of het vaststellen van de hoeveelheid indicaties van agressie of frustratie in een projectietest is in deze opvatting nog geen ‘meten’. ▪ Men kan pas van meten spreken als vanuit dit ‘getelde aantal’ een conclusie volgt over de eigenschap in kwestie

Toepassingen:

▪ Beoordeling van individuen •Voorspelling over een in de toekomst gelegen criterium aan de eisen waarvan

men al of niet kan voldoen •Advies in de keuze tussen minstens 2 opties, die kwalitatief of kwantitatief

van elkaar verschillen •Vergelijking tussen verschillende vaardigheden of interesses van een zelfde

persoon •Vergelijking tussen de scores van een zelfde persoon op verschillende momenten

•Beschrijving van een persoon •Niet-directieve vorm van therapie

Wanneer de prestaties op een test of een serie tests een relatie blijken te vertonen met het criteriumgedrag, dan kan de testprestatie worden gebruikt om een voorspelling te doen van mogelijk succes in opleiding of beroep, op een moment dat

iemand hier nog niet aan begonnen is.

In zeer uiteenlopende situaties: • Situatie waarin voorspellingen worden gedaan over een veelal in de toekomst

gelegen prestatie (=criterium) aan de eisen waarvan men al of niet kan voldoen. Bv. al dan niet voltooien van een training, opleiding of studie, of het al dan niet voldoen in een functie of beroep. Wanneer nu de prestaties op een test of een serie tests een relatie blijken te vertonen met dit criteriumgedrag, dan kan de testprestatie worden gebruikt om een voorspelling te doen van mogelijk succes in opleiding of beroep, op een moment dat iemand hier nog niet aan begonnen is. •Keuzemogelijkheid tussen ten minste 2 opties. Bv. welke opleiding of

studierichting een lln moet kiezen → niet voldoende dat de tests correleren met de criteria, maar er moet ook een differentiatie mogelijk zijn tussen verschillende alternatieven.

• Het geval dat men wil weten wat de zwakke en sterke kanten van een kandidaat zijn, of in welke gebieden een cliënt meer of minder is geïnteresseerd → ipsatieve scores • Bv. longitudinaal onderzoek

• Hypothesevormende fase van het individueel onderzoek. Ook wordt soms gevraagd naar een externe rapportage, bv. door ouders.

• Samen met de cliënt analyseren, bewust maken en herformuleren van het probleem waarmee de cliënt wordt geconfronteerd, en dat een barrière betekent voor het aangepast en geïntegreerd deelnemen aan het maatschappelijk proces of het onderhouden van goede relaties.

Beoordeling van groepen ▪ onderzoek naar verschillen tussen groepen

39 dit soort onderzoek heeft belang voor de keuze van een goede vergelijkingsgroep in individuele diagnostiek Beoordeling van invloed van situaties of methoden

▪ onderzoek naar verschillen groepen die van elkaar verschillen in experimentele condities ▪ ‘averechtse diagnostiek’

Beoordeling van groepen Onderzoek naar groepsverschillen in intelligentie, persoonlijkheid en andere psychologische kenmerken vormt het centrale thema in de

psychologische subdiscipline ‘cross-culturele psychologie’. Hierin wordt vooral het accent gelegd op verschillen tussen etnische en culturele populaties. Gaat vooral over: de grootte van het verschil tussen de groepen mbt de bestudeerde eigenschap. Individueel onderzoek is ook altijd gebaseerd op verschillen tussen groepen. Het onderzoek naar groepsverschillen maakt het mogelijk om in het individuele testonderzoek een vergelijking van het individu met de voor hem relevante normgroep uit te voeren en een zinvolle uitspraak te doen. Maar ook verder grijp individuele diagnostiek altijd terug op onderzoek naar groepsverschillen.

Beoordeling van invloed van situaties of methoden Onderzoek van groepsverschillen: -noodzakelijke voorwaarde voor individuele diagnostiek -Nodig voor de beoordeling van methoden en situaties Voor de vraag of de ene procedure in het algemeen effectiever is dan een andere zal men een groep ppn aan de ene procedure en een andere vergelijkbare groep ppn aan de andere procedure moeten onderwerpen. Bv. zie pag. 71

Averechtse diagnostiek: als een bepaalde test iets zegt over een bepaald criterium, krijg je niet alleen info over de test, maar ook over het criterium. Bv. in een testonderzoek in Indonesië bleek dat vooral redeneertests en probleemoplossingtests de studieprestaties in sociale wetenschappen en geneeskunde voorspelden, terwijl de meer schoolse kennis en concentratiegerichte tests de prestaties in farmacie en lerarenopleiding voorspelden.

▪ 4 stappen om te komen tot een meting 1)Identificatie van de te meten eigenschap 2)Operationalisering van de eigenschap 3)Onderzoek en kwantificering van reacties 4)Terugkoppeling naar de theorie

1) •Er wordt vastgesteld wat de theorie is mbt de te meten eigenschap, of de rivaliserende theorieën van deze eigenschap worden in kaart gebracht

40 •Probleem: mbt vele psychologische eigenschappen is de theorievorming maar

matig ontwikkeld, terwijl voor andere eigenschappen geldt dat de status van deze

theorieën onduidelijk of zelfs betwijfelbaar is. - Bv. creativiteit, leiderschap, sociale intelligentie

•Grootste probleem: de categorie van eigenschappen met een theoretisch onduidelijke of dubieuze status •Van een theoretische onderbouwing, gefundeerd door grondig empirisch onderzoek,

is geen sprake. Zonder deze onderbouwing is een zinvolle meting onmogelijk •De eigenschap valt dan samen met datgene dat de test meet

2) •Hiermee wordt bedoeld: de specificatie van de operaties die nodig zijn om de eigenschap te meten. •Psychologische eigenschappen zijn niet direct waarneembaar in het gedrag, en

de operaties die nodig zijn om de eigenschap te meten, vallen niet samen met deze eigenschap, maar zijn er altijd minstens 1 niveau verwijderd. •2 stappen: 1. de operationalisering vereist dat een domein van gedragingen

wordt gedefinieerd die typisch zijn voor de bedoelde eigenschap → gevolg: het gedragsdomein is moeilijk af te bakenen

2.het hierop afstemmen van een domein van stimuli die aan proefpersonen kunnen worden gepresenteerd om reacties uit te lokken die een indicatie geven van de bedoelde eigenschap. •Deze stimuli zijn items. Soorten items: uitspraken, taken en vragen.

3) •De reacties van personen op de items geven informatie over de eigenschap

waarover de test wordt geacht uitsluitsel te geven → reacties = kwalitatief •De kwantificering bestaat er nu in dat aan de reacties in de hogere categorie een

hogere numerieke waarde (een score) wordt toegekend. Cruciaal is hier nu dat het gaat om een hypothese, die bij nadere toetsing juist maar ook onjuist kan blijken te zijn. Dit wordt bepaald met behulp van een statistisch testmodel. •In de fase van de constructie van een test: scores op items verzameld door de

proefversie van de test voor te leggen aan een steekproef van proefpersonen. Deze itemscores worden geanalyseerd mbv 1 of meer testmodellen. Dit zijn statistische modellen waarin is gespecificeerd aan welke eisen de gegevens dienen te voldoen, wil er sprake zijn van een meting. •Vindt men inderdaad in de testgegevens dat alle correlaties tussen itemscores

positief zijn en ongeveer even groot, dan wordt dit gezien als een ondersteuning van de hypothese dat de items gezamenlijk 1 en dezelfde eigenschap meten.

4) •Blijkt de uitkomst inderdaad aan te geven dat de test de bedoelde eigenschap meet

en dat verder aan een aantal technische eisen voor een geslaagde meting is voldaan, dan heeft men niet alleen een goed meetinstrument in handen, maar is er aanvullende evidentie gevonden voor de theorie van de achterliggende eigenschap. Deze theorie bestaat doorgaans uit het nomologisch netwerk, een theorie ter verklaring van de waarneembare verschijnselen waarbinnen de gemeten eigenschap een plaats heeft. •Niet-succesvolle of anders dan verwacht verlopen testconstructie: theorie herzien

of kiezen voor 1 van de rivaliserende theorieën.

41 •Het testgedrag zelf heeft geen intrinsieke waarden. Praktisch niet, want het gaat

immers meestal om voorspellingen van ander gedrag, en theoretisch ook niet, aangezien men niet aan wetenschapsontwikkeling doet als men zich uitsluitend met operationele begrippen bezighoudt.

- indirecte test: test waarbij het voor de onderzochte niet duidelijk is wat men wil meten of voorspellen ¢projectieve methoden

•Rorschach voorgesteld als ‘fantasietest’ •Boomtest voorgesteld als ‘tekentest’

¢vragenlijsten met indirecte vragen

HOOFDSTUK 3: KENMERKEN VAN EEN WETENSCHAPPELIJK ONDERBOUWDE TEST

Moeten we, als we een uitspraak willen doen over de eigenschappen van een persoon, wel een test gebruiken?

Hoe onderscheidt een wetenschappelijk onderbouwde psychologische test zich van het voorwetenschappelijke oordeel?

Pag. 41 Kenmerken van een test -6 kenmerken waarop een goede test in de meest gevallen in het voordeel is tov het voorwetenschappelijk oordeel: 1)Efficiëntie bv. intelligentie (pag. 41) De testconstructeur heeft een verzameling van opgaven geselecteerd of geconstrueerd, die alle optimaal een beroep doen op het intelligente reageren.

2) Standaardisatie om iets verstandigs over een testprestatie te kunnen zeggen, dient deze

vergelijkbaar te zijn met de prestaties van anderen. Wil men de onderzochte ter vgl naast anderen plaatsen, dan moet men de betrokkenen in gelijke omstandigheden hebben zien handelen. Het beste bereikt men dit door die situatie te standaardiseren. Bij een goede test wordt de vergelijkbaarheid van prestaties bereikt door de condities en invloeden die op de testprestatie kunnen inwerken zoveel mogelijk te standaardiseren. Dit is ook een belangrijke reden om een uitvoerige handleiding te hebben. Bij volledige afwezigheid van enige standaardisatie in de testsituatie is niet meer sprake van een ‘test’.

3) Normering Bij grote verschillen zijn er niet zoveel problemen, maar voor de vaststelling van

kleinere verschillen is een gevoeliger instrument nodig dat niet uitgaat van de grove maatstaven die in het lekenoordeel worden gebruikt. In het normeringsonderzoek is op zijn minst een rangorde vastgesteld van zeer goed tot zeer slechte prestaties, zodat iemands prestatie dmv een plaatsbepaling in deze rangorde kan worden beoordeeld.

42 Het vaststellen van een rangorde = eenvoudigste vorm van normering.

Vaak kunnen de afstanden tussen testscores in een normering worden opgenomen.

Men zou vervolgens deze discrete verdeling kunnen benaderen met een normaalverdeling. → is de benadering redelijk: vaststellen van gemiddelde en standaarddeviatie + schaal van testscores omzetten naar schaal normaalverdeling. De benadering met een normaalverdeling doet men doorgaans als de steekproef uit een normaalverdeelde populatie afkomstig is, en men steekproeffouten wil gladstrijken.

De beschikbaarheid van normen is meestal een noodzakelijke voorwaarde voor het gebruik van een test. In een enkel geval kan men volstaan met een ongenormeerde test.

Bv. experimenteel onderzoek, waarin een relatie wordt nagegaan tussen een test en een andere variable.

Bv. in situaties, waarin slechts binnen de onderzochte groep beslissingen moeten worden genomen, zodat een rangorde volstaat. Bv. selectie van de beste 10 kandidaten.

De beschikbaarheid van normen is nodig bij het gebruik van alle soorten

tests. Dus ook bij observatietests en projectieve technieken.

4) Objectiviteit -> onafhankelijkheid van storende invloeden vanuit de persoon van de

waarnemer, beoordelaar of interpretator. De test moet vrij zijn van testleider gebonden invloeden. Bij objectiviteit is het

resultaat van het onderzoek onafhankelijk van de persoon van diegene die gegevens verzamelt of uitwerkt.

2 gevolgen: 1) bij het objectieve testonderzoek moet het voor de onderzochte niet uitmaken wie de beoordelaar is. De objectiviteit waarborgt in alle gevallen een gelijke registratie en een gelijke beoordeling van zijn prestaties.

2) objectiviteit impliceert openheid en reproduceerbaarheid van de testen evaluatieprocedure. De privé-introspecties en de subjectieve, aan de testleider

gebonden methoden van observeren, registreren en interpreteren, zijn niet objectief en het is vrijwel uitgesloten dat een ander op deze wijze tot dezelfde resultaten komen. Tests zijn niet allemaal zonder meer objectief

→ schriftelijke tests met 2 of meer antwoordmogelijkheden per vraag = heel objectief → opstel of essay = weinig objectief → observatietests = weinig objectief → projectietests = weinig objectief Toch is het mogelijk om bij observatietests en projectietests een verantwoorde mate van objectiviteit te bereiken → door zich bij de oordeelsvorming zoveel mogelijk te baseren op het direct waarneembare gedrag. Hoe groter de inbreng van de beoordelaar in het proces van verwerken van testgegevens, hoe groter de kans op een subjectieve beïnvloeding van dit proces. De reden waarom mensen eerder subjectief zullen handelen, is dat een niet-objectieve verwerking een veel grotere relevantie lijkt te hebben. Bv. TAT

5) Betrouwbaarheid

43 Bv. lichaamslengte van een groep kinderen pag. 50 Doordat we tussen 2 metingen bijzonder weinig verschillen vinden, zeggen we dat de meting betrouwbaar is. Bv. intelligentietest pag. 51 Dezelfde condities: dezelfde testsituatie, instructie en proefleider, hetzelfde tijdstip van de dag, enz.

Problemen: het is niet eenvoudig en vaak zelfs onmogelijk om 2 onafhankelijke metingen te verkrijgen.

De reden waarom een hoge betrouwbaarheid vereist is, is dat het niet zou

mogen uitmaken wanneer iemand getest wordt.

6) Validiteit De vraag naar de validiteit betreft de kwestie of deze indicaties de juiste zijn, dus

of men hierin inderdaad een manifestatie van de intelligentie mag veronderstellen. Van een goede test is de psychologische betekenis bekend. Er is dus geen (sterk) verschil van mening mogelijk over de interpretatie en de betekenis van de testprestatie. Deze betekenis moet empirisch geverifieerd zijn.

3.1 Efficiëntie

▪ testconstructeur heeft verzameling van opgaven geselecteerd of geconstrueerd die optimaal een appèl doen op de te meten eigenschap ▪ diagnosticus creëert een testsituatie waarin bijkomstigheden en storende invloeden zo veel mogelijk worden geweerd

Eerste kenmerk van een goede test: efficiëntie

voorbeeld 1: intelligentietest - bestaat uit taken die voor hun oplossing een beroep doen op diverse belangrijke aspecten van intelligentie - geeft in enkele uren tijd vrij volledig beeld van intelligentie, terwijl vergelijkbare observatie van gedrag ‘in vivo’ meerdere dagen in beslag zou nemen

voorbeeld 2: persoonlijkheidsvragenlijst - aan respondent wordt gevraagd zich een voorstelling te maken van groot aantal situaties en hoe hij/zij er typisch op reageert - via zelfrapportering respondent krijgt men op korte tijd indruk van belangrijkste persoonlijkheidskenmerken, in plaats van langdurige observatie

3.2 Standaardisatie en objectiviteit

▪ Testonderzoek is een complex proces want grote verschillen tussen:

44 - testsituaties - onderzochte personen - proefleiders - tests

▪ Belang van standaardisatie - bij zowel afname als scoring - voorwaarde voor vergelijkbaarheid van testprestaties of -scores Trainen voor het afnemen van een test is belangrijk, omdat iedereen de test op een gestandaardiseerde manier kan afnemen.

5.1 tests afnemen (pag. 146) 1)zakelijk neutraal (bv. schriftelijke test, persoonlijkheidstest, schriftelijk tentamen) – vorm van onderzoek die zowel van de ppn als van de proefleider een hoge mate van persoonlijke inzet vereist (bv. rollenspel, test voor leerpotentieel) 2)Test-wiseness = testervaring 3)Variatie in training, ervaring, inzicht, sensitiviteit en bereidheid tot contact 4)Instructietechniek bv. RAKIT

▪ testsituatie - instructie goed uitgewerkt - proefleider houdt zich aan instructie - opvallende of specifieke omgevingsinvloeden worden geweerd (temperatuur, geluid, helderheid van licht, lichtinval, ventilatie, schrijfcondities) - storingen tijdens testafname worden voorkomen - (bij groepstests) samenwerken of afschrijven wordt verhinderd •handleidingen: hoe je moet zitten, wat je moet doen

De objectieve testsituatie (pag. 147) Standaardisatie = de onderzochten worden in maximaal gelijke omstandigheden getest Apart geval: tests met een snelheidskarakter → hier is opperste concentratie nodig in combinatie met snelheid van werken.

▪ proefpersoon - vermoeidheid, emotionele opwinding,... - (vermeende) verwachtingen proefleider inlossen - sociale wenselijkheid -vertrouwdheid met specifieke test of testonderzoek in algemeen - motivatie - angst

Proefpersoon standaardiseren ligt al moeilijker. De situatie ook zo goed mogelijk gelijk houden

Gedrag van de proefpersoon Personen reageren

heel verschillend op stimulansen -Prijzen

45 -Goedkeuren -Belonen Negatieve prikkels -Afkeuren -Waarschuwen -Verwijten Verschillende van deze reacties van de proefleider zullen weinig bevorderlijk zijn voor de standaardisatie van het onderzoek.

Motivatie: bv. pogingen om afgekeurd te worden voor de militaire dienst Angst voor de gevolgen: bv. teleurstelling bij de onderwijzer of ouders, niet toegelaten worden tot een opleiding, fel begeerde functie mislopen of angst voor prestigeverlies. Testangst (state anxiety) wordt onderscheiden van de meer stabiele persoonlijkheidstrek angstigheid (trait anxiety) -> situatie-invloeden gelden minder Positieve faalangst: bevorderende werking op prestatie → = vorm van extraversie of impulsiviteit Negatieve faalangst: stoort de prestatie. → = vorm van angst => Geringe mate van angst is bevorderlijk, zeer sterke angst is schadelijk

▪ proefleider - interactie met proefpersoon (vooral bij individuele afname) - onervarenheid (mbt specifieke test of testonderzoek in algemeen)

Gedrag van de proefleider (pag. 150) Minder eenvoudig ligt het bij psychologische mechanismen Bv. •Vooroordelen •sympathieën en antipathieën •blijvende invloed van een – ook onjuiste- eerste indruk •in latere testresulateten willen terugvinden wat men aanvankelijk reeds vermoedde •de tendens om ‘ideaaltypen’ te ontdekken – de ‘echte’ pycnicus, de ‘echte’

gevoelsarme psychopaat •poging om populaire, maar empirische niet ondersteunde theorieën te bevestigen.

Dergelijke mechanismen kunnen het oordeel vertroebelen zonder dat de testleider zich dit altijd realiseert. De testpsycholoog doet er goed aan zich voortdurend van deze mechanismen bewust te zijn, en zich te dwingen tot strikte zelfcontrole en zelfcorrectie.

Hoe kan men dergelijke problemen zo goed mogelijk oplossen? ‘slechts’ genereren van hypothesen of vinden van wegen waarlangs verder onderzoek nuttig zou kunnen zijn → klinisch-intuïtieve weg Men dient zich er daarbij wel van bewust te zijn dat de subjectieve impressies en ideeën geen

waarheidsgarantie bezitten, ook al wekken ze bij de psycholoog vaak een gevoel van juistheid. Voorspellende of classificerende uitspraken, van groot belang voor het individu of voor een selecterende organisatie → stevigere basis nodig dan de klinisch- intuïtieve benadering.

46 Een zo groot mogelijke vergelijkbaarheid en objectiviteit kunnen dan het beste worden bereikt door in de testsituatie met het individu een zo normaal mogelijke relatie op te bouwen met een positieve, stimulerende en vriendelijke ‘toon’. Men zal daarna in de verwerking en berekening van de testscore ‘doen alsof’ de genoemde invloeden uit de interactiesfeer genegeerd kunnen worden. Hoogstens zou men, om aan de voorzichtige kan te blijven, bij de interpretatie van de objectief vastgestelde scores rekening kunnen houden met eventuele ongewenste invloeden.

Om de mogelijkheid van het vergelijkend onderzoek en het doen van wetenschappelijke uitspraken te behouden, gebruiken we liever ‘doen alsof’.

▪ RAKIT - zeer gedetailleerde richtlijnen met betrekking tot afname - algemene instructies ÷inrichting testsituatie ÷gedrag testleider ÷interactie met kind ÷anticiperen op verwachte en onverwachte reacties van kind - gedetailleerde instructies per deeltest

3.3 Scoring

5.2 scoring van antwoorden (pag. 151) Naarmate het scoringsproces meer gebaseerd is op de subjectieve oordeelsvorming, geven de scores een grotere foutenmarge aan.

▪ wordt ook wel ‘objectiviteit’ genoemd: onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer, beoordelaar of interpretator - bij een objectief testonderzoek maakt het niet uit wie de beoordelaar is - objectiviteit impliceert openheid en reproduceerbaarheid van de evaluatieprocedure vanuit deze omschrijving kan de overeenkomst tussen beoordelaars beschouwd worden als een maat van objectiviteit

▪ tests verschillen van elkaar in de mate waarin ze (kunnen) beantwoorden aan de eis van objectiviteit - heel objectief: verwerking van antwoorden bij schriftelijke meerkeuzetests - weinig objectief: interpretatie van antwoorden bij observatietests en projectieve technieken ▪ hoe groter de inbreng van de beoordelaar in het proces van verwerken van gegevens, hoe groter de kans op subjectieve beïnvloeding - spanningsveld met relevantie - indien men verder wil gaan dan objectief controleerbare gedragsaspecten gebruikt men best exact voorgeschreven verwerkingsprocedure

▪ onderscheid tussen - reacties op items met open-vraagvorm - reacties op geprecodeerde items

47

▪ scoring van reacties op items met openvraagvorm - reacties kunnen verbaal of niet-verbaal zijn - door de openvraagvorm is er risico op subjectiviteit en lage overeenkomst tussen beoordelaars

÷zinvolle uitspraken en voorspellingen onmogelijk ÷lage validiteit - manieren om risico te verminderen:

÷gebruik van coderingssysteem (= stelsel van regels en voorschriften dat volledig, duidelijk en ondubbelzinnig is) ÷goede instructie van de beoordelaars + gelegenheid tot training

5.2.1 scoring van reacties op items met open vraagvorm (pag. 152) Zowel verbaal (rollenspel) als niet-verbaal (bv. intelligentietests) Gevaar: subjectiviteit en lage overeenstemming tussen beoordelaars -> hoge overeenstemming leidt niet automatisch tot goede validiteit. Nuttig coderingssysteem: checklist (zie volgende) Beoordelaars: goed geïnstrueerd + kans om te oefenen De overeenstemming tussen beoordelaars is een noodzakelijk maar geen voldoende voorwaarde voor validiteit.

▪ scoring van reacties op geprecodeerde items - ‘meerkeuzevragen’ - verschillende opties:

÷handscoring ÷zelfscoring ÷machinale scoring

5.2.2 scoring van reacties op geprecodeerde items (pag.

153) De voornaamste zorg bij de scoring van meerkeuzevragen: -Nauwkeurigheid -Efficiëntie Betekenis: * correctiesysteem mag zo weinig mogelijk fouten toestaan * tijd + kosten per formulier moet minimaal zijn

- handscoring: ÷corrector telt goede en foute antwoorden, overgeslagen of onvolledig ingevulde items ÷aan de hand van correct ingevuld protocol of verbetersleutel (transparant of geperforeerd karton) ÷nadelen: duurt lang, risico op fouten

- zelfscoring: ÷antwoordformulier scoort zichzelf door middel van een doordrukprocédé met een aan het antwoordformulier vastgemaakt tweede vel met cirkeltjes ÷corrector moet alleen nog de markeringen in de cirkeltjes optellen ÷nadeel: kostprijs ÷voordelen: snelheid en efficiëntie

48 - machinescoring: ÷antwoorden worden aangebracht op speciale antwoordformulieren die nadien ingelezen kunnen worden ÷verwerking gebeurt volledig machinaal (soms ook vergelijking met normen en interpretatie) ÷laat toe om verzamelde gegevens voor onderzoek te gebruiken ¢kwaliteitskenmerken van de test ¢informatie over de geteste groep als geheel ÷wordt in sommige gevallen gecombineerd met computerafname

3.4 Bewerkte scores/normering

▪ output van een testafname = ruwe testscores - per item 0/1 of fijnere gradatie - itemscores worden gecombineerd (bijv. opgeteld) tot ruwe testscore - ruwe scores kunnen voor veel verschillende dingen staan ÷aantal goede of foute antwoorden in een kennistest ÷aantal ‘ja’-antwoorden op een persoonlijkheidsvragenlijst ÷aantal mislukte pogingen op handvaardigheidstest ÷som van scores op ‘ratingschaal’ van een attitudevragenlijst ... 5.4 bewerkte scores en normen (pag. 172) We gaan ervan uit dat een test k items bevat. Items krijgen een identificatienummer dat we aangeven met g. G = 1, 2, 3, ..., k De score op een item = Xg Voor foute antwoorden krijgt iemand een itemscore 0 en voor een goede een score 1, zodat Xg = 0,1

Niet iedere bewerkte score heeft een normkarakter. Testnormen voorwaarde: afhankelijkheid van de scores van anderen

Het gebruik van normen voor de waardering van iemands testprestatie overstijgt de kenmerken van de groep waartoe hij behoort. Soms geen normen: -rangschikking: sollicitanten -Percentage: zelfstandig werken

Er zijn gevallen waarin men zich kan beperken tot ruwe scores: als men voor onderzoeksdoeleinden geïnteresseerd is in de samenhang tussen testscores en criteriumscores. Bv. het berekenen van een correlatie tussen ruwe testscores en schoolcijfers is voldoende om de vraag naar de samenhang te beantwoorden.

De overgang van een vergelijking binnen een onderzochte groep naar het gebruik van normen is vloeiend.

49 Hoe groter de onderzochte groep en hoe meer kenmerken van een relevante populatie, hoe meer de vergelijkingen het karakter krijgen van vergelijkingen met een norm. 2 belangrijke zaken: - bij normeringsonderzoek is het belangrijk om de specifieke kenmerken van de onderzochte normgroep te vermelden. → hieruit kan men afleiden of men te maken heeft met een geschikte normsteekproef. (te vaak alleen maar globale gegevens vermeld) - men moet normen niet al te absoluut zien. Met een verandering in de populatie veranderen de daarop gebaseerde normen ook. Vandaar de eis van geregelde normrevisie van tests. Dat geldt zeker voor tests die nogal tijdgevoelig zijn. Dit probleem geldt al heel sterk voor testvertalingen. Maar al te gemakkelijk neemt men met een test ook normgegevens uit het oorspronkelijke taalgebied over. Zonder nader onderzoek is dit onverantwoord. Meestal verliezen normen bij een testvertaling hun waarde.

▪ ruwe scores zeggen niet veel, ze moeten geïnterpreteerd worden ▪ dat kan op verschillende manieren: ÷criteriumgericht referentiekader:

vergelijking met bepaalde standaard (criterium – absoluut meten) ¢hoeveel opgaven waren er? ¢hoeveel punten worden er afgetrokken voor een fout? ... ÷normgericht referentiekader: vergelijking met relevante anderen (normgroep – relatief meten)

¢hoe hebben anderen het gedaan? ¢waren er veel die een betere/mindere prestatie leverden?

‘norm’ = referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd op

de kenmerken van de verdeling van de ruwe scores in een populatie; die kenmerken worden geschat op basis van een representatieve steekproef

▪ test wordt voorgelegd aan een representatieve, grote en op toeval samengestelde steekproef uit de populatie waarvoor de test bedoeld is ▪ verzamelde testscores worden statistisch bewerkt zodat een vlotte vergelijking mogelijk wordt tussen de testscore van een welbepaald persoon en die van de referentiegroep

- afhankelijkheid van groep proefpersonen waarop normen zijn vastgesteld ÷belangrijk om, bij rapportering, de specifieke kenmerken van de normgroep te vermelden ÷bij vertaling van een test kan men niet zomaar de normgegevens uit het oorspronkelijke taalgebied overnemen ÷normen zijn niet absoluut; geregelde revisie is noodzakelijk cf. Flynn-effect ÷generaliseerbaarheid van de norm hangt af van de grootte van de vergelijkingsgroep

▪ normering kan gebeuren - binnen één referentiegroep - ten aanzien van meerdere referentiegroepen

50 ÷diverse leeftijdsgroepen

÷mannen/vrouwen - bevolkingsgroepen/klinische groepen ...

▪ diverse varianten - vergelijking met absolute standaard - verhoudingsnormen - vergelijking en normen gebaseerd op een rangorde - vergelijking en normen gebaseerd op gemiddelde en spreiding

3.5 Vergelijking met een absolute standaard

▪ = absoluut meten ▪ prestatie wordt beoordeeld zonder er de prestaties van anderen bij te betrekken: hoe goed is de prestatie in vergelijking met een absolute standaard?

▪ vaak gebruikt in onderwijskundige context - in welke mate hebben leerlingen het

nagestreefde onderwijskundige doel bereikt? - hoeveel kennis/inzicht hebben leerlingen verworven? - antwoord is voor iedere leerling onafhankelijk van wat andere leerlingen presteren

5.4.1 vergelijking met absolute standaard (pag. 175) = criteriun-referenced measurement Norm-referenced measurement =

vergelijken van een testprestatie met een normverdeling.

Bij absolute normering essentieel: -analyse van de doelen van het proces dat men bij de onderzochte wil evalueren (bv. een leerproces, een aanpassingsproces of een training) -Valt de mate waarin de doelen zijn verwezenlijkt op een betrouwbare manier te meten? → niet het geval: absoluut meten krijgt een arbitrair karakter + de rechtvaardiging van deze vorm van meten is discutabel.

▪ noodzakelijk = goede voorafgaande analyse ÷welk proces wil men bij de onderzochte analyseren? ÷kan de mate waarin het al dan niet verwezenlijkt zijn van beoogde doelen betrouwbaar gemeten worden?

3.6 Verhoudingsnormen

51 ▪ testscores worden gedeeld door een andere variabele en er daardoor onafhankelijk van gemaakt

▪ bekendste voorbeeld = traditioneel intelligentiequotiënt IQ = (ML/CL) x 100 waarbij ML = mentale leeftijd

CL = chronologische leeftijd

5.4.1 verhoudingsnormen (pag. 176) Bv.: IQ + : goed opgeloste vraag - : fout of niet beantwoorde vraag Basale leeftijd: laatste leeftijd waarop nog geen fouten worden gemaakt

▪ berekening mentale leeftijd - basisleeftijd = leeftijd waarop nog geen fouten gemaakt worden (voorbeeld: 6 jaar) - voor elke goed beantwoorde opgave in de hogere schalen wordt nog 1⁄4 jaar bijgeteld (voorbeeld: 13 extra * 1⁄4 = 3.25 jaar)

▪ berekening traditioneel IQ - (mentale leeftijd/chronologische leeftijd)*100 (voorbeeld voor kind van 10.5 jaar: (9.25/10.50)*100 = 88)

▪ kanttekeningen bij traditioneel IQ - vergelijking ML en CL - IQ schommelt - oudere mensen in nadeel - eis van evenredig toenemende spreiding bij hogere leeftijd

▪ verhoudingsnormen hebben vooral historisch belang - ingevoerd in Stanford-Binet 1916 - in Wechslertests en vanaf Stanford Binet 1960 vervangen door deviatie-IQ ▪ verhoudingsnormen waren wel makkelijk te vatten: “hoe ver is kind in zijn ontwikkeling van intelligentie voor of achter?” (intelligentie als ontwikkelingsbegrip)

(pag. 178) Kritische kanttekeningen bij het IQ: 1)IQ = ML/CL x 100: formule suggereert dat ML en CL vergelijkbare grootheden zijn.

ML: testscore → geen leeftijdsmaat

CL: verwachte testprestatie obv de leeftijd van de onderzochte → verwachting is gebaseerd op de gemiddelde score die zijn leeftijdgenoten behalen. 2)- Intelligentietests bevatten veel vragen waarvan de beantwoording evenzeer van vorming en scholing als van intelligentie afhankelijk is.

- Psychologische groei wordt ook beïnvloed door allerlei lichamelijke en fysiologische factoren.

Belangrijk: door deze invloeden lopen ML en CL nooit gelijk.

52 - wijzigingen in leermogelijkheden en motivatie, ook emotionele bereidheid bij

kinderen om hiervan gebruik te maken, zijn verantwoordelijk voor belangrijke schommelingen in IQ 3)Nadeel voor oudere mensen: in hun IQ-ratio blijft de noemer gelijk en maximaal 4)Een jaar achterstand op 6-jarige leeftijd is tweemaal zo ‘erg’ als een jaar achterstand bij 12 jaar.

3.7 Vergelijking en normen gebaseerd op rangorde

rangscores ▪ eenvoudigste vorm van vergelijking tussen individuen: rangordening ▪ bewerkte score = rangnummer

▪ interpretatie afhankelijk van groepsgrootte - nuttig voor snelle aanduiding van prestatie in vergelijking met anderen in dezelfde groep - zonder kennis van groepsgrootte en buiten de bewust groep geen betekenis

5.4.3 vergelijking en normen gebaseerd op rangorde (pag. 179) Rangordening leidt niet tot een norm.

Hoe worden percentielscores berekend als een relatief grote groep van respondenten dezelfde ruwe score heeft en dus diverse percentielen beslaat? - Men kan niet zeggen dat binnen deze groep de ene persoon een hogere of lagere percentielscore heeft dan een ander. De percentielscore wordt nu berekend d.m.v. lineaire interpolatie. Stel: 28% van de respondenten heeft een ruwe score van 61 of lager 34% van de respondenten heeft een ruwe score van 62 of lager => 34-28 = 6% heeft een score van 62. Percentielscore: 28 + 0.5(34-28) = 31 Percentielscore: afhankelijk van het niveau, de spreiding en andere kenmerken van de groep. Alle frequentieverdelingen van percentielscores zijn gelijk en rechthoekig van vorm, ongeacht de vorm van de verdeling van de ruwe scores.

vigintielen: verdeelt de verdeling in 20 gelijke groepen

percentielen ▪ percentielen = de 99 punten die een frequentieverdeling verdelen in 100 groepen van gelijke grootte voorbeeld: Pc 70 = punt op de schaal waaronder 70% van de verdeling gelegen is

▪ bekende percentielen: - P50: mediaan - P25: eerste kwartiel (Q1) - P75: derde kwartiel (Q3)

▪ voordelen - onafhankelijk van groepsgrootte - eenvoudige en snelle berekening - gemakkelijke toepasbaarheid en inzichtelijkheid

53

▪ nadelen - ordinaal meetniveau: beperkingen in mogelijke statistische bewerkingen (geen gemiddelden/varianties, alleen rangcorrelaties) - frequentieverdeling percentiele scores niet vergelijkbaar met die van ruwe scores

decielen ▪ frequentieverdeling wordt in 10 gelijke groepen verdeeld

3.8 vergelijking en normen gebaseerd op gemiddelde en spreiding

▪ omzetting van ruwe scores in standaardscore-eenheden ▪ diverse varianten: - standaardscores: z-scores - genormaliseerde standaardscores: T-scores, deviatie-IQ

5.4.4 vergelijking en normen gebaseerd op gemiddelde en spreiding (pag. 182) Standaardscores: ruwe scores worden omgerekend in standaardscore-eenheden. Standaardnormen: representatie van een populatie.

standaardscores of z-scores ▪ standaardscore (Zx) drukt uit hoeveel standaarddeviaties (SDx) een ruwe score (X) van het gemiddelde (gemX) afwijkt

▪ formule: Zx = (X – gemX)/SDx ▪ zonder transformatie hebben standaardscores vaak een klein bereik en zijn het zowel positieve als negatieve getallen

54

▪ om dat vermijden zijn lineaire transformaties (y=ax+b) mogelijk - bijv: gemiddelde op 50 of 100 zetten (z’=z+50; z’=z+100) - bijv: standaarddeviatie op 10 of 20 zetten (z’=10z; z’=20z) - bijv. gemiddelde op 50 zetten en standaarddeviatie op 10 (z’=10z+50)

55

▪ standaardscores behouden dezelfde verdelingskenmerken als ruwe scores: z- scores zijn dus niet automatisch normaal verdeeld!

▪ bij omzetting van ruwe scores naar z-scores: - wordt de verdeling verschoven (gemiddelde wordt van elke score afgetrokken) -

wordt de afstand tussen de scores veranderd (elke score wordt gedeeld door de standaarddeviatie) - maar

blijven andere kenmerken (scheefheid, bimodaliteit,...) gelijk

genormaliseerde standaardscores ▪ niet-lineaire transformatie: de verdeling van scores wordt zodanig vervormd dat er een normale verdeling ontstaat

▪ vergroot gebruiksgemak, maar doet werkelijkheid soms geweld aan ▪ gekende voorbeelden:

- T-scores - Stanines -

Deviatie-IQ

T-scores (gem 50, SD 10)

56

Stanines

÷komt van ‘standard score’ en ‘nine’ ÷schaal van 1 tot 9 met getalswaarden die corresponderen met gelijke intervallen onder de normaalverdeling ÷stanines komen niet exact overeen met bepaalde ruwe scores, maar vertegenwoordigen een breedte van 0,5 SD

57

Deviatie-IQ (gem 100, SD 15*)

Pag. 186

58 De testprestatie per leeftijdsklasse worden verwerkt tot genormaliseerde standaarscores.

overzicht hoofdstuk

59 ▪ Voorbeeld: RAKIT - genormeerd op basis van zeven leeftijdsgroepen tussen

4,5 en 11 jaar - grote groepen samengesteld op basis van regio, urbanisatiegraad, schoolgrootte, leeftijd en geslacht - normtabellen volgens leeftijd (21 groepen tussen 4j2m en 11j1m30d – elke groep bereik van 3 maanden). - ruwe subtestscores omgezet naar genormaliseerde standaardscores met gemiddelde 15 en standaarddeviatie 5 - deviatie-IQ: som van genormaliseerde standaardscores van de subtests, omgezet naar genormaliseerde standaardscore met gemiddelde 100 en standaarddeviatie 15

▪ Voorbeeld: NEO-PI-R - normen beschikbaar voor diverse deelpopulaties

÷volgens testsituatie (neutraal/selectie/begeleiding) ÷volgens land (Nederland/België) ÷volgens geslacht (mannen/vrouwen) ÷volgens leeftijd (<30 / 30-50 / >50) ÷volgens opleiding (laag/gemiddeld/hoog)

met indicatie van waar het wel of niet aangewezen is deelnormen te gebruiken - ruwe subtestscores omgezet naar stanines

▪ Voorbeeld: Zelfbeoordelingsvragenlijst voor Kinderen (ZBV-K) - vragenlijst die toestandsangst en angstdispositie meet - telkens 20 vragen met drie alternatieven - normen voor basisschool en voortgezet onderwijs - ruwe subtestscores omgezet naar decielen

60 3.9 Betrouwbaarheid

▪ "Reliability refers to the consistency of measurement when the testing procedure is repeated on a population of individuals or groups"

(Standards for Educational and Psychological Testing, 1999, p. 25)

▪ verwijst naar herhaalbaarheid van de meetresultaten: wanneer een test onder gelijkblijvende condities diverse malen aan een zelfde persoon wordt voorgelegd, moet de verkregen testscore over de testsessies heen zo weinig mogelijk variëren

6.1 herhaalbaarheid van metingen (pag. 190) Zinvolle herhaalbaarheid van metingen wordt bemoeilijkt door geheugeneffecten en leerprocessen, die al voorkomen bij de 2e afname van de test. Herhaalbaarheid van metingen moeten we ons hypothetisch voorstellen als een gedachte-experiment Vbn. Lezen pag. 191-192 Over een groot aantal herhaalde metingen bij dezelfde persoon heffen voordelen en nadelen elkaar op. Factoren die ten grondslag liggen aan toevallige invloeden op het testgedrag: -black-out helder moment -Plotselinge hoestbui -Lichamelijk ongemak -⬄

Laag overkomend vliegtuig -Tijdelijk concentratieverlies -Slaperigheid -Fluctuaties in het arousal niveau -Plotseling opdringende gedachten (die niets met de test te maken hebben) ÞAl deze factoren hebben gemeen dat ze gebonden zijn aan een specifieke testsessie.

Herhaalbaarheid van metingen kan worden beoordeeld indien we een persoon vele malen dezelfde test onder gelijk blijvende condities kunnen voorleggen → testprestaties bij verschillende afnemingen zijn onafhankelijk van elkaar

voorbeeld 1: lichaamslengte meten van een groep kinderen (M1)

Piet 117 cm Sarah 129 cm Jan 113 cm Klaas 140 cm Lotte 100 cm

61 rangorde maken van klein naar groot

Lotte 100 cm Jan 113 cm Piet 117 cm Sarah 129 cm Klaas 140 cm

meting herhalen (M1 / M2)

Piet 117 cm 116 cm Sarah 129 cm 128 cm Jan 113 cm 113 cm Klaas 140 cm 140 cm Lotte 100 cm 101 cm

rangordes vergelijken M1 M2 Lotte 100 cm Lotte 101 cm Jan 113 cm Jan 113 cm Piet 117 cm Piet 116 cm Sarah 129 cm Sarah 128 cm Klaas 140 cm Klaas 140 cm

voorbeeld 2: gewicht meten van zakken appelen (M1)

blauwe zak 0,9 kg rode zak 0,8 kg gele zak 2,1 kg groene zak 1,4 kg

rangorde maken van klein naar groot

rode zak 0,8 kg blauwe zak 0,9 kg groene zak 1,4 kg gele zak 2,1 kg

meting herhalen (M1 / M2)

blauwe zak 0,9 kg 0,8 kg rode zak 0,8 kg 0,9 kg gele zak 2,1 kg 2,0 kg groene zak 1,4 kg 1,4 kg

62 rangordes vergelijken

M1 M2 rood 0,8 kg blauw 0,8 kg blauw 0,9 kg rood 0,9 kg groen 1,4 kg groen 1,4 kg geel 2,1 kg geel 2,0 kg

vaststellingen: ▪ verschillen tussen M1 en M2 zijn klein ▪ rangordes verschillen niet of nauwelijks → metingen van lengte en gewicht zijn

betrouwbaar

▪ net als fysische eigenschappen (lengte, gewicht) worden ook psychologische eigenschappen (bijv. intelligentie) gemeten ▪ bij psychologische metingen kan verwacht worden dat fluctuaties in prestaties en gedrag als reactie op testvragen en –opgaven groter en complexer van aard zijn en dat de verschillen tussen eerste en tweede meting dus ook groter zullen zijn

▪ doel = in kaart brengen wat de relatieve inbreng is van de onvoorspelbare invloeden over testafnames heen op de testprestaties

▪ testscore die een bepaalde persoon in een specifieke testsessie behaalt, kan opgesplitst worden in twee componenten: - systematisch deel dat over testafnames niet verandert (‘ware score’) - toevallig deel dat over testafnames op onvoorspelbare wijze varieert (‘foutencomponent’)

- foutencomponent verandert de score van de geteste persoon op toevallige wijze (soms naar boven soms naar onder) - over herhalingen heen heffen de foutencomponenten elkaar op ↓ - als men het gemiddelde neemt van een groot

aantal herhalingen, krijgt men de “ware” score

MAAR psychologische metingen zijn niet herhaalbaar... het is niet zinvol iemand diverse malen dezelfde test voor te leggen (geheugen, leren,...) DUS ‘hypothetische’ herhaling nodig... (= zoeken naar een realistische benadering van het ideaal van onafhankelijke replicatie van de testprocedure)

63 vier benaderingen:

6.3 bepaling van betrouwbaarheid (pag. 205) Paralleltests = als 2 tests inwisselbaar zijn en equivalent Paralleltestbetrouwbaarheid = de correlatie tussen parallelle tests Test-hertestbetrouwbaarheid = de correlatie tussen 2 testscores

2 varianten van betrouwbaarheidsschatting: 1)Splitsingsmethode: Gebaseerd op de splitsing van de test op 2 halve tests, waarbij iedere helft evenveel items bevat → via wiskundige ingreep gecorrigeerd 2)Interne-consistentiemethode: gebaseerd op de covarianties tussen alle individuele items → leidt tot een ondergrens van de betrouwbaarheid

3.10 parallelvormmethode

▪ twee inwisselbare (maar niet-identieke) tests worden afgenomen bij groep proefpersonen ▪ betrouwbaarheid wordt gedefinieerd als correlatie tussen de twee ‘parallelle’ testscores ▪ kanttekening: in de praktijk moeilijk om echt parallelle tests te ontwikkelen

3.11 test-hertestmethode

▪ test wordt met een behoorlijke tussentijd tweemaal aan dezelfde groep proefpersonen voorgelegd

▪ betrouwbaarheid wordt gedefinieerd als correlatie tussen de testscores van de twee afnames ▪ kanttekening: het is mogelijk dat de gemeten eigenschap verandert in de tussentijd en dat is niet bij iedereen in gelijke mate zo - leereffecten - geheugeneffecten - directe invloed van eerste meting op gemeten eigenschap (bijv. attitudeverandering)

64 3.12 Splitsingmethode

▪ test wordt in twee helften met elk evenveel items gesplitst, die zoveel mogelijk parallel zijn ▪ = efficiënte variant van de parallelvormmethode ▪ betrouwbaarheid wordt gedefinieerd als correlatie tussen de scores op de twee testhelften ▪ kanttekening: in de praktijk moeilijk om een test in echt parallelle helften te splitsen

3.13 interne-consistentiemethode

▪ test wordt één keer afgenomen ▪ betrouwbaarheid wordt gebaseerd op de variantie van de testscore en alle covarianties tussen de items ▪ bekendste coëfficiënt = Cronbach’s alpha (α)

3.14 evaluatie (belangrijk!)

▪ betrouwbaarheidscoëfficiënten variëren tussen 0 en 1 - als de test gebruikt wordt om belangrijke beslissingen over individuen te nemen: ÷.90+ goed ÷.80-.90 voldoende ÷<.80 onvoldoende

- als de test gebruikt wordt om minder belangrijke beslissingen over individuen te nemen: ÷ .80+ goed ÷.70-.80 voldoende ÷<.70 onvoldoende

- als de test gebruikt wordt voor groepsvergelijkingen of experimentele toepassingen (try-out van nieuwe tests) ÷.70+ goed ÷.60-.70 voldoende <.60 onvoldoende

- betrouwbaarheid is een noodzakelijke voorwaarde voor validiteit ÷een onbetrouwbare test geeft vooral meetfouten weer en kan de bedoelde

psychologische eigenschap hooguit heel zwak representeren

- betrouwbaarheid is evenwel geen voldoende voorwaarden voor validiteit ÷een betrouwbare test kan onbedoeld iets anders meten dan wat de bedoeling was ÷wat is wel nodig voor validiteit? (→ 3.5)

65 3.15 Validiteit

▪ kernvraag = meet een test wat hij verondersteld wordt te meten?

voorbeeld: iemands intelligentie inschatten op basis van ÷reactie op praktische problemen ÷schoolprestaties ÷belezenheid ÷... zijn deze indicaties de juiste? tonen ze iemands intelligentie?

Pag. 328 Voor een goede validiteit is een hoge betrouwbaarheid nodig ↕ Betrouwbare test is niet per se

valide uitleg: pag. 328

▪ validiteit = mate waarin de test aan zijn doel beantwoordt - niet eigenschap van de test op zich - uitspraak over validiteit kan alleen met verwijzing naar de bedoeling van een test - als een test meerdere doelen dient, kan het zijn dat hij voor het ene doel wel en voor het andere niet valide is

▪ "Validity refers to the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of the test"

(Standards for Educational and Psychological Testing, 1999, p. 9)

▪ gemeenschappelijk doel van alle tests = via testgedrag iets kunnen zeggen over niet-testgedrag - gedragingen die ook representatief zijn voor de gemeten eigenschap, maar die niet door de specifieke verzameling van items in de test werden opgeroepen - gedragingen die representatief zijn voor de eigenschappen of

prestaties, die men met behulp van de testscore zou willen voorspellen

▪ validiteit gaat over de vraag of de sprong van het testgedrag naar het niet- testgedrag verantwoord is

▪ twee grote soorten doelstellingen en daaraan gelinkt twee hoofdtypes validiteit: - doel = ander gedrag voorspellen

(→predictieve validiteit) - doel = psychologisch begrip operationaliseren (→begripsvaliditeit)

▪ elk gebruik van een psychologische test is onder te brengen bij een van deze twee doelstellingen

Kortom: zie pag. 331

66 3.16 predictieve validiteit

▪ primair doel = bepaald gedrag of bepaalde prestatie buiten de testsituatie voorspellen (= criterium)

▪ predictie in methodologische zin, los van het tijdsaspect - criterium in toekomst (predictie in enge zin)

= predictieve validiteit in enge zin - criterium in heden (paradictie) = gelijktijdige validiteit - criterium in

verleden (postdictie)

Predictieve validering is een specifieke vorm van begripsvalidering.

▪ om een goede voorspelling mogelijk te maken moet aan volgende voorwaarden voldaan zijn:

▪ zowel voor de predictor als voor het criterium moeten goede meetinstrumenten voorhanden zijn - zowel de test als het te voorspellen gedrag moeten uitingen zijn van eigenschappen waartussen een aantoonbare relatie bestaat

▪ er zijn diverse mogelijkheden om predictieve validiteit na te gaan - associaties tussen test en criterium - onderscheidend vermogen van de test ten aanzien van het criterium

voorbeeld: verschillen in scores op de Gezinsklimaatschaal tussen gezinnen met en zonder problemen

67 3.17 begripsvaliditeit

▪ primair doel = een capaciteit, persoonlijkheidstrek of attitude operationaliseren ▪ bij onderzoek naar de psychologische betekenis van testresultaten wordt ook gekeken naar relaties met operationaliseringen van andere begrippen (= nomologisch netwerk)

▪ onderscheid tussen: - begripsvalidering: nagaan of de test meet wat hij beoogt te meten - betekenisanalyse (cf. bredere begrip ‘construct validity’): wat meet de test eigenlijk? (los van wat hij beoogde te meten)

▪ deelvragen - komt de interne structuur van de test overeen met de verwachte structuur? = interne begripsvaliditeit - vertoont de test de verwachte mate van samenhang met andere tests die operationaliseringen zijn van ofwel een zelfde begrip ofwel een verschillend begrip? = externe begripsvaliditeit

÷samenhang met tests die zelfde meten: convergente/congruente validiteit ÷samenhang met tests die iets anders meten: divergente/ discriminante validiteit

voorbeeld: associaties tussen Beck Depression Inventory-II en drie andere depressieschalen

68 voorbeeld: associaties tussen Vragenlijst Sociale Vaardigheden van Jongeren en Strengths and Difficulties Questionnaire

▪ predictieve validiteit en begripsvaliditeit hebben raakvlakken: - te voorspellen criteria maken deel uit het van het nomologisch netwerk, waardoor onderzoek naar de begripsvaliditeit ook informatie over het voorspellend vermogen van de test oplevert - testen is meestal geen activiteit op zich (alleen om een begrip te meten), maar gebeurt met het oog op een buiten de test gelegen doel (voorspelling van een criterium) bijv. onderzochte beschrijven in psychologische termen (doel = operationalisering van eigenschap) met oog op uitspraak over de prognose of doorverwijzing naar een behandeling (doel = criterium voorspellen)

3.18 andere validiteitstermen

- inhoudsvaliditeit ÷hoe goed representeert de inhoud van de test een geheel van situaties, kennisinhouden of vaardigheden waarover conclusies getrokken moeten worden? ÷= indicatie van de mate waarin de test het domein van mogelijke items representeert ¢vaak nagegaan door bevraging van deskundigen ¢gevaar van cirkelredenering ÷vooral relevant binnen onderwijskundige diagnostiek

69 8.2 enkele andere onderscheidingen in validiteit (pag. 334) 8.2.1 vier belangrijke soorten validiteit Predictive validity Vastgesteld door na te gaan in welke mate de voorspellingen worden bevestigd door gegevens of observaties verzameld op een later tijdstip Bv. schoolkeuze, keuze van een therapie Verschil met predictieve validiteit: opvatting inzake het begrip ‘predictief’ -Bij ons: methodologisch - Bij predictive validity: temporeel voorspellend ÞPredictieve validiteit is breder, want niet gebonden aan een toekomstig criterium, maar ook

Concurrent validtiy Nagaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Verschil met predictive validity: enkel het moment van verzamelen van de criteriumgegevens. Praktisch gezien is het onderscheid tussen predictive validity en concurrent validity waardevol, aangezien men vaak, vanwege de onmogelijkheid om op een toekomstig criterium te wachten, zijn toevlucht moet nemen tot een gelijktijdig criterium. Hoewel het dan niet ander kan, is het gevaar wel groot dan men de resultaten zonder meer generaliseert naar een ‘predictive’ kader,

terwijl men dat niet heeft onderzocht. Concurrent validity kan dus wel informatief zijn, en is vaak de enige info over de validiteit die men kan krijgen, maar de betekenis is toch vaak beperkt als de voorspelling gericht is op een toekomstig criterium.

Content validity (pag. 335) Belangrijk bezwaar: empirisch onderzoek, waarin gebruik wordt gemaakt van gegevens (niet afkomstig van vergelijkbare toetsen) ontbreekt vaak. Cirkelredenering: mijn toets is valide want hij is vergelijkbaar met toetsen van voorgaande jaren. Inhoudsvaliditeit komt in de buurt van ‘face validity’, doordat een zwaar beroep wordt gedaan op het subjectieve oordeel. Bv. studietoets over het boek ‘testtheorie’ (pag. 337)

Construct validity (pag. 337) Evaluatie: onderzoeken welke psychologische eigenschappen door de test worden gemeten. Deze eigenschappen zijn hypothetische ‘constructs’, waarvan men veronderstelt dat ze gereflecteerd worden in de testprestatie. 3 onderdelen: 1)Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de testprestatie 2)Afleiden van toetsbare hypothesen uit de theorie die het ‘construct’ verklaart. 3)Uitvoeren van een empirisch onderzoek om deze hypothese te toetsen.

Construct validity komt in de buurt van wat wij betekenisanalyse noemen. Betekenisanalyse: vooral exploratief onderzoek. Betekenisanalyse bevat ook onderzoek naar de begripsvaliditeit, maar is breder. De definitie van begripsvaliditeit is enger dan die van construct validity.

70 - synthetische validiteit

÷richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criterium veeleer dan op het criterium als geheel ÷uit de afzonderlijke voorspelde elementen wordt de voorspelling van het hele criterium gesynthetiseerd ÷vergroot de potentiële steekproef voor het valideringsonderzoek ÷vooral van belang voor praktische toepassingen van tests in de selectie- en beroepskeuzesector

8.2.2 andere onderscheidingen in het begrip validiteit Aan begripsvaliditeit verwante vormen van validiteit. De eerste 2: specifieke varianten van de begripsvaliditeit Laatste 2: verwant

Synthetische validiteit Congruent validity = soortgenootvaliteit = mate waarin een test correleert met een andere test, waarvan wordt aangenomen dat die dezelfde eigenschap meet.

- indrukvaliditeit ÷mate waarin de persoon die de test aflegt de test relevant acht voor datgene waarvoor hij/zij getest wordt ¢relatie tussen test en criterium is duidelijk ¢betekenis van test is duidelijk ÷staat los van of de test daadwerkelijk samenhangt met criterium of daadwerkelijk bedoelde eigenschap meet (cf. ‘faith validity’) ÷verwant met ‘transparantheid’ ÷is wenselijke maar niet noodzakelijke eigenschap van een goede test

71 Face validity Indrukvaliditeit is niet altijd een nuttige, en soms zelfs een vrij gevaarlijke eigenschap van een test. Zeer veel tests zijn jarenlang in gebruik geweest alleen omdat ze indrukvaliditeit bezaten → obstakel voor een werkelijk validiteitsonderzoek. Immers, na verloop van tijd ging iedereen vanzelf geloven dat de test valide was en waarom dan ‘opnieuw’ validiteitsonderzoek gedaan? Indien dan eindelijk toch zo’n onderzoek wordt verricht, blijkt tot schrik van velen dat er geen enkele of een zeer geringe validiteit kan worden vastgesteld.

Het is niet zo dat een test geen indrukvaliditeit mag bezitten. Integendeel, indien een test aantoonbaar voldoende predictieve of begripsvaliditeit heeft, is het zelfs wenselijk dat dit voor iedereen wel duidelijk is.

Transparantheid = conditie voor de ‘acceptatie’ van een test waarmee, naast betrouwbaarheid, validiteit en nuttigheid voor beslissingen, een nieuw gezichtspunt wordt toegevoegd aan de evaluatie van tests. Het is eerder een wenselijke dan een noodzakelijke eigenschap en daarin verschilt deze eigenschap van betrouwbaarheid, validiteit en nuttigheid.

72

- incrementele validiteit ÷betere voorspelling door het toevoegen van een of meerdere tests aan reeds aanwezige informatie ÷situeert zich op het domein van predictieve validiteit

Bv. levensloopgeschiedenis, vooropleidingen

73

▪ niet bij alle coëfficiënten ‘hoe hoger hoe beter’ (cf. discriminante validiteit) ▪ tentatieve vuistregel: ÷>.50

hoog ÷>.30 medium ÷>.10 laag

3.19 COTAN

▪ 1959 oprichting COmmissie TestAangelegenheden Nederland (COTAN), naar model van Educational Test Services in VS - overzicht/beoordeling van in Nederland bestaande en in gebruik zijnde tests: Documentatie van Tests en Testresearch in Nederland - twee delen: ÷Testbeschrijvingen ÷Testresearch - eerste editie 1961, nadien aanvullingen en updates - elektronisch consulteerbaar: www.cotandocumentatie.nl

met gebruikersnaam en paswoord PBIB

Maakte een inventarisatie van de tests die voor handen waren en ook een evaluatie ervan.

richtlijnen van de COTAN versie mei 2010

1. uitgangspunten van testconstructie 2. kwaliteit van het testmateriaal 3. kwaliteit van de handleiding 4. normen 5. betrouwbaarheid 6. begripsvaliditeit 7. criteriumvaliditeit

74 ▪ Uitgangspunten (cat.1) 1.1. "is het gebruiksdoel

van de test aangegeven?" men vindt het heel belangrijk dat er goed over tests is nagedacht, wat het doel is,

voor welke doelgroep

1.2. "is de herkomst van het constructie-idee beschreven en/of worden de te meten constructen gedefinieerd?" het moet ook uitgelegd worden

1.3. "wordt de relevantie van de testinhoud van de te meten constructen aannemelijk

gemaakt?" waarom heeft met de items gekozen -> het moet verantwoord zijn. Bij relevantie gaat het niet over relevantie in betekenis van face valid

▪ Testmateriaal (cat. 2) - vragen voor papier- en potloodversie 2.1. "zijn de testopgaven gestandaardiseerd?" 2.2. "is er een objectief scoringssysteem?" zijn er duidelijke regels, modelantwoorden → om zorgen dat verschillende beoordelaars hetzelfde bekomen 2.3. "zijn de vragen vrij van racistische, etnocentrische, seksistische of voor bepaalde bevolkingsgroepen kwetsende inhoud? 2.4. "zijn items, testboekje, antwoordschalen en/of antwoordformulier zo ontworpen dat fouten bij invulling vermeden kunnen worden?" 2.5. "is de instructie voor de geteste volledig en duidelijk?” Is de instructie duidelijk voor de persoon, is er genoeg beschikbare tijd 2.6. “zijn de

items correct geformuleerd?” heel belangrijk: bv. fouten in de grammatica kunnen tot misverstanden leiden, dubbele negatie 2.7. “hoe is de kwaliteit van het testmateriaal?” bv. alles duidelijk leesbaar 2.8. “is het scoringssysteem zodanig ontworpen en

beschreven dat fouten bij de scoring kunnen worden vermeden?”

- vragen voor afname via computer 2.9. “is de test gestandaardiseerd of worden bij adaptieve tests beslissingsregels geëxpliciteerd?” 2.10. "is er sprake van een geautomatiseerd of objectief scoringssysteem?" 2.11. "zijn de items vrij van racistische, etnocentrische, seksistische of voor bepaalde bevolkingsgroepen kwetsende inhoud? 2.12. “is de software zodanig ontworpen dat fouten door onjuist gebruik vermeden kunnen worden?"

Standaardisatie is weer belangrijk

75 2.13. "is de instructie voor de geteste volledig en duidelijk?” 2.14. “zijn de items correct geformuleerd?” 2.15. “hoe is de kwaliteit van de vormgeving van de gebruikersinterface?” 2.16. “is de test voldoende beveiligd?” bij computertests belangrijk: mensen die niet verondersteld worden om de test af te leggen, kunnen die afleggen en in het databestand terecht komen.

▪ Handleiding (cat. 3) 3.1. "is er een handleiding beschikbaar?" 3.2. "zijn de

aanwijzingen voor de testleider volledig en duidelijk?" 3.3. "wordt informatie gegeven over de gebruiksmogelijkheden en beperkingen van de test?" 3.4. "wordt er een samenvatting van de onderzoeksresultaten gegeven?" 3.5. "wordt met voorbeelden aangegeven hoe de testscores geïnterpreteerd kunnen worden?" 3.6. "wordt gewezen op soorten informatie die bij de interpretatie van belang kunnen zijn?" 3.7. "wordt de mate van deskundigheid vereist voor bij afname en interpretatie vermeld?"

extra vragen bij computerafname 3.8. “wordt er informatie gegeven over de installatie van de computersoftware?” 3.9. “wordt er informatie gegeven over de bediening en mogelijkheden van de software?” 3.10. “zijn er voldoende mogelijkheden voor technische ondersteuning?”

▪ Normen (cat. 4) 4.1. “worden er normen verstrekt?” 4.2. “zijn de normen actueel?” Hoe ga je je ruwe scores interpreteren? - Flynn-effect - Discussie over welke termijn je erop moet zetten

normgerichte interpretatie 4.3. “wat is de kwaliteit van de verstrekte normgroepen?” a. groot genoeg? b. representatief? a) Hier zijn richtlijnen voor, deze hangen af van waar de tekst voor gebruik wordt (bv. wanneer het heel belangrijk is: levensbelangrijke keuzes. b) Regionale normen (beperkt tot een deel van het land) krijgen niet de maximale score. Bv. sample of convenience 4.4. "worden betekenis en beperkingen van de normschaal duidelijk gemaakt voor de gebruiker en is het type normschaal in overeenstemming met doel van de test?“ normschaal: percentielen, standaardscores,... 4.5. "worden gemiddelden, standaarddeviaties en gegevens over scoreverdeling gemeld?“

76 4.6. "worden gegevens verstrekt over mogelijke verschillen tussen subgroepen?" bv. waren er geslachtsverschillen, verschillen in functie van leeftijd,...? → significante verschillen tussen groepen betekenen niet altijd dat je best met aparte normgroepen werkt. Bv. ADHD: veel meer bij jongens dan bij meisjes. Als je aparte normen maak voor jongens en voor meisjes -> je gaat evenveel meisjes als jongens de ... toekennen.

4.7. "worden er gegevens verstrekt over de nauwkeurigheid van de meting en de

daarbij behorende intervallen?”

domeingerichte interpretatie 4.8. “is er voldoende overeenstemming tussen beoordelaars?” 4.9. “zijn de procedures op grond waarvan de grensscores zijn bepaald correct?” 4.10. “zijn de beoordelaars naar behoren geselecteerd en getraind?” Domeingericht: als de standaard waarmee je gaat vergelijken, iets is wat bepaald is door experten Criteriumgericht: kijken in empirisch materiaal waar de klemtoon is gelegd.

criteriumgerichte interpretatie 4.11. “rechtvaardigen de onderzoeksresultaten het gebruik van grensscores?” 4.12. “is de onderzoeksgroep in overeenstemming met het bedoelde gebruik?” 4.13. “is de onderzoeksgroep groot genoeg?”

▪ Betrouwbaarheid (cat. 5) 5.1. "worden er gegevens over de betrouwbaarheid verstrekt?" 5.2. "is betrouwbaarheid voldoende gelet op het beoogde type beslissingen?" a.paralleltestbetrouwbaarheid b.betrouwbaarheid op basis van inter-itemrelaties c.test-hertestbetrouwbaarheid d.interbeoordelaarsbetrouwbaarheid e.methoden op basis van item-responstheorie f.methoden op basis van generaliseerbaarheidstheorie of structurele vergelijkingsmodellen

5.3. “wat is de kwaliteit van het onderzoek naar de betrouwbaarheid?” a."zijn de procedures om betrouwbaarheidsgegevens te berekenen correct?" b."zijn de steekproeven in overeenstemming met het beoogde gebruik?" c."maken de verstrekte gegevens een gefundeerd oordeel mogelijk?"

▪ Begripsvaliditeit (cat. 6) 6.1. "worden gegevens over begripsvaliditeit vermeld?" 6.2. "maken de resultaten voldoende aannemelijk dat het begrip zoals bedoeld wordt gemeten?” a. dimensionaliteit van de scores b. psychometrische kwaliteit van de items c. invariantie van de factorstructuur en mogelijke itembias bij verschillende groepen?

d. convergente en discriminante validiteit e. verschillen tussen relevante groepen? f. overige gegevens

77 6.3 a. "zijn de procedures om begripsvaliditeitsgegevens te berekenen correct?“ b. "zijn de steekproeven in overeenstemming met het beoogde gebruik?“ c. "wat is de kwaliteit

van de andere maten die in het onderzoek gebruikt zijn?“ d. “is de kwaliteit van het onderzoek zodanig dat de beoordeling van de begripsvaliditeit kan worden bevestigd?”

▪ Criteriumvaliditeit (cat. 7) 7.1. "worden gegevens verstrekt over het verband test-criterium?” 7.2. “zijn de resultaten voldoende gelet op het beoogde type beslissingen?“ 7.3 a. "zijn de procedures om criteriumvaliditeitsgegevens te berekenen correct?“ b. "zijn de steekproeven in overeenstemming met het beoogde gebruik?“ c. ”wat is de kwaliteit van de criteriummaten?” d. "is de kwaliteit van het onderzoek zodanig dat de beoordeling van de begripsvaliditeit kan worden bevestigd?”

werkwijze COTAN ▪ elk van de zeven criteria wordt beoordeeld als 'onvoldoende', 'voldoende' of 'goed' ▪ quotering is soms argument voor al/niet gebruiken van een test, maar...

▪ relativerende kanttekeningen - 'goed' alleen voor gebruik bij geteste populatie - sommige criteria belangrijker dan andere - gebruik van testen die (nog) niet voldoende scoren moet beargumenteerd worden

Kan als argument gebruikt worden om een test te kiezen, maar er zijn heel weinig tests die op alle domeinen goed scoren. ‘goed’ is ook alleen maar goed bij specifieke populaties. Bv. afasiepatiënten Sommige criteria zijn belangrijker dan anderen: bv. betrouwbaarheid.

78 HOOFDSTUK 4: DE EMPIRISCHE CYCLUS ALS WETENSCHAPPELIJKE BASIS VOOR HET PSYCHODIAGNOSTISCH PROCES

Het is niet omdat je een goede test hebt, dat je aan goed diagnostiek doet. → het is een complex proces Je moet een hulpvraag behandelen. Je moet die info meenemen voordat je kan beginnen. (wat wil je patiënt)

4.1 het ongewapend oordeel

▪ diagnostiek = complex proces van verzamelen, interpreteren en afwegen van informatie met het oog op het nemen van de beslissing of er iets, en zo ja wat, gedaan kan worden t.a.v. vraag/klacht ▪ meestal geen pasklaar antwoord: “de alledaagse diagnostische situatie is doorgaans te typeren als een slecht definieerd beslissingsprobleem” ▪ diagnosticus moet oordelen en beslissen in onzekerheid ▪ als de diagnosticus niet op een systematische manier te werk gaat (="ongewapend oordeel"), is er een groot risico op fouten en vertekeningen ▪ diagnostiekopleiding in het verleden voornamelijk gericht op kennis/vaardigheden in het afnemen, scoren en interpreteren van tests

cf. psychodiagnostiek = "het onderscheiden van personen naar hun individuele psychische kenmerken, zoals die zich manifesteren in hun typische gedrags- en uitingsvormen, en wel met behulp van tests" (De Zeeuw, 1983, p. 3)

▪ nu meer aandacht voor het aanleren van systematische procedures van diagnostische besluitvorming en minder klemtoon op afnemen van tests

cf. psychodiagnostiek = "het onderscheidend vaststellen van kenmerkende psychische eigenschappen om te komen tot een goed omschreven beeld van een persoon of groep personen" (De Zeeuw, Dekker, & Resing, 2004, p. 14)

▪ kennis over hoe oordelen en beslissingen tot stand komen (cf. besliskunde) kan benut worden om de diagnostische praktijk te optimaliseren

cf. Verplaetse, J. (2008). For the Sake of Argument. Argumentatieleer voor juristen en ethici. Apeldoorn/Antwerpen: Maklu Uitgevers. Hoofdstuk 2: Over alles wat fout kan gaan in argumentaties. §1 A en B

Door onzekerheid is kennis over hoe je moet oordelen heel handig Als we fouten kennen, kunnen we ons ertegen wapenen → door systematisch te werk te gaan.

79 4. 2 denkfouten

▪ review van empirisch onderzoek naar hoe mensen oordelen en beslissen leidt tot vier ‘boute stellingen’ 1)we zijn ons vaak niet bewust van factoren die onze beslissingen beïnvloeden en vooral irrationeel maken 2)relevante informatie vinden we onbelangrijk, irrelevante informatie vinden we essentieel 3)we zijn steeds op zoek naar bevestiging, nooit naar weerlegging, zelfs niet in het geval van duidelijke tegenspraak 4)theorieën die we omtrent onszelf en anderen hebben zijn meestal onhoudbaar, hoe belangrijk we ze ook vinden en hoe zelfzeker we ook zijn

In tekst een review van emo onderzoek 4-tal conclusies over het fout het kan gaan als we niet systematisch redeneren.

stelling 1: we zijn ons vaak niet bewust van factoren die onze beslissingen beïnvloeden en vooral irrationeel maken

illustratie:

Elk van die stellingen worden geïllustreerd adhv 1 studie.

Studie: 105 studenten (ingedeeld in 7 groepen van 15): er werd een transcript van een proces (verkrachting) voorgelegd. Meisjes betichtte man van verkrachting. Er was een ooggetuige: hij trok het verhaal van het meisje in twijfel. Het verloop van het proces in transcript en aan studenten gegeven. Met een aantal manipulaties: Helft groep: toevoeging van vraag die door advocaat gesteld werd aan slachtoffer: ‘klopt het dat je je man ooit beticht hebt van verkrachting?’ 15 kregen te horen: ja dat klopt 15 kregen te horen: nee klopt niet 15: rechter zei dat vraag niet gesteld mocht worden Andere helft: toevoeging vraag aan ooggetuige: ‘klopt het dat de collega’s op je werk je niet vertrouwen?’ 15: ja

80

pedagogischekringleuven.files.wordpress.com€¦ · web view2020. 9. 24. · 49 hoe groter de...

Documents