bekwaam beoordelen en beslissen

28
56 57 Postbus 70.000 7500 KB Enschede Internet www.saxion.nl E-mail [email protected] Lectorale Rede Gerard J.J.M. Straetmans BEKWAAM BEOORDELEN EN BESLISSEN beoordelen in competentiegerichte beroepsopleidingen

Upload: votuyen

Post on 11-Jan-2017

380 views

Category:

Documents


16 download

TRANSCRIPT

56 57

Postbus 70.0007500 KB EnschedeInternet www.saxion.nlE-mail [email protected]

Lectorale RedeGerard J.J.M. Straetmans

BEKWAAM BEOORDELEN EN BESLISSENbeoordelen in competentiegerichte beroepsopleidingen

2 3

Lectorale RedeGerard J.J.M. Straetmans

BEKWAAM BEOORDELEN EN BESLISSENbeoordelen in competentiegerichte beroepsopleidingen

© G.J.J.M. Straetmans, 2006

Inhoud

Inleiding 5

Beoordelen van competenties 91 Introductie 9

2 De kernbegrippen van het nieuwe beoordelen 10 2.1 Competentie 102.2 Assessment 17

3 Knelpunten bij het gebruik van performance assessments 213.1 Hogere validiteit blijkt vaak schijn te zijn 213.2 Het dilemma van de representativiteit 223.3 Beoordelen is zelden objectief 243.4 Kunnen is iets anders dan doen 26

4 Systematisch ontwerpen van een procedure voor het beoordelen van competenties 294.1 Wat moet er beoordeeld worden? 304.2 Waarop moet gelet worden bij de beoordeling? 314.3 Wie kan er beoordelen? 354.4 Wanneer is een prestatie voldoende? 364.5 Hoeveel bewijs is er nodig? 384.6 Welke assessmentvorm? 414.7 Hoe krijg je te zien wat je wil zien? 43

5 Tot slot 44

De leeropdracht 451 Aanleiding 45

2 Blauwdruk van een nascholingscursus ‘Onderwijskundig meten’ 46

3 De kenniskring 48

Dankwoord 51

Literatuur 53

54

INLEIDING

De Europese Raad van Ministers heeft in 2000 te Lissabon de ambitie uitgespro-ken om van Europa de meest dynamische en competitieve regio van de wereld te maken. Sinds dat Lissabon-akkoord is er vooral veel gesproken over de ken-niseconomie die Europa zou moeten worden.

In de geest van Lissabon heeft de regering uitgesproken dat Nederland binnen de Europese kenniseconomie tot de top moet gaan behoren. Daarvoor heeft Nederland meer, hoger en anders opgeleide beroepsbeoefenaren nodig. Omdat nagenoeg alle deelnemers met een havo- of vwo-diploma al kiezen voor een vervolgopleiding, valt daar maar weinig winst te behalen met het oog op de doelstelling om meer hoger opgeleiden te krijgen. Kwalificatiewinst zal moeten komen uit een verbeterde doorstroming binnen de beroepsonderwijskolom. Dit vraagt om een betere motivatie van deelnemers en om een betere aansluiting van de programma’s onderling. Met de anders opgeleide beroepsbeoefenaar wordt op middelbaar niveau de ‘responsieve vakman’ bedoeld en op hoger niveau de ‘reflective practitioner’. De responsieve vakman is een beroepsbeoefenaar die kritisch is op zijn eigen werk, die creatief oplossingen kan bedenken voor onverwachte problemen, die weet wat er op zijn vakgebied speelt en een actieve, zelfverantwoordelijke houding heeft ten aanzien van zijn loopbaan (Colo, 2002). Met reflective practitioner heeft men een professional voor ogen die meer doet dan het slaafs navolgen van theoretische modellen of ingeoefende procedures; iemand die in staat en bereid is de dialoog met specifieke probleemsituaties aan te gaan en door crea-tief om te gaan met zijn intellectuele gereedschapskist tot bruikbare oplossin-gen komt (Procee, 2001).

Om meer hoger en anders opgeleide beroepsbeoefenaren te krijgen, heeft het ministerie van OCW de belangrijkste aanbeveling van de Doorstroomagenda Beroepsonderwijs (Ministerie van Onderwijs Cultuur en Wetenschappen, 2002) overgenomen, te weten dat de deelnemer en zijn ambitie centraal moeten staan. Het onderwijs moet zich aanpassen aan de deelnemer in plaats van andersom. Dat vraagt om geïndividualiseerde leerwegen, om verregaande integratie van theorie en praktijk, om een andere, minder voorschrijvende didactische benade-ring en een andere pedagogische sfeer waarin de deelnemer wordt beschouwd als een beginnend beroepsbeoefenaar in plaats van als een naïeve leerling.

Een centrale rol in deze plannen is weggelegd voor het competentie-denken. Een belangrijke reden daarvoor is dat men verwacht dat de afstemming van pro-gramma’s tussen VMBO-MBO en MBO-HBO eenvoudiger zal zijn als de curricula gebaseerd zijn op competenties in plaats van op, grotendeels door traditionele overwegingen ingegeven, vakgebieden.

De onderlinge afstemming van de opleidingsprogramma’s is niet de enige reden voor de invoering van competentiegericht onderwijs. Andere argumenten die regelmatig gehoord worden in kringen van beroepsopleiders zijn:• Verbeterde aansluiting op de arbeidsmarkt;• Geringere gevoeligheid voor veroudering van de onderwijsprogramma’s;• Verbeterde motivatie van deelnemers;• Voorkomen van overbodige scholing.

De argumenten zijn overtuigend en de verwachtingen over de opbrengsten van de onderwijsvernieuwing hooggespannen. Echter, enige zorg ten aanzien van de effectiviteit van competentiegericht opleiden is wel op zijn plaats.• Ten eerste omdat competentie zo’n onduidelijk begrip is, zoals nog zal blijken

uit het volgende hoofdstuk. Zo hebben niet alle onderwijsinstellingen dezelf-de opvattingen over wat competenties zijn. Dat is op zijn minst voor één van de beoogde doelen nadelig, namelijk de bevordering van de doorstroming in de beroepsonderwijskolom.

• In de tweede plaats omdat het op dit moment nog niet duidelijk is wat de beste manier is om deelnemers competenties te laten verwerven. Competentiegericht opleiden wordt vaak in één adem genoemd met didac-tische opvattingen die ontleend zijn aan de constructivistische leertheorie. De belangrijkste kenmerken van onderwijs waarin het competentie-denken gecombineerd wordt met de constructivistische leertheorie zijn: de praktijk staat centraal; leertaken in plaats van studievakken; leren op je eigen wijze maar tegelijk ook veel samenwerken en een docent die coacht in plaats van zegt wat je moet doen. (Dochy, 2004; Ritzen & Kösters, 2002; Lowyck, 2005). Het ontwerpen en (vooral) organiseren van onderwijs waarin met al deze aspecten wordt rekening gehouden, is verre van eenvoudig. Er zijn wel enkele instructie-ontwerpmodellen of beschrijvingen van ‘good-practice’ voorhanden maar de ondersteuning die dergelijke modellen of voorbeeldbeschrijvingen kunnen bieden is tamelijk beperkt; de concrete opleidingssituatie blijkt vaak gecompliceerder dan die welke in de voorbeelden beschreven is.

• Een derde probleem dat speelt, heeft te maken met de grootschaligheid van de vernieuwing. Er moet teveel tegelijk en met te weinig professionele onder-

steuning veranderd worden. De omvang van de operatie en de veelal gevolgde top-down benadering waarbij de docenten steevast de lastigste rol moeten spelen, maakt dat laatstgenoemden niet altijd het gevoel hebben dat het ook hun onderwijsinnovatie is. Welke uitwerking dat heeft op het vernieuwings-proces laat zich raden.

• In de laatste maar zeker niet de minste plaats omdat de vernieuwing van de beoordelingspraktijk geen gelijke tred lijkt te houden met de vernieuwingen op het gebied van leren en onderwijzen. Zo signaleert Korthagen (2004) bij-voorbeeld dat studenten van de lerarenopleiding hun competenties kunnen aantonen door in één taaksituatie bepaald gedrag te vertonen. Terecht merkt hij op dat hiermee voorbij wordt gegaan aan dé reden om competenties in te voeren in de lerarenopleiding, namelijk ‘...om vermogens te laten verwerven die een specifieke praktijksituatie overstijgen en die breed inzetbaar zijn’.

Met dit laatste punt van zorg zijn we aangekomen bij het centrale onderwerp van deze lectorale rede, namelijk het beoordelen van competenties. Traditioneel vormen beoordelingsvraagstukken het sluitstuk van onderwijsvernieuwingen. Een riskante zaak aangezien tijd, geld en menselijk uithoudingsvermogen vaak zijn uitgeput bij het naderen van de deadlines, wat de kwaliteit van het beoordelingsinstrumentarium niet ten goede komt. Een merkwaardige zaak ook omdat het zo langzamerhand toch algemeen bekend zou moeten zijn dat toet-sen en examens ‘sturend’ zijn voor het studeergedrag van de studenten en het onderwijsgedrag van de docenten en daarmee dus in hoge mate het succes van een onderwijsvernieuwing bepalen (o.a. Birenbaum & Dochy, 1996). Waar dit zogeheten sturende karakter vroeger aanleiding was om de betreffende toetsen met argwaan te bekijken, wordt het nu als een gewenste eigenschap beschouwd. Cras (1992) merkte daarover bijvoorbeeld op dat toetsen moeten sturen omdat ze anders niet deugen. Messick (1994) was de eerste om deze eigenschap for-meel als een indicator te beschouwen voor zijn nieuwe benadering van het begrip validiteit. Hij verwees ernaar met de term ‘consequential aspect’. Dit validiteitsaspect evalueert de gevolgen van de toets of het assessment voor het leren van de studenten en het onderwijzen van de docenten. Anders gezegd, of de toets of het assessment kan bewerkstelligen dat docenten de juiste zaken aan de orde stellen, studenten de juiste dingen leren en het geleerde ook wer-kelijk kunnen toepassen in authentieke taaksituaties. Dat vraagt niet alleen om andere toetsopdrachten maar ook om andere toetsprocedures. En ook om een andere prioriteitstelling bij het ontwikkelen van nieuw onderwijs: dat moet vol-gens een gezaghebbende assessmentspecialist als Popham (1998, p.245) niet eindigen met de ontwikkeling van toetsen en assessments maar ermee beginnen.

76

8 9

BEOORDELEN VAN COMPETENTIES

1 Introductie

‘Nederland is onderweg naar morgen en wil binnen tien jaar tot de kennis-economische kopgroep van Europa behoren. Om dat voor elkaar te krijgen zet de overheid zwaar in op de versterking van het beroepsonderwijs.’ Zo opent de Onderwijsraad (2003) haar advies aan de Minister over de vernieu-wing van het onderwijs in de beroepsonderwijskolom.

Samengevat komt het advies erop neer, dat het voor de kenniseconomie die Nederland wil zijn onontbeerlijk is dat er meer en beter opgeleide beroeps-beoefenaren komen. Deze kwalificatiewinst acht men vooral haalbaar als het beroepsonderwijs beter wordt afgestemd op de mogelijkheden en voorkeu-ren van de deelnemers. De vormgeving van het onderwijs zou moeten ver-schuiven van gestandaardiseerd en aanbodgericht naar persoonlijk en vraag-gericht. Het centraal stellen van de leerloopbaan van de deelnemers alsmede een betere samenwerking tussen de sectoren in de beroepskolom en tussen onderwijsinstellingen en het bedrijfsleven zouden moeten leiden tot minder uitval, meer hoger opgeleiden en beter op de dynamiek van de kennisecono-mie voorbereide beroepsbeoefenaren.

Modern beroepsonderwijs vraagt om meer integratie van theorie en praktijk en om een curriculumplanning die uitgaat van competenties in plaats van afzonderlijke studievakken. Op zijn beurt vraag dit om toetsen waarmee beoordeeld kan worden in hoeverre deelnemers geleerde kennis en vaardig-heden kunnen toepassen in een realistische context. In dat verband hoort men steeds vaker praten over assessment van competenties. De tweede para-graaf van dit hoofdstuk zullen we gebruiken om beide, nogal vage begrippen te verhelderen. In de daarop volgende paragraaf komen knelpunten rondom het gebruik van assessments aan de orde. De vierde paragraaf bespreekt de belangrijkste stappen bij het ontwerpen van een beoordelingsprocedure voor competenties.

10 11

bekwaamheid die volgens vakinhoudelijk deskundigen nodig is tot de bekwaamheid van een ‘oude rot in het vak’. Je kunt met andere woorden meer of minder competent zijn. In de tweede opvatting is competentie een bepaald punt op een of andere schaal voor bekwaamheid. Wie op of voorbij dat punt scoort wordt geacht de relevante taaksituaties adequaat en met goed gevolg uit te kunnen voeren. Die personen zijn (op dat spe-cifieke domein) competent. In deze opvatting kun je niet meer of minder competent zijn; je bent competent of je bent het niet.

• Ontwikkelbare vaardigheden of stabiele eigenschappen. Voor onderwijs-doeleinden zijn ontwikkelbare vaardigheden natuurlijk interessanter dan de meer stabiele eigenschappen maar dat wil nog niet zeggen dat laatstge-noemde geen rol van betekenis spelen in een opleidingscontext. Met name bij ‘intake beslissingen’ komen dergelijke invullingen van het competen-tiebegrip nadrukkelijker op de voorgrond.

Figuur 1 geeft schematisch weer dat competentie een begrip is met dyna-mische grenzen. De reikwijdte van het begrip is afhankelijk van de invul-ling die je geeft aan de vijf genoemde dimensies. Sommige keuzes laten het begrip uitdijen, andere beperken juist de omvang van het begrip.

Figuur 1: Het rekkelijke begrip competentie.

persoonversustaak

kenmerken

eigenschapvan persoon

of vanorganisatie

Specifiekeversus

generiekebekwaamheid

Meervoudigof enkelvoudig

standaard

ontwikkelbaarversusstabiel

COMPETENTIE

2 De kernbegrippen van het nieuwe beoordelen

Een toets heet tegenwoordig een assessment en competenties zijn in de plaats gekomen van kennis en vaardigheden. Deze modieuze termen klinken heel vertrouwd omdat ze inmiddels tot het dagelijks taalgebruik van onder-wijsmensen behoren. Toch betekent dit niet dat iedereen er dezelfde beelden bij heeft; het omgekeerde is eerder waar. Om mijn visie op het beoordelen van competenties op waarde te kunnen schatten, is het echter nodig kennis te nemen van de interpretatie die ik geef aan beide ‘fuzzy concepts’.

2.1 Competentie

Na jarenlange discussies over de beste definitie voor het begrip competentie bracht de Onderwijsraad in 2002 een publicatie uit waarvan de boodschap luidde dat het ongewenst was om één generieke definitie van het begrip competentie te geven (Onderwijsraad, 2002). Volgens de auteurs van deze publicatie zou de ware definitie namelijk niet bestaan; elke situatie kan in principe vragen om een andere interpretatie van het begrip. De vraag wat competentie is, kan daarom beter vervangen worden door de vraag: ‘Welke definitie van competentie voldoet in onze situatie het best?’. Onlangs beschreef Stoof (2005) vijf dimensies waarlangs een definitie voor eigen gebruik kan worden aangepast. We lopen ze langs en geven heel beknopt aan waarover het gaat.• Persoons- of taakkenmerken. Definities die de persoonskenmerken bena-

drukken, zijn gericht op onderliggende gedragsdimensies die uitmonden in goede prestaties. Waar taakkenmerken benadrukt worden, gaat het om de essentiële kwaliteitsaspecten van de taakuitvoering.

• Eigenschap van een persoon of van een organisatie. Is de competentie een eigenschap van een individu of van een team? In een kenniseconomie wer-ken mensen steeds vaker samen in teams. Daar waar nodig moeten hun competenties dan ook in samenhang met elkaar bezien worden.

• Specifieke of generieke bekwaamheid. Wat is de reikwijdte van de compe-tentie? Blijft die beperkt tot taaksituaties die naar vorm en inhoud sterk lijken op elkaar of gaat het om bekwaamheden die zo universeel zijn dat ze zelfs over beroepen heen het functioneren beïnvloeden?

• Meervoudige of enkelvoudige standaard. Meervoudige standaard verwijst naar een opvatting waarin competentie een aanduiding is van een zekere bekwaamheid op een bepaald gebied. Die kan variëren van de minimale

12 13

Intelligentie: fluid abilityPsychologen breken zich al jarenlang het hoofd over wat intelligentie pre-cies is. Net als bij het begrip competentie zijn er veel verschillende lezingen maar de meeste deskundigen kunnen berusten in het instrumentalistische standpunt dat zegt dat ‘ ... intelligentie is wat deze test meet’. Met ‘deze test’ wordt dan verwezen naar (een afgeleide van) de oertest voor intelligentie die door de Franse arts Binet in het begin van de 20e eeuw werd ontwikkeld. Binet was er bij die ontwikkeling van uitgegaan dat intelligentie een betrek-kelijk algemene eigenschap is, die tot uiting komt in allerlei verschillende domeinen van cognitief functioneren. Intelligentie dus als de bekwaamheid om je in allerlei situaties te kunnen redden. Met het op grote schaal toepas-sen van gestandaardiseerde intelligentietests en de daarmee beschikbaar gekomen normen, werd intelligentie steeds meer gezien als een capaciteit; een plafond voor het (cognitief) functioneren van een persoon. Intelligentie is in die opvatting een gegeven, dat niet of nauwelijks te beïnvloeden valt. Vandaar de zeer beperkte leerbaarheid in figuur 2 tegenover de ruime trans-fer naar nieuwe situaties. De bekwaamheden aan deze kant van het conti-nuüm zijn heel flexibel, fluid, zou Horn zeggen.

Vaardigheid: crystallized ability

Aan de andere kant van het bekwaamheidscontinuüm liggen de vaardighe-den. Vaardigheid wordt hier opgevat als een proces dat zich volledig auto-matisch voltrekt zodra de uitvoerig ervan eenmaal is uitgelokt door een prikkel van buiten. Het geven van een injectie, bijvoorbeeld, is een vaardig-heid die in het gezondheidszorgonderwijs net zo lang wordt geoefend tot-dat de uitvoering automatisch en foutloos verloopt. Vaardigheden kunnen heel goed aangeleerd worden maar hebben een beperkte toepasbaarheid. De bekwaamheden aan deze kant van het continuüm zijn weinig flexibel, cry-stallized in de terminologie van Horn.

Geautomatiseerde vaardigheden zijn een noodzakelijke maar onvoldoen-de basis voor het uitvoeren van taken in een realistische werksituatie. Werkprocessen zouden veel minder efficiënt zijn als een groot deel van de vaardigheden niet automatisch zou verlopen. Maar er is eigenlijk niet één functie waarbij het werk volledig op de ‘automatische piloot’ gedaan kan worden. In elke functie komt de beroepsbeoefenaar voor situaties te staan waarin geautomatiseerde procedures niet toegepast kunnen worden. Het herkennen van dergelijke situaties en een passende oplossing bedenken die ertoe leidt dat zo snel mogelijk kan worden teruggekeerd naar de geauto-

Hoe kijk ík tegen competenties aan? Competentie heeft in de eerste plaats te maken met wat iemand doet, niet met wat iemand is (eigenschap). Belangrijk is verder dat het niet gaat om wat iemand doet in één enkele taaksituatie maar juist om het vermogen of de bekwaamheid van een persoon om in een groot aantal verschillende maar gerelateerde taaksituaties dingen te doen. Zo heeft de conducteur op de trein onder andere als taak om deze op tijd te laten vertrekken (een van de kerntaken van een conducteur). Dat betekent in ieder geval dat hij de procedure voor het laten vertrekken van een trein kan uitvoeren. Die procedure varieert echter met de veranderende omstandigheden. Bijvoorbeeld als er voetbalsupporters aan boord zijn, als er invalide mensen mee moeten, als het slecht weer is of als er technische problemen zijn met de trein. Competentie is dus iets anders dan het klakke-loos uitvoeren van een geleerde vaardigheid. Je zou kunnen zeggen dat een competentie een meer algemene bekwaamheid is dan een vaardigheid. Hoe verhoudt het zich bijvoorbeeld tot dat andere begrip dat in het onderwijs veel gebruikt wordt als het om algemene bekwaamheid gaat: de intelligentie? Wellicht dat het helpt om de genoemde begrippen een plekje te geven op een continuüm (zie figuur 2) waarop bekwaamheid overgaat van heel generiek naar heel specifiek, of in de terminologie van intelligentie-onderzoeker John Horn: van fluid naar crystallized abilities (Horn, 1989).

Figuur 2: Competenties tussen vloeibare en gekristalliseerde bekwaamheden (Straetmans, 2004)

fluid abilities

i = intelligentie

c = competentie

v = vaardigheid

Leerbaarheid ++--- ---

Transfer++ --- ---

i vccrystallized

abilities

14 15

Volgens een stroming binnen de cognitieve psychologie, die bekend staat onder de naam schematheorie, bestaat er geen generieke probleemoplos-vaardigheid. Of iemand probleemoplosvaardig is, is in hoge mate afhankelijk van de vraag of die persoon een schema verworven heeft voor het type pro-bleem dat aan de orde is. Een schema is een stimulus-reponse keten ofwel een programma om een (deel van een) taak uit te voeren. Wanneer die pro-grammaatjes volledig automatisch verlopen, wordt van scripts gesproken. In overeenstemming met dit gedachtegoed beschreven Van der Maesen de Sombreff en Schakel (1999) een competentie als de bekwaamheid om sche-ma’s of scripts zodanig te schakelen dat een bepaalde taak effectief en effi-ciënt ter hand wordt genomen. Door veel te oefenen en feedback te krijgen over de resultaten komen de competenties tot ontwikkeling.

Als het doel van competentiegericht onderwijs is om mensen op te leiden die vaardig zijn in het aanpakken van slechtgestructureerdetaken, dan moe-ten we ervoor zorgen dat ze de beschikking krijgen over grote aantallen schema’s en scripts voor de taken waarmee ze naar alle waarschijnlijkheid geconfronteerd zullen worden. Die verwerf je niet door kennis te stapelen en geïsoleerde vaardigheden te trainen maar door heel veel te oefenen met het uitvoeren van slechtgestructureerde taken in zo realistisch mogelijke contex-ten.

Mijn interpretatie van het begrip competentie

Vanuit de probleemoplosvaardigheids-interpretatie kom ik dan tot de vol-gende omschrijving: Competentie behelst de bekwaamheid om op creatieve, bewuste en verantwoorde wijze geleerde kennis en vaardigheden in te zetten in slechtgestructureerde taaksituaties uit een bepaald domein, leidend tot een resultaat (proces en product) dat voldoet aan de geldende kwaliteitsnor-men gelet op de te vervullen functie of rol van de beginnend beroepsbeoefe-naar.

Uit deze omschrijving blijkt in ieder geval dat competentie geen generieke bekwaamheid is; de geldigheid beperkt zich tot een bepaalde klasse (groep) van taken. Uit de woorden ‘creatief’ en ‘bewust’ kan worden opgemaakt dat het niet gaat om rechttoe-rechtaan taken die ‘op de automatische piloot’ uitvoerbaar zijn. Er is vaak geen pasklare oplossing voorhanden en er zijn meerdere manieren waarop de taak kan worden uitgevoerd. Allereerst moet de beroepsbeoefenaar de taaksituatie taxeren. Daarbij weegt hij een aan-tal alternatieve handelwijzen of oplossingen tegen elkaar af, waarbij ook

matiseerde procedure, is de bekwaamheid die we op het oog hebben als we praten over competentie. Anders dan intelligentie en vaardigheden hebben competenties iets van beide in figuur 2 afgebeelde kwaliteiten: ze zijn zowel leerbaar als transfereerbaar.

Competentie: problem-solving ability

In bovenstaand verhaal zijn de kenmerken te herkennen van wat in de leer-psychologie wordt aangeduid als probleemoplosvaardigheid. Een begrip dat een jaar of vijftien geleden erg populair was in kringen van opleiders maar dat we inmiddels al weer bijna vergeten zijn. In feite is dit het waar het bij competenties om gaat. In de jaren dat probleemoplosvaardigheid in onderwijscontexten veel aandacht kreeg, is het vooral op een schoolse manier ingevuld. Deelnemers kregen daarbij zogeheten ‘papieren’ problemen voorgelegd om te zien of ze in staat waren de nieuw verworven kennis toe te passen op vraagstukken die niet eerder in het voorafgaande onderwijs aan de orde waren gesteld. Jonassen (2000) noemde dit goedgestructureerde problemen: de uitgangs- en doelsituatie zijn helder en volledig beschreven en de wegen waarlangs de doelsituatie bereikt moet worden, zijn beperkt in aantal. Maar in het leven van alledag en in de meeste beroepen krijgen mensen te maken met taken die vooral te typeren zijn als slechtgestructu-reerde problemen. De oplossing van dergelijke problemen valt of staat met het herkennen van de verschillende probleemtoestanden. Als het type pro-bleem eenmaal herkend is, dan is daarmee vaak ook de weg naar de oplos-sing gevonden. Doordat beginners nog maar weinig verschillende problemen gezien hebben, beschikken ze over weinig aanknopingspunten om tot de juiste oplossing te komen. De enige manier om voldoende vaardigheid te krijgen in het oplossen van slechtgestructureerde problemen is door veel te oefenen met zeer uiteenlopende problemen in zeer uiteenlopende situaties. Zo wint, bijvoorbeeld, de ervaren schaker zijn partijen niet omdat hij zoveel verder vooruit denkt dan de beginner. Was dat het geval dan had de compu-ter al veel eerder korte metten gemaakt met de wereldkampioen, aangezien de brute rekenkracht de computer in staat stelt veel meer posities door te rekenen dan de menselijke schaker. Nee, de ervaren schaker is, beter dan zijn minder ervaren collega, in staat om selectief te zoeken tussen mogelijke posities en deze te evalueren. Hij kan dit op grond van zijn grote ervaring; hij heeft gewoon heel veel verschillende schaakposities en hun uitwerking op het spelverloop gezien.

16 17

2.2 Assessment

In de introductie is geconstateerd dat anders opleiden vraagt om anders toetsen. Daarmee bedoelen we dat de aandacht bij het beoordelen in de eerste plaats dient uit te gaan naar de prestaties op taken of opdrachten waarmee de kandidaat in de vervolgsituatie ook geconfronteerd zou kun-nen worden. Terwijl prestatiebeoordeling een prima Nederlands woord is en volgens mij ook goed weergeeft waar het om gaat, wordt in de praktijk veel vaker gesproken en geschreven over ‘assessment’. Wie te rade gaat in een woordenboek Engels-Nederlands treft in de eerste plaats vertalingen aan in de financiële sfeer en pas in de laatste plaats een vertaling als ‘beoordeling’. Het stamt oorspronkelijk af van de Latijnse woorden ‘assessare’ en ‘assidere’. ‘Assessare’ betekent zoveel als het opleggen van een belasting of het vast-stellen van een tarief. ‘Assidere’ betekent ‘naast iemand zitten’. Via de selec-tiepsychologie, waar assessment en assessment center kernbegrippen zijn, is het woord doorgedrongen in het onderwijs. Daar verstaat men er het proces onder van het doelbewust verzamelen en bewerken van informatie over de prestaties van personen in een bepaald domein, met het oog op het nemen van beslissingen over die personen (Athanasou, 1997, p.22).

In Angelsaksische boeken en tijdschriften wordt de term assessment vaak voorafgegaan door een bijvoeglijk naamwoord. De volgende ‘verbindingen’ worden regelmatig gebruikt: alternative assessment, authentic assessment en performance assessment.

Alternative assessment

Alternative assessment is een term die wil aangeven dat het gaat om een reactie op een heersende praktijk inzake het beoordelen van leerlingpres-taties. Het is een term die vooral in de Verenigde Staten gemeengoed is en begrijpelijk wordt als men beseft hoezeer het Amerikaanse onderwijs in de tweede helft van de vorige eeuw in de greep was van de gestandaardiseerde meerkeuzetoetsen. Deze toetspraktijk paste uitstekend bij de (behaviouristi-sche) opvatting die leerlingen beschouwde als passieve subjecten wier voor-naamste taak het is om de inhouden die de leerkracht aanreikt, te verwer-ven. Omdat het onderwijsleerproces voor elke leerling op ongeveer dezelfde wijze verliep, konden de resultaten daarvan met gestandaardiseerde toetsen worden gemeten. Echter, belangrijke onderwijsdoelstellingen, met name die welke van leerlingen verlangden dat ze geleerde kennis en vaardigheden konden toepassen in andere contexten, konden met dergelijke toetsen niet

wordt bekeken wat de mogelijke resultaten van de oplossing zijn. Als de taaksituatie herkend wordt als een die op een standaardmanier kan worden aangepakt met één of meer van de in het geheugen opgeslagen scripts, dan zal het proces van afwegen en handelen razendsnel verlopen. Een ervaren beroepschauffeur zal snel een alternatieve route kunnen kiezen als de ver-keerssituatie daarom vraagt. Is een taaksituatie tamelijk nieuw, dan moet de beroepsbeoefenaar ter plekke een aanpak bedenken, waarvan het resultaat in de situatie zal moeten blijken. Hoeveel handelingsalternatieven voorhan-den zijn, is vooral een kwestie van de ervaring (in termen van schema’s en scripts) die iemand al heeft en van de creativiteit en kennis van de betreffen-de persoon om zo nodig wijzigingen in die schema’s en scripts aan te bren-gen. De taakuitvoerder moet te allen tijde zijn keuze kunnen verantwoorden. Niet alleen omdat hij zijn gedrag naar anderen toe moet kunnen verklaren maar ook omdat de daarvoor benodigde reflectie een kenmerk is van de pro-fessional of de zogeheten responsieve vakman. Het maakt met andere woor-den deel uit van zijn beroepshouding. Eveneens belangrijk om op te merken is dat in de definitie wordt aangege-ven dat het gaat om de bekwaamheid van de beginnende beroepsbeoefenaar. Dit betekent dat competentie, zoals hier gedefinieerd, niet kan worden opge-vat als een synoniem voor bekwaamheid op het niveau van een ervaren pro-fessional of zelfs expert. In de Angelsaksische, medische literatuur worden ‘competence’ en ‘judgement’ gebruikt om te verwijzen naar de bekwaamhe-den waarover beginnend respectievelijk ervaren artsen moeten beschikken (Eraut & du Boulay, 2000). Met ‘judgement’ wordt het hoogste bekwaamheids-niveau bedoeld, kenmerkend voor experts die op holistische wijze beslissin-gen nemen in onzekere en gecompliceerde taaksituaties. In ons taalgebied wordt wel van de ‘klinische blik’ gesproken: de arts die op onnavolgbare wijze de juiste diagnose weet te stellen. Een dergelijk bekwaamheidsniveau is het ultieme doel waarnaar elke vakman en professional zou moeten stre-ven tijdens de loopbaan, maar kan uiteraard nooit het doel zijn van beroeps-opleidingen.

18 19

Het is deze interpretatie die onderwijsvernieuwers in Nederland ook op het oog hebben als zij het hebben over ‘anders beoordelen’ en ‘nieuwe examen-vormen’ (Onderwijsraad, 2002).

Performance assessment

Volgens McMillan (2001) zijn authentic assessments altijd ‘performance-based’. Hij wil daarmee aangeven dat de beoordeling zich niet alleen richt op het (al dan niet tastbare) product maar ook op de uitvoering van werk-zaamheden die daartoe leiden. Omgekeerd geldt niet dat performance assessments altijd authentiek zijn, althans niet volledig authentiek. Zoals we straks nog zullen zien is de authenticiteit van een assessment altijd een kwestie van gradatie. Van een performance assessment is sprake als de kandidaat onder zo natuurgetrouw mogelijke omstandigheden een zo realistisch mogelijke opdracht (al dan niet expliciet verstrekt) uitvoert, waarbij hij/zij geobser-veerd wordt door minimaal één assessor die de uitvoering en het resultaat daarvan beoordeelt met behulp van vooraf gespecificeerde kwaliteitscriteria. Beter dan bovenstaande definitie geeft tabel 1 weer wat performance assess-ment behelst, door de kenmerken ervan te vergelijken met die van een tradi-tionele gestandaardiseerde toets.

Tabel 1: Kenmerken van performance assessments en gestandaardiseerde toetsen vergeleken.

Gestandaardiseerde toets Performance assessmentExclusief gericht op product Gericht op product en proces

Geïsoleerde vaardigheden Geïntegreerde vaardigheden

Reproductie van kennis Toepassen van kennis

Mentale taken Handelingstaken

Abstracte taken Taken in context

Veel korte opgaven per toets Eén of enkele taken

Eén correct antwoord per opgave Meerdere oplossingen mogelijk

Geheime opgaven Taken zijn niet per se geheim

Vindt plaats na afloop cursus Vindt plaats gedurende hele cursus

Groepsafname Individuele afname

Weinig en vertraagde feedback Veel en onmiddellijke feedback

Machinale scoring (bij gesloten toets) Waardering van prestaties door

assessor

Ver doorgevoerde standaardisatie Weinig standaardisatie

In gewijzigde vorm overgenomen uit McMillan (2001)

geëvalueerd worden. Op het moment dat vermoed werd dat het massale gebruik van deze toetsen leidde tot een daling van het onderwijsniveau, als gevolg van een verschijnsel aangeduid als ‘teaching-to-the test’, werd naarstig omgezien naar alternatieve vormen van assessment. En daaronder verstond men alle beoordelingsmethoden die verschillen van de conventi-onele pen-en-papier toets, met name van de toetsen met gesloten vragen (McMillan, 2001, p.196).

Authentic assessment

Hieronder worden vaak heel verschillende dingen begrepen. Dat wordt mede veroorzaakt door de verschillen in onderwijscultuur. In de Verenigde Staten werd de term aanvankelijk gebruikt om te verwijzen naar assessments waar-bij taken werden uitgevoerd als normaal onderdeel van het werk in de klas (Gipps, 1994). Die praktijk paste goed bij het streven om de strikte grenzen tussen instructie en assessment op te heffen (curriculum-embedded assess-ment). In Nederland, waar nooit een echte testindustrie van de grond is gekomen, wordt die strikte scheiding niet gemaakt. Op het eindexamen na worden bijna alle belangrijke beslissingen over leerlingen in het voortgezet onderwijs genomen op grond van toetsen die door leerkrachten worden gemaakt en mede daardoor goed (kunnen) zijn afgestemd op de doelstellin-gen van het onderwijs.

Een andere, wijder verbreide interpretatie is die van de ‘true test’; een term die bedacht is door Grant Wiggins, pleitbezorger voor een andere toetsprak-tijk in het Amerikaanse onderwijs. Onderstaande passage is letterlijk overge-nomen uit een van zijn pleidooien:‘...we have lost sight of the fact that a true test of intellectual ability requires the performance of exemplary tasks. First, authentic assessments replicate the challenges and standards of performance that typically face writers, business people, scientists, community leaders, designers or historians. These include writing essays and reports, conducting individual and group research, designing proposals and mock-ups, assembling portfolios, and so on. Second, legitimate assessments are responsive to individual students and to school contexts. Evaluation is most accurate and equitable when it entails human judgement and dialogue, so that the person tested can ask for clarification of questions and explain his or her answers. A genuine test of intellectual achievement doesn’t merely check ‘’standardized’’ work in a mechanical way. It reveals achievement on the essentials, even if they are not easily quantified’ (Wiggins, 1989, p.703).

20 21

3 Knelpunten bij het gebruik van performance assessments

In onderwijskringen valt een groeiende belangstelling te bespeuren voor het thema performance assessment. Voorstanders wijzen erop dat performance assessments op een meer directe en daardoor meer valide wijze kunnen meten of de onderwijsdoelen bereikt zijn, met name als die geformuleerd zijn in termen van competenties. Maar er zijn ook knelpunten verbonden aan het gebruik van performance assessments in het onderwijs. In de rest van deze paragraaf zullen we die kort aan de orde stellen.

3.1 Hogere validiteit blijkt vaak schijn te zijn

Bij performance assessments wordt er vaak gedrag beoordeeld. De overeen-komst tussen wat beoordeeld wordt en dat waarover een uitspraak gedaan moet worden, is meestal groter dan bij traditionele tests of toetsen. Dit maakt dat mensen intuïtief meer vertrouwen hebben in performance assess-ments dan in traditionele tests of toetsen. ‘Gedrag voorspelt gedrag’ heet het in lekentaal. Een uitspraak die al jaren gebruikt wordt als verkoopargument van Assessment Centers in het bedrijfsleven. Het grotere vertrouwen in per-formance assessments is echter niet altijd terecht, zoals moge blijken uit het volgende.

Data afkomstig van gedragsobservaties kunnen grofweg op twee manieren gebruikt worden (Suen, 1990):• In de eerste plaats kunnen ze gezien worden als een afspiegeling (‘sample’)

van exact dát gedrag waarnaar de interesse uitgaat. In deze toepassing wor-den geen conclusies getrokken die verder reiken dan het vertoonde gedrag zelf. Het zal duidelijk zijn dat de bruikbaarheid van de gegenereerde sco-res dan gering is. Veel meer dan een uitspraak over het prestatieniveau behaald op een concrete taak is niet mogelijk. Toepassingen vinden we vooral bij sportwedstrijden en bij simpele (geautomatiseerde) vaardighe-den. Bij deze toepassing hoeven we ons geen zorgen te maken over de vali-diteit van de scores; alleen de betrouwbaarheid moet onderzocht worden.

• In het onderwijs reikt het doel van een beoordeling altijd verder dan de prestatie op de aangeboden taak. Op basis van het geobserveerde gedrag, uitgelokt door een performance assessment, wordt een conclusie getrok-ken over de verwachte prestatie in het criteriumdomein. Laatstgenoemde

De vergelijking in tabel 1 is een zwart-wit schets; er zullen maar weinig beoordelingsinstrumenten te vinden zijn waarvan de eigenschappen precies overeenkomen met één van de twee hierboven genoemde representanten van de traditionele en alternatieve beoordelingsbeweging.

Performance assessments zijn er in soorten en maten. Op grond van hun authenticiteit onderscheiden we de volgende categorieën:• Hands-on. Dit zijn assessmentvormen waarbij kandidaten in een (nage-

noeg) reële werksituatie en met gebruik van echte apparatuur, gereed-schappen of instrumenten taken uitvoeren die kenmerkend zijn voor de te beoordelen competentie.

• Simulatie. Dit zijn assessmentvormen waarbij de kandidaat zijn bekwaamheid demonstreert onder nagebootste werkomstandigheden met gebruikmaking van al dan niet realistische apparatuur, gereedschappen of instrumenten. Rollenspel, gedragsproef (Schoonman, 2004) simulator, vir-tual reality zijn termen die in dit verband gehoord worden.

• Hands-off. Hierbij worden taken voorgelegd waaruit moet blijken of de kandidaat de cognitieve component van een competentie beheerst. Dit kan op papier maar tegenwoordig wordt steeds vaker gebruik gemaakt van de mogelijkheden die ICT te bieden heeft. Dynamische (de probleemsituatie wijzigt zich als gevolg van de keuzes die de kandidaat maakt) of statische computersimulaties zijn in bepaalde opleidingen erg populair.

Resumerend kunnen we het volgende overzicht schetsen van het brede gebied van het onderwijskundig meten (educational assessment):

Figuur 3: De positionering van toetsing en assessment binnen het domein van het onder-wijskundig meten.

Educational assessment

Toetsenmet

geslotenvragen

Performanceassessment

Gedragsproef

Alternative assessment

22 23

de tong- of aan de wangkant. Ten slotte is de positie in de kaak van invloed want als het element in de bovenkaak zit, moet er gewerkt worden vanuit de spiegel en dat is aanzienlijk moeilijker. Kortom, de assessmentprestatie op één werkstuk kan nooit representatief zijn voor de assessmentprestatie op alle werkstukken die in principe aangeboden hadden kunnen worden in een assessment. Dit betekent dat het prestatieniveau afhankelijk kan zijn van de taak of taken die de kandidaat in het assessment moet uitvoeren. Dit is geen exclusief probleem voor het tandheelkunde onderwijs. Uit de literatuur blijkt dat het probleem van de taakspecifieke prestaties in alle domeinen speelt (Linn & Burton, 1994). Taakspecifieke prestaties zijn een gevolg van het feit dat kennis en vaardigheden niet zonder meer overdraagbaar zijn van de ene toepassingscontext naar de andere. Eraut en du Boulay (2000) verwoordden dit zogeheten transferprobleem als volgt: ‘Knowledge is acquired in a par-ticular context and remains situated in that context until it can be transfor-med and resituated in another context’ (p.43).

Maar het is nog gecompliceerder want eigenlijk zijn we ook niet geïnteres-seerd in de prestatie op het assessmentdomein. Wat we echt willen weten is hoe het zit met het prestatieniveau op het criteriumdomein: dat is in dit specifieke geval de verzameling van verschillende preparerende en restaurerende handelingen, uit te voeren bij echte patiënten, met elk hun eigen (on)hebbelijkheden, onder realistische omstandigheden. In dat licht bezien is het een ernstig manco van het hierboven besproken performance assessment dat de competentie beoordeeld wordt op basis van een taak die tamelijk ver af staat van de werkelijkheid. Een kleine kies of een grote kies van kunststof is altijd hetzelfde, maar de kleine kies bij patiënt A kan heel anders van vorm zijn dan bij patiënt B. Bovendien voelt boren in kunststof totaal anders aan dan boren in echt tandmateriaal. En ten slotte is het een wereld van verschil of je boort in een stuk plastic of in een echte tand in de mond van een patiënt van vlees en bloed, die niet voor zijn plezier in de stoel zit. Figuur 4 geeft het probleem van het trekken van conclusies over competentie op basis van assessmentprestaties schematisch weer. Te zien is dat de uitgevoerde assessment-taken hier geen goede afspiegeling zijn van het assessmentdomein (tekortschietende ‘comprehensiveness’). Bovendien blijken de taken in het assessmentdomein naar inhoud en context aanzien-lijk te verschillen van de taken in het criteriumdomein (tekortschietende ‘fidelity’). Daarmee wordt het erg riskant om op grond van de resultaten op de specifieke assessment-taken een conclusie te trekken over de competen-tie ‘prepareren en restaureren van tanden en kiezen’.

term staat voor de verzameling taaksituaties waarin iemand adequaat moet kunnen functioneren als de betreffende competentie verworven is. Hier worden de gedragsobservaties gezien als een indicatie (‘sign’) voor een of ander niet waarneembaar construct. Het geobserveerde gedrag wordt opge-vat als één van de vele mogelijke manifestaties van het construct. Naast de betrouwbaarheid van de scores moet daarom expliciet aandacht besteed worden aan de validiteit van de scores.

Kortom, het validiteits-argument dat velen gebruiken om performance assessments te propageren, is zelf vaak niet valide. Het lijkt erop dat er veelal sprake is van face-validity; er wordt validiteit toegeschreven aan per-formance assessments omdat ze valide lijken.

3.2 Het dilemma van de representativiteit

Representativiteit is volgens Fitzpatrick en Morrison (1971) het belangrijkste kwaliteitsaspect van een performance assessment. Aan dit kwaliteitsaspect kunnen twee dimensies onderscheiden worden: volledigheid (comprehensiveness) en natuurgetrouwheid (fidelity). Het volgende voor-beeld helpt om te begrijpen waarom beide kwaliteiten nodig zijn om valide uitspraken te doen over de bekwaamheden die in een performance assess-ment beoordeeld worden.

Een van de belangrijkste competenties die studenten in de studie tandheel-kunde moeten verwerven, is prepareren en restaureren van elementen. In lekentaal gaat het om het boren en vullen van tanden en kiezen. Studenten leren dat in de prekliniek door te oefenen met kunststof tanden en kiezen die in een kunststof kaak geplaatst zijn, welke op zijn beurt weer in een fantoomkop zit gemonteerd. Stel dat de competentie op het gebied van pre-pareren en restaureren zou worden beoordeeld aan de hand van één in de prekliniek vervaardigd werkstuk in een kunststof element. Daar zou men ernstige bedenkingen tegen kunnen hebben. In de eerste plaats omdat één werkstuk wel erg mager is. Niet alleen omdat je een keer pech of juist geluk kunt hebben maar vooral omdat één werkstuk een slechte afspiegeling is van het assessmentdomein. Met het assessmentdomein bedoelen we alle ver-schillende taken die in het assessment aangeboden hadden kunnen worden. Het maakt nogal wat uit of je een gat moet boren in een tand, kleine kies of grote kies. En ook of dat gat in het kauwvlak zit, tussen de tanden, aan

24 25

beroepsonderwijs de proeve van bekwaamheid omarmd wordt als dé manier om competenties te beoordelen. Tot nu toe is gebleken dat het daarbij meestal gaat om een aan het eind van de opleiding of cursus georganiseerd performance assessment, waarin de deelnemer onder zo realistisch moge-lijke werkomstandigheden enkele authentieke beroepstaken moet uitvoe-ren. De vraag is of de in de proeve van bekwaamheid uitgevoerde taken het assessmentdomein in voldoende mate kunnen dekken om accurate beslis-singen te kunnen nemen over het al dan niet verworven zijn van de beoor-deelde competentie.

3.3 Beoordelen is zelden objectief

Het grote voordeel van een performance assessment is dat er vaak een dui-delijke relatie is tussen de prestatie op de assessment-taak en het functio-neren van de kandidaat in de realiteit, met name als de authenticiteit van de taak en de context hoog zijn. Het gedrag en het (tastbare) resultaat daarvan etaleren de mate van verwerving van de betreffende competentie. Dat mag zo zijn maar dat wil nog niet zeggen dat het beoordelen van de taakuitvoe-ring en het daaruit voortvloeiende resultaat een gemakkelijke opgave is. De vele, verontwaardigde discussies over de uitslagen van het praktisch deel van het rijexamen spreken wat dat betreft boekdelen.

Handboeken voor toetsconstructie hebben ons steeds voorgehouden dat de betrouwbaarheid van beoordelingen gebaat is bij beoordelingsvoorschriften die in detail voorschrijven wat er beoordeeld moet worden. In de praktijk betekent dit meestal dat complexe producten en processen ontleed worden in kleinere onderdelen of fasen waarvan de kwaliteit gemakkelijker objectief beschreven en vastgesteld kan worden. Regelmatig leidt dit tot problemen omdat kwaliteit geen eenvoudige optelling blijkt te zijn van objectieve meet-resultaten.De vraag bijvoorbeeld of een tekening van een object een natuurgetrouwe weergave is van de werkelijkheid, laat zich lastig beantwoorden door een optelling van de scores op een aantal objectief vast te stellen eigenschap-pen die elk op zich een relatie met natuurgetrouwheid hebben, zoals: Is de tekening op schaal? Kloppen alle lijnen tot het verdwijnpunt? Kloppen de schaduwen? Klopt de kleur?. Zonder uitzondering is er een positief verband tussen elke eigenschap en de natuurgetrouwheid van een tekening, maar dat wil nog niet zeggen dat positieve resultaten op al deze eigenschappen

Figuur 4: Tekortschietende representativiteit van een perfomance assessment (Straetmans & Van Diggele, 2001).

‘Basically, you can’t win’ concludeerde Kane (1992) nadat hij geconstateerd had dat het, uitgaande van een beperkte hoeveelheid tijd en geld die aan een performance assessment besteed mag worden, doorgaans niet mogelijk is om zowel de omvattendheid als de natuurgetrouwheid van een perfor-mance assessment te bevorderen. Neem bijvoorbeeld het praktisch deel van het huidige rijexamen. De ontwerpers van dat examen hebben er destijds voor gekozen om de natuurgetrouwheid zo hoog mogelijk te doen zijn. Het gevolg van die keuze is dat daarmee de regie over het assessment groten-deels uit handen is gegeven en dat het van de toevallige omstandigheden afhangt hoeveel en welke taaksituaties aan bod kunnen komen. Men had ook een andere keuze kunnen maken. Bijvoorbeeld: examen doen op een speci-aal ingericht en voor regulier verkeer afgesloten circuit, waar gedrag wordt uitgelokt door gecreëerde verkeerssituaties. Rijden op een speciaal circuit betekent echter een aantasting van de natuurgetrouwheid van het assess-ment.

Denk niet te snel dat rijexamen doen op een circuit nooit een reële optie is. In Afghanistan, bijvoorbeeld, wordt het rijbewijs uitgereikt aan degene die een speciaal voor dat doel uitgezet traject vóór- en achteruitrijdend foutloos kan afleggen.

Het hierboven genoemde probleem wordt in kringen van opleiders vaak niet onderkend. Illustratief daarvoor is de gretigheid waarmee in het (hoger)

extrapolerengeneraliseren

assessmentdomeinperformance

assessment

taakcontext

criteriumdomein

26 27

Een gevoelig probleem daarbij is dat de aanwezigheid van een assessor het te beoordelen gedrag beïnvloedt. Het is in het voordeel van de beoordeelde persoon als die zijn gedrag probeert af te stemmen op wat de assessor graag wil zien. Maar daarmee wordt gedeeltelijk het zicht ontnomen op hoe de kandidaat zou handelen in een natuurlijke situatie, als er niemand op zijn vingers kijkt. De vraag is dan hoe serieus de kandidaat de aspecten van com-petent handelen neemt. Hoe bereid is hij alles wat in de assessmentsituatie wordt gevraagd ook in de dagelijkse praktijk toe te passen. Deze bereidheid voert terug op opvattingen en attitudes, een belangrijke basiscomponent van competenties. Dat dit problematisch kan zijn, blijkt bijvoorbeeld uit het agressieve rijgedrag van een groeiende groep weggebruikers. Ongetwijfeld hebben alle agressieve rijders tijdens hun rijexamen laten zien dat ze in staat zijn om defensief te rijden, maar kennelijk is ‘kunnen’ iets anders dan ‘doen’.

In de literatuur over prestatiebeoordeling wordt dit verschijnsel beschreven met de begrippenparen ‘obtrusive vs unobtrusive observation’ en ‘maxi-mum vs typical performance’. Bij obtrusive observation is de te beoordelen persoon ervan op de hoogte dat hij geobserveerd en beoordeeld wordt. In zijn pogingen om een zo goed mogelijke prestatie te leveren, is het niet ondenkbaar dat hij zich bewust positiever gedraagt dan in een reële werksi-tuatie. Maar het kan ook dat er juist een slechtere prestatie geleverd wordt. Bijvoorbeeld omdat de persoon, door zenuwen geplaagd, apathisch of juist hyperactief reageert op de assessment-taak. Bij unobtrusive observation is de te beoordelen persoon zich er niet van bewust dat hij beoordeeld wordt. We zien het authentieke gedrag van een persoon als reactie op prikkels van-uit een reële werksituatie. Uit dat gedrag valt ook iets af te leiden over de (beroeps)houding en motivatie. Bij obtrusive observation kan waargenomen worden waartoe iemand in staat is (maximum performance), bij unobtrusive observation wat iemand werkelijk doet in een bepaalde taaksituatie (typical performance). Voor het beoordelen van competenties zijn beide observatie-vormen van belang.

Unobtrusive observation geniet in arbeidsorganisaties meer bekendheid dan in het onderwijs. De methode wordt daar vaak aangeduid met benamingen als ‘mystery guest’, ‘mystery patient’ of ‘mystery shopping’ en vooral ingezet om de kwaliteit van de dienstverlening te beoordelen. Onder werknemers is de methode niet altijd populair zoals blijkt uit het krantenbericht in figuur 5. De tegenstanders hanteren daarbij vaak als argument dat het onethisch

automatisch een natuurgetrouwe tekening opleveren. De onderlinge afstem-ming van deze eigenschappen is erg belangrijk en dat is iets wat niet door objectieve beoordelingen kan worden vastgesteld. Dat moet je ervaren via je zintuigen door de tekening op je in te laten werken.

Het gaat te ver om hieruit te concluderen dat competentiebeoordeling een kwestie van zintuiglijke ervaring is waarvoor geen objectieve maatstaven zijn te geven. Objectiveren moet. Maar er moet voor gewaakt worden dat, omwille van de objectiviteit, de beoordeling zich toespitst op de gemakkelijk te objectiveren zaken die noch elk op zich noch gezamenlijk representatief zijn voor de betreffende competentie. De verschuiving van een analytische naar een meer holistische beoordeling betekent dat er meer ruimte komt voor de subjectieve interpretaties van assessoren. Belangrijk in dit verband is dat er speciale maatregelen worden genomen die ervoor kunnen zorgen dat de interpretaties van individuele assessoren zoveel mogelijk in dezelfde richting gaan.

3.4 Kunnen is iets anders dan doen

Bij een performance assessment gaat het erom dat de te beoordelen persoon zijn kennis en vaardigheden inzet om een bepaalde prestatie te leveren. Regelmatig zal een assessmentprestatie uitmonden in een (tastbaar) pro-duct, maar er zijn meer resultaten denkbaar dan een concreet product. Zo zullen de meeste mensen het prettig vinden als de tandarts hun door cariës aangetaste kies netjes repareert maar prettiger nog als de daarvoor geko-zen ingreep kortstondig en pijnloos is. Kortom, de kandidaat tandarts zal meerdere resultaten in ogenschouw moeten nemen bij het uitvoeren van een behandeling, wat de kern vormt van competent handelen. Niet louter de te leggen vulling maar ook het welbevinden van de patiënt maakt deel uit van de kwaliteits- of prestatiecriteria op grond waarvan beoordeeld wordt in hoeverre de competentie ‘restaureren’ verworven is. Dit vraagt om han-delingen en maatregelen die tijdens het boren en vullen ertoe bijdragen dat pijn wordt voorkomen. Voor performance assessments houdt dit in dat naast het product ook de gevolgde handelwijze en het welbevinden van de patiënt beoordeeld moeten worden. In verreweg de meeste gevallen zal dit neerko-men op het waarnemen en beoordelen van het gedrag van de te beoordelen persoon.

28 29

4 Systematisch ontwerpen van een procedure voor het beoordelen van competenties

De toepassingen van performance assessments kunnen zeer divers zijn. Er blijken talloze manieren te zijn om mensen taken in een bepaalde context te laten uitvoeren met als doel daaraan conclusies te verbinden over een achterliggende bekwaamheid. De rechtvaardiging van die conclusies hangt af van de kwaliteit van de scores die een performance assessment oplevert. Deze scores moeten zuiver en relevant zijn of, in psychometrisch jargon, betrouwbaar en valide. De beste garantie daarvoor is een systematisch en weloverwogen ontwerpproces. De variabelen en activiteiten die in dat proces een belangrijke rol spelen zijn schematisch weergegeven in figuur 6.

Figuur 6: Cruciale variabelen en activiteiten bij het ontwerpen van een procedure voor het vaststellen van competentie.

prestatie-standaard

dossier

uitlokken

randvoor-waarden

registreren

operatio-nalisatie

opslagscores

conclusie

blijkt uit

vergelijken

scorenprestaties

gedrag enresultaat daarvan

taken incontexten

assessor(en)

assessment-vormen

prestatiecriteria

De te verwervencompetentie

is om nietsvermoedende mensen te observeren met als doel hun gedrag te beoordelen.

Figuur 5: Verzet tegen de ‘mystery-methode’.

CONTROLE OP CONDUCTEURS

UTRECHT – Kantoorbedienden en andere medewerkers van de NS kij-ken in de trein de conducteur op de vingers. Het NS-personeel houdt bij hoe vaak een conducteur kaart-jes controleert en of er voldoende informatie bij vertragingen wordt gegeven.

Dat heeft een woordvoerder van de NS gisteren bevestigd. De Vakbond voor Machinisten en Conducteurs (VVMC) vindt dat het bedrijf op een ‘onvolwassen’ manier met zijn rij-dend personeel omgaat. De Spoorwegen willen met de per-soneelscontrole meer zicht krijgen op de eigen dienstverlening. De controles door de NS-ers vinden door het hele land plaats.

Als daaruit naar voren komt dat niet aan de eisen wordt voldaan, neemt het spoorbedrijf eventueel maatregelen.

De VVMC vindt het vreemd dat de NS eigen personeel gebruikt om de kwaliteit van de dienstverlening in kaart te brengen. De vakbond krijgt negatieve, maar ook positieve reacties. ‘Sommigen vinden het ach-terbaks van de NS, anderen vinden het prima omdat ze hun werk goed doen’, zei een woordvoerder.

Volgens de NS vinden de perso-neelscontroles al een jaar plaats. De VVMC heeft er pas twee tot drie weken geleden van gehoord. (ANP)

Spits, 22 september 2004

30 31

4.2 Waarop moet gelet worden bij de beoordeling?

Competentie moet blijken. Als je wilt weten of iemand pannenkoeken kan bakken, proef dan de pannenkoeken die hij/zij gebakken heeft. ‘The proof of the pudding is in the eating’ zeggen de Engelsen dan. Die volkswijsheid heeft echter een beperkte geldigheid bij toepassingen op het gebied van onderwijskundig meten. Als een pannenkoekenbakker voortreffelijk sma-kende pannenkoeken bakt maar daar onevenredig veel tijd voor nodig heeft, onhygiënisch werkt, oneconomisch omgaat met ingrediënten en dergelijke, dan zouden we toch niet willen beweren dat hij een bekwame pannenkoe-kenbakker is? Bekwaam ergens in zijn betekent meer dan in staat zijn om een in één opzicht goed eindproduct te bereiken, hoewel dat op het eerste gezicht misschien het bewijs van bekwaamheid biedt. Zoals uit het eerder aangehaalde voorbeeld van de tandarts al duidelijk werd, is de manier waar-op iemand te werk gaat minstens zo belangrijk.

Hoe moet de kwaliteit van producten en processen beoordeeld worden? Wie de wat oudere literatuur over onderwijskundig meten raadpleegt, zal het opvallen dat bij het beoordelen van werkstukken en daaraan voorafgaande werkprocessen vaak sprake is van lange lijsten met zeer gedetailleerd omschreven kwaliteitscriteria. Deze kwaliteitscriteria zijn er in de eerste plaats op gericht om de aan- of afwezigheid van gewenste kenmerken in product en/of proces vast te stellen (zie figuur 7). Vaak kunnen ze kwali-teitsverschillen in de uitvoering of het product niet (volledig) verklaren. De deelhandelingen in figuur 7 zijn zonder meer belangrijke kenmerken van de procedure ‘inhalen op de snelweg’, maar iemand die alle deelhandelingen correct uitvoert kan desalniettemin een slechte inhaalmanoeuvre laten zien. Waar het werkelijk om gaat (de vloeiende, snelle en zelfverzekerde actie waarbij met alle eventualiteiten wordt rekening gehouden) is maar moeilijk in objectieve kwaliteitscriteria te vangen.

De nieuwere opvattingen houden het erop dat competenties niet objectief meetbaar zijn en zien de beoordeling daarom het liefst als een totaaloordeel over proces en/of product. In de literatuur wordt dit vaak aangeduid met de term ‘holistisch beoordelen’. Een product of proces heeft voldoende kwali-teit als een (vakinhoudelijk deskundige) assessor op grond van een gedegen observatie tot die slotsom komt.

In het hart van figuur 6 zien we de competentie die verworven en beoordeeld moet worden. Of iemand een competentie verworven heeft, moet blijken uit zijn gedrag en de resultaten daarvan in respons op al dan niet expliciet verstrekte taken. Bij een assessment wordt dergelijk gedrag uitgelokt door het aanbieden van assessment-taken. De randvoorwaarden (waaronder tijd en geld) bepalen hoe authentiek die taken en de contexten waarbinnen ze uitgevoerd worden, kunnen zijn en dus welke assessmentvormen daarvoor in aanmerking komen. Om gedrag betrouwbaar te kunnen beoordelen, is het aan te bevelen om de activiteiten ‘observeren’ en ‘beoordelen’ te scheiden. Observeren dient als activiteit niet meer in te houden dan registreren van wat er gebeurt, zo ongeveer als dat met een camera ook zou kunnen. Op basis van de registraties spreken één of meerdere assessoren een oordeel uit over het prestatieniveau van de kandidaat. Daartoe maakt men gebruik van een speciaal voor de betreffende competentie ontwikkelde set van pres-tatiecriteria. De toegekende scores worden overzichtelijk opgeslagen in een dossier en vergeleken met een prestatiestandaard waarna een conclusie getrokken wordt over de verwerving van de competentie. Alle in figuur 6 genoemde variabelen en activiteiten komen hieronder nog aan de orde bij een bespreking van de zeven vragen die het ontwerpproces sturen.

4.1 Wat moet er beoordeeld worden?

Een valkuil van de eerste orde bij het ontwikkelen van een assessmentproce-dure voor competenties is dat een competentie wordt opgevat als een vaar-digheid. Het maken van onderscheid tussen deze begrippen is van wezenlijk belang. Bij het beoordelen van een vaardigheid wordt er vooral op gelet of de deelnemer alle onderdelen of stappen van de vaardigheid correct kan uit-voeren. Met één of twee uitgevoerde opdrachten zullen de meeste assesso-ren een aardig beeld hebben van de mate waarin de betreffende vaardigheid beheerst wordt. Heel anders wordt het bij competenties. De aandacht gaat dan veel meer uit naar het vermogen van de deelnemer om de verworven kennis en vaardigheden, al dan niet in gewijzigde vorm, in allerlei nieuwe situaties toe te passen. Daarbij kan niet als vanzelfsprekend worden aan-genomen dat succesvolle toepassing in de ene situatie garanties geeft voor succesvolle toepassing in andere situaties. Voor de beoordeling betekent dit dat de opdrachten een representatieve afspiegeling (zie paragraaf 3.2) moe-ten zijn van de verschillende taaksituaties waarmee men in een vervolgsitu-atie geconfronteerd zou kunnen worden.

32 33

lerende om daar profijt van te hebben bij de sturing van zijn leerprocessen. Waar een lerende behoefte aan heeft, is informatie over dié aspecten van het proces en/of product die werkelijk van invloed zijn op de kwaliteit. In het geval van een onvoldoende prestatie is bijsturing van het onderwijsleer-proces op deze aspecten het overwegen waard. In een eerder verschenen publicatie (Straetmans, 2004) heb ik daarom voorgesteld om bij de beoorde-ling van competenties te rapporteren over deze centrale kwaliteiten, beoor-delingsaspecten genoemd, maar omwille van de nauwkeurigheid de scores op die beoordelingsaspecten te laten bepalen door scores op meer gedetail-leerde kenmerken van gedrag of producten, indicatoren geheten. Die laatste worden zo genoemd omdat ze aanwijzingen vormen voor de mate waarin een bepaalde essentiële kwaliteit aanwezig is. Dat de nauwkeurigheid daar-mee gediend zou zijn, wordt ingegeven door de verwachting dat de score op een beoordelingsaspect vaak op meer dan één indicatorscore gebaseerd zal zijn. Wanneer een assessor direct op een beoordelingsaspect zou kun-nen scoren, is de kans groot dat hij dit doet op grond van zijn herinnering aan het meest opvallende kenmerk van het gedrag of het product dat met de betreffende kwaliteit in verband kan worden gebracht. Bij de voorgestelde procedure echter, krijgt de assessor een lijst voorgelegd van indicatoren die van toepassing kunnen zijn op een bepaald beoordelingsaspect. Dat daarbij meer dan één indicator wordt gescoord, is erg waarschijnlijk. Figuur 8 geeft als voorbeeld enkele indicatoren die tezamen de operationalisatie vormen van het beoordelingsaspect ‘Rijdt onder alle omstandigheden defensief’, wat op zijn beurt weer een essentieel kwaliteitskenmerk is van de competen-tie ‘rijvaardigheid’. Het hangt van de concrete assessmentopdracht af met welke indicatoren het gedemonstreerde gedrag beoordeeld kan worden. De toegekende indicatorscores worden volgens van tevoren vastgelegde regels samengevat in een score op het ‘hogere’ beoordelingsaspect.

Een van de lastigste beslissingen bij het ontwikkelen van beoordelingsaspec-ten en daarvan afgeleide indicatoren heeft te maken met de lengte van de scoreschaal. Bij het bepalen hiervan is het goed om zich te laten leiden door de vraag hoeveel prestatieniveaus op betrouwbare wijze onderscheiden kun-nen worden. Drie is het minimum, tien zal voor de meeste toepassingen al te veel zijn. Een andere vraag die steun biedt, gaat over de wenselijkheid van een middenpositie. Als we assessoren willen dwingen om zich uit te spreken over het al dan niet voldoende zijn van een gedrags- of productkenmerk dan moet in principe voor een even aantal schaalpunten gekozen worden.

Check list: Inhalen van voertuigen op de snelweg.

Maakt voldoende vaart op rechter rijstrook

Kijkt in binnenspiegel en linker buitenspiegel

Kijkt over linkerschouder door achterste zijruit

Zet linker richtingaanwijzer aan

Gaat in vloeiende maar snelle beweging naar linker rijstrook

Zet richtingaanwijzer uit

Haalt zo snel mogelijk in gelet op de snelheid van het verkeer

op linker rijstrook

Kijkt in binnenspiegel en rechter buitenspiegel

Kijkt over rechterschouder door achterste zijruit

Zet rechter richtingaanwijzer aan

Gaat in vloeiende maar snelle beweging naar rechter rijstrook

Zet richtingaanwijzer uit

Figuur 7: Check list met uitputtende opsomming van deelhandelingen.

Dat vind ik geen goed idee. Aan holistische oordelen van vakinhoudelijke deskundigen kleven teveel nadelen. In de eerste plaats lopen dergelijke oordelen het gevaar teveel mening en te weinig feitelijk te zijn. Dat de des-kundigheid van vakmensen of professionals borg staat voor hun vermogen om accurate beoordelingen te geven, is regelmatig een illusie gebleken. De accuraatheid van holistische beoordelingen is in de afgelopen decennia vaak onderwerp van onderzoek geweest en bijna altijd werd geconcludeerd dat de kwaliteit daarvan ernstig tekort schoot, zoals bijvoorbeeld heel lang geleden al bleek in de studie van Natkin en Guild (1967). Deze onderzoekers lieten zes stafleden van de faculteit onafhankelijk van elkaar 65 door stu-denten tandheelkunde vervaardigde preklinische werkstukken beoordelen en constateerden dat bij 45 procent van de werkstukken het toegekende cijfer varieerde over vier of meer punten op een tienpuntsschaal. Slechts in vijf procent van alle gevallen varieerde het cijfer met hooguit één punt. Erger nog was het gesteld met de motivering voor het toegekende cijfer. Daarover liepen de meningen zelfs uiteen in (de schaarse) gevallen waarbij er sprake was van identieke of nagenoeg identieke beoordelingen. Het is dus een illu-sie om de grote deskundigheid van mensen te beschouwen als een waarborg voor accurate beoordelingen.In de tweede plaats zijn holistische beoordelingen voor kandidaten te glo-baal om er iets aan te hebben. De wetenschap dat een prestatie goed, vol-doende of onvoldoende is, is op zichzelf onvoldoende informatief voor een

√√

√√

√√

√√

√√

√√

√√

√√

34 35

4.3 Wie kan er beoordelen?

Eerder betoogden we dat het beoordelen van competenties niet zodanig te objectiveren is dat een willekeurig persoon die taak zou kunnen uitvoeren. Beoordelingssystemen waarmee leken uit de voeten kunnen, zijn hoogst-waarschijnlijk irrelevant voor de te beoordelen bekwaamheid of tonen slechts aan dat de bekwaamheid zelf triviaal is. Omdat het beoordelen van bekwaamheden onvermijdelijk gepaard gaat met subjectieve inschattingen, is het noodzakelijk om maatregelen te treffen die de accuraatheid van scores zoveel mogelijk kunnen waarborgen.

Een assessorentraining zou in ieder geval deel uit moeten maken van die maatregelen. In een dergelijke training leren de assessoren hoe het beoorde-lingssysteem in elkaar zit en waarom. Maar belangrijker is dat ze leren dat registreren en beoordelen twee gescheiden activiteiten horen te zijn. Wie registreren en beoordelen niet loskoppelt, loopt het gevaar om voortdurend selectief waar te nemen, zeker onder druk van de vluchtige processen die beoordeeld moeten worden.

Ook nadat een assessorentraining gevolgd is, blijft het beoordelen van gedrag en de daaruit voortkomende resultaten een moeilijke taak. Een assessor is ook maar een mens, behept met specifieke voorkeuren en zwakheden. De meest effectieve bescherming daartegen is door meerdere assessoren bij de beoordeling te betrekken. Het gemiddelde oordeel van een groep assessoren ligt dichter bij de ware beoordeling dan het individuele oordeel van één assessor.

Iets wat niet per se met de accuraatheid van de beoordeling te maken heeft maar meer met de acceptatie daarvan, is de autoriteit van de assessor. Beoordeelden hebben niet veel vertrouwen in hun beoordeling als die gege-ven is door een assessor waarvan ze de deskundigheid niet hoog achten. Assessoren die inhoudelijk onvoldoende deskundig zijn, hebben geen adequaat beeld van wat competent handelen inhoudt en evenmin van de omstandigheden en contexten waarin gehandeld moet worden, zoals onder-zoek naar het beoordelen van docentcompetenties heeft aangetoond (Dwyer, 1994) De tekortschietende deskundigheid is een reden waarom men bij zwaarwe-gende beslissingen terughoudend moet zijn met zelf- en peer-assessment. Waarmee verder niets ten nadele gezegd wil zijn over de invloed van derge-

Indicatoren voor defensief rijden

Houdt zoveel afstand tot voorgangers dat hij in noodsituaties tijdig tot stil-

stand kan komen.

(bijna) nooit (bijna) altijd

Pakt verkeerstaken steeds zo aan dat de eigen veiligheid én die van anderen

een hogere prioriteit krijgen dan het ‘recht op voorrang.

(bijna) nooit (bijna) altijd

Onderkent potentieel gevaarlijke situatie tijdig.

(bijna) nooit (bijna) altijd

Kijkt zodanig actief en gericht, dat er voldoende tijd en ruimte is om te hande-len.

(bijna) nooit (bijna) altijd

Kijkt regelmatig in de spiegels zodat wijzigingen in de verkeerssituatie tijdig worden opgemerkt.

(bijna) nooit (bijna) altijd

Corrigeert fouten van andere weggebruikers zodanig dat het overige verkeer zonder hinder en gevaar verder kan

(bijna) nooit (bijna) altijd

Figuur 8: Enkele indicatoren voor een centraal kwaliteitskenmerk van de competentie ‘rijvaardigheid’.

Hofstee (1999) noemt dit ‘het aannemen van een harde lijn jegens de beoor-delaar door die geen vluchtgedrag (in de middenpositie) toe te staan’. Toch kiest Hofstee er uiteindelijk zelf voor om met een oneven aantal schaalpun-ten (het liefst een vijfpuntsschaal) te werken met als argument dat het ‘niet chic en ook niet verstandig is om de assessor tegen zich in het harnas te jagen’ (p. 118).

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4

36 37

• de score van de kandidaat op of boven de cesuurscore ligt en als zijn prestatie in de vervolgsituatie als voldoende wordt beoordeeld;

• de score van de kandidaat onder de cesuurscore ligt en als zijn prestatie in de vervolgsituatie als onvoldoende wordt beoordeeld.

kandidaat behaalde prestatie in Aantal correcte beslissingen bij assessmentscore criteriumdomein een cesuurscore van:

… 13 14 15 16 17

A 15 vold. cb cb cb

B 8 onvold. cb cb cb cb cb

C 9 onvold cb cb cb cb cb

D 13 vold. cb

E 17 onvold

F 10 vold.

G 16 onvold. cb

H 11 onvold. cb cb cb cb cb

I 12 vold.

J 18 vold. cb cb cb cb cb

aantal correcte beslissingen 6 5 5 4 5

Tabel 2: Vaststellen van de cesuurscore volgens de ‘koninklijke weg’.

Dergelijk onderzoek om te komen tot een cesuurscore is tevens te gebrui-ken als bron van bewijs voor de validering van assessment-instrumenten. Immers, de resultaten geven informatie over de voorspellende waarde van een instrument. Het bewijs is echter veel moeilijker te vergaren dan de eenvoudige beschrijving hierboven suggereert. In de eerste plaats komt dat omdat normaal gesproken alleen geslaagde kandidaten tot een criteriumdo-mein worden toegelaten. Zo kan van iemand de rijvaardigheid in het dage-lijkse verkeer pas worden vastgesteld als hij of zij geslaagd is voor het rij-examen. Dat wil zeggen dat dergelijke onderzoeken noodgedwongen met een selecte groep kandidaten werken. In de tweede plaats omdat het erg moeilijk is om een standaard te bepalen waarmee de prestaties in het criteriumdo-mein vergeleken kunnen worden. Doorgaans is er niet zoiets als een ‘gouden standaard’ die kan gelden als een ultiem criterium waartegen prestaties in een criteriumdomein afgezet kunnen worden. Ook voor rijvaardigheid, bij-voorbeeld, bestaat zo’n criterium niet.

lijke beoordelingspraktijken op de verwerving van vaardigheden en meta-vaardigheden als reflectie en zelfsturing. Sluijsmans (2002) deed een lite-ratuurstudie naar dit onderwerp en vond dat self-, peer- en co-assessment ertoe kan leiden dat:• de kwaliteit van het leerproces verbetert;• deelnemers meer vertrouwen krijgen in het eigen handelen;• deelnemers een beter inzicht krijgen in de kwaliteit van hun werk;• deelnemers meer reflecteren op hun studiegedrag;• deelnemers tot betere leerprestaties komen;• deelnemers een hoger onafhankelijkheids- en verantwoordelijkheidsgevoel

krijgen.

4.4 Wanneer is een prestatie voldoende?

Competentie, zo hebben we hiervoor kunnen lezen, is de bekwaamheid van een beginnend beroepsbeoefenaar om adequaat te functioneren in slecht-gestructureerde taaksituaties. Vakinhoudelijk deskundigen kunnen meestal wel omschrijven wat dat adequate functioneren inhoudt. Maar daarnaar gevraagd, zullen ze het toch moeilijk vinden om deze in kwalitatieve ter-men omschreven prestatiestandaard te vertalen naar een cesuurscore op de gebruikte scoreschaal. En dat laatste is wat we nodig hebben om van een assessmentscore te kunnen zeggen of die ‘onder of boven de maat’ is.

Een mooie maar bewerkelijke methode om te komen tot een cesuurscore wordt wel aangeduid als de koninklijke weg naar het definiëren van prestatie-standaarden en houdt het volgende in: Trek een representatieve steekproef van personen uit de doelgroep, laat deze personen de assessment-taken uit-voeren en beoordeel hun prestaties. Observeer daarna de prestaties van dezelfde groep personen in het criteriumdomein (het geheel aan taken waar-voor men kan komen te staan in een reële vervolgsituatie) en laat assessoren op grond van hun observaties een verdeling aanbrengen tussen personen die voldoende en onvoldoende gepresteerd hebben. Zet de resultaten overzich-telijk bij elkaar zoals afgebeeld in tabel 2 en ga na bij welke assessment-scores (bijvoorbeeld alle scores tussen 50% en 80% van de maximum score) het aantal correcte beslissingen (in tabel 2 aangegeven met ‘cb’) het grootst is; die score komt het meest in aanmerking als cesuurscore. Van een correcte beslissing is sprake als:

38 39

(Straetmans, 2004) is getracht hiervoor een objectief criterium aan te leggen. Het uitgangspunt daarbij is dat er voor elke competentie die een persoon moet zien te verwerven een bewijsdossier (beoordelingsportfolio geheten in PPS-termen) wordt aangelegd. Allerlei bewijs kan er in worden opgenomen mits de prestatie met zekerheid toe te schrijven is aan de eigenaar van het beoordelingsportfolio en de prestatie in verband gebracht kan worden met de te verwerven bekwaamheid of competentie. De eerste voorwaarde spreekt voor zich. Pronken met de veren van een ander is niet toegestaan. De tweede voorwaarde houdt in dat het geobserveerde gedrag, of het resultaat daar-van, beoordeeld moet kunnen worden met de beoordelingsaspecten die de te verwerven bekwaamheid of competentie operationaliseren. Als dat niet kan, heeft de assessmentprestatie kennelijk niets te maken met de bekwaam-heid of competentie en kan die dus ook niet als bewijs daarvoor worden geaccepteerd. Figuur 9 laat een prototype van zo’n (elektronisch) beoorde-lingsportfolio zien. Elke keer als er een bewijsstuk is opgenomen, wordt het beoordelingsportfolio automatisch geëvalueerd. Dat wil zeggen dat de toege-kende scores worden vergeleken met prestatiestandaarden. Er wordt steeds in twee richtingen geëvalueerd. In horizontale richting wordt geëvalueerd of de laatst toegevoegde assessmentprestatie voldoet aan de horizontale prestatiestandaard. Daartoe wordt de totaalscore van dit bewijsstuk verge-leken met het totaal van de grenswaarden van de beoordelingsaspecten die bij de beoordeling van de betreffende assessmentprestatie gebruikt werden. Het eerste bewijsstuk gaat in dit geval bijvoorbeeld over de prestatie van een kandidaat op een reeks verkeersproblemen, aangeboden in een compu-tersimulatie. Deze prestatie is kwantitatief uitgedrukt in een score op twee beoordelingsaspecten. Omdat het totaal van deze twee scores (7) kleiner is dan de horizontale prestatiestandaard (8,6) is het resultaat van deze evalu-atie negatief. Als het laatst toegevoegde bewijs een negatief resultaat heeft opgeleverd, kan er uiteraard niet gestopt worden met het verzamelen van bewijs. Maar ook na een positief resultaat van een horizontale evaluatie is het niet zeker dat er gestopt kan worden met het verzamelen van bewijs. Zo kon er na toevoeging van bewijsstuk 5 (zie figuur 9) nog niet gestopt wor-den omdat de verticale evaluatie niet in elke kolom een positief resultaat had opgeleverd. Verticale evaluatie behelst dat de gemiddelde score van elk beoordelingsaspect wordt vergeleken met de grenswaarde van het betref-fende beoordelingsaspect. Ook na toevoeging van bewijsstuk 6 is nog steeds niet voldaan aan de gestelde norm (de gemiddelde prestatie op beoorde-lingsaspect 2 schiet nog tekort). Men zou nu kunnen opmerken dat het niet eerlijk is dat een lerende belast blijft met de lage scores die in het verleden

Een gemakkelijker toepasbare (en helaas ook minder valide) methode om tot een prestatiestandaard te komen, houdt in dat assessoren onafhankelijk van elkaar kritische scores bepalen op de schalen voor de beoordelingsaspecten. Veronderstel bijvoorbeeld dat een bepaalde competentie beoordeeld wordt aan de hand van zeven beoordelingsaspecten, die allemaal gescoord worden op een zespuntsschaal (waarvan de scorepunten zijn omschreven). In een speciale sessie geven zoveel mogelijk assessoren voor elk beoordelingsas-pect aan welke score minimaal behaald moet worden door een persoon die de betreffende competentie verworven heeft. Zie tabel 3 voor een fictief voorbeeld.

Beoordelingsaspecten

Assessor 1 2 3 4 5 6 7

A 3 5 4 3 4 3 5

B 4 5 4 3 4 5 5

C 5 4 4 4 4 4 5

D 4 5 4 3 4 5 5

E 3 5 4 3 4 3 5

F 4 4 4 3 4 4 5

grenswaarde 3,8 4,7 4 3,2 4 4 5

Tabel 3: Cesuurbepaling door het aangeven van kritische scores op de centrale kwali-

teitskenmerken (beoordelingsaspecten) van een competentie.

De door de assessoren aan hetzelfde beoordelingsaspect toegekende kri-tische scores worden gemiddeld en heten dan grenswaarden. Deze grens-waarden spelen niet alleen een rol bij het beantwoorden van de vraag of een assessmentprestatie voldoende of onvoldoende is maar ook bij het bepalen van hoeveel bewijs er nodig is.

4.5 Hoeveel bewijs is er nodig?

In paragraaf 3.2 werd het representativiteitsprobleem genoemd en toe-gelicht aan de hand van een voorbeeld uit het tandheelkunde onderwijs. Dat voorbeeld maakte heel duidelijk dat het onverstandig is om zwaarwe-gende beslissingen over personen te nemen naar aanleiding van slechts één assessmentprestatie. Maar hoeveel bewijs er precies nodig is, is een lastig te beantwoorden vraag. In de door Cito ontwikkelde systematiek ‘PPS’

40 41

behaald zijn. Mits het beoordelingsportfolio qua vulling blijft voldoen aan de door de opleiding vastgestelde randvoorwaarden (bijvoorbeeld ten aan-zien van het minimum aantal bewijsstukken), moet het daarom mogelijk zijn om bepaalde bewijzen buiten de evaluaties te houden. In het prototype dat in figuur 9 is afgebeeld, is een voorziening aanwezig waarmee de gebruiker kan aangeven vanaf welk bewijsstuk de scores geëvalueerd moeten worden.

4.6 Welke assessmentvorm?

Een assessmentvorm is het concrete pakket van regels en procedures dat voorschrijft hoe gedrag wordt uitgelokt, gescoord en geëvalueerd. Assessmentvormen verschillen het meest opvallend van elkaar op het aspect natuurgetrouwheid. Daarbij gaat het erom hoe echt de taakuitvoering en de context zijn. Is de taakuitvoering gericht op het bedienen van authentieke machines of gereedschappen en/of op echte mensen of dieren? Het maakt nogal wat uit of de handelingen die worden uitgevoerd echt van invloed zijn op materialen of levende wezens of dat er slechts wordt aangegeven hoe er gehandeld zou moeten worden. Met name in taaksituaties waar de emoties hoog oplopen, is kunnen soms heel iets anders dan doen! Een ander punt dat de natuurgetrouwheid beïnvloedt, heeft te maken met de vraag in hoe-verre de taakuitvoering een natuurlijk verloop mag hebben. De natuurge-trouwheid heeft eronder te leiden als er wordt ingegrepen met het oogmerk om de taakuitvoering in een bepaalde richting te leiden. Het punt is dat der-gelijk ingrijpen de kandidaat vaak aanzet tot activiteiten die hij uit zichzelf misschien niet ontplooid zou hebben. Naarmate een performance assessment een hogere natuurgetrouwheid heeft, is het beter mogelijk om voorspellingen te doen over het functioneren van de beoordeelde persoon in het criteriumdomein. Primair moet daarom de keuze vallen op een assessmentvorm die gedrag uitlokt dat zoveel moge-lijk lijkt op het gedrag in het criteriumdomein. Dergelijke natuurgetrouwe assessmentvormen worden vaak aangeduid met de term ‘hands-on’. Een prin-cipekeuze voor hands-on betekent echter niet dat andere, minder natuurge-trouwe assessmentvormen niet bruikbaar zouden zijn. Een voorbeeld kan dit helpen toelichten. Een van de kerntaken van een conducteur is dat hij in de trein een klimaat kan scheppen en handhaven waarin passagiers zich op hun gemak voelen. Daarvoor moet de conducteur onder meer goed om kunnen gaan met passagiers die zich niet aan de regels houden. Een beeldscherm-toets die videofragmenten presenteert van agressieve passagiers met als

Figu

ur

9:

Prot

otyp

e va

n e

en e

lekt

ron

isch

beo

ord

elin

gsp

ortf

olio

vol

gen

s PP

S.

42 43

Figuur 10: Een endoscopie simulator.

Een laatste hier te bespreken randvoorwaarde heeft te maken met de beschikbaarheid van geschikte taken. Bepaalde casussen, zoals ziektege-vallen, storingen in installaties, rampen, en dergelijke, zijn niet op afroep beschikbaar en lenen zich derhalve niet voor beoordeling door middel van een assessmentvorm met hoge natuurgetrouwheid. Of een arts een tri-age kan uitvoeren (een triage is een classificatie van gewonden die na een ramp wordt uitgevoerd met het oog op het zo effectief mogelijk benutten van de schaarse medische voorzieningen) is iets wat niet met een hands-on assessmentvorm beoordeeld kan worden. Competenties op dit vlak moeten noodgedwongen beoordeeld worden in een rampenoefening met grote aan-tallen Lotuspatiënten (mensen die getraind zijn in het voorwenden van een bepaalde ziekte of verwonding). Uiteraard komt daarbij de vraag op of bewe-zen bekwaamheden tijdens de rampenoefening ook gedemonstreerd zullen worden als er een echte rampsituatie is.

4.7 Hoe krijg je te zien wat je wil zien?

Tenzij ervoor gekozen wordt om personen te beoordelen zonder dat die ervan op de hoogte zijn (unobtrusive observation), moet binnen de moge-

opdracht uit een lijst van mogelijke reacties steeds de beste te kiezen, kan inzicht geven in de afwegingen die de conducteur maakt op grond van ken-nis van en ervaring met soorten agressie en de beste bestrijdingsmethodes daarvan, maar niet in wat iemand werkelijk zou doen in zo’n situatie. Dat kan alleen door de te beoordelen persoon in een treincoupé te confronteren met agressieve personen. Dit betekent echter niet dat een hands-off assess-mentvorm, zoals genoemde beeldschermtoets, helemaal niet bruikbaar zou zijn. Naar alle waarschijnlijkheid heeft één van de beoordelingsaspecten die gebruikt gaat worden om de betreffende competentie te beoordelen, te maken met ‘het signaleren van eerste tekenen van agressie’. En dat is iets wat heel goed met videofragmenten te beoordelen valt. Sterker nog, de beeldschermtoets kan een onmisbare aanvulling betekenen voor het geval dat bij gebruik van een natuurgetrouwe assessmentvorm te weinig verschil-lende taaksituaties kunnen worden aangeboden.

In het algemeen zijn er drie redenen om af te wijken van de principekeuze voor een zo natuurgetrouw mogelijke assessmentvorm. In figuur 6 zijn die opgenomen als ‘randvoorwaarden’ waaraan de organisatie heeft te voldoen bij het opzetten van een assessmentplan. De eerste randvoorwaarde heeft te maken met de beschikbaarheid van tijd en geld. Hoe realistischer taakuitvoe-ring en context moeten zijn des te meer tijd er gemoeid is met de beoorde-ling. Immers, als er niet ingegrepen kan worden in de taakuitvoering, duurt het doorgaans lang voordat alle gedrag waarin men geïnteresseerd is, zich heeft voorgedaan. Soms ook gaat een realistische taakuitvoering teveel geld kosten. Bepaalde processen in de chemische industrie bijvoorbeeld, zijn te duur om er in het kader van een beoordeling risico mee te willen lopen. Dure producten die maar eenmalig gebruikt kunnen worden, komen evenmin in aanmerking voor gebruik in een performance assessment. Zo maakt de luchtmacht gebruik van een simulator om te kunnen beoordelen of een mili-tair team voldoende bekwaamheid heeft om een Patriot raket te lanceren.

Een tweede randvoorwaarde die beperkingen oplegt aan de keuze voor assessmentvormen is veiligheid. Als de beoordeelde en/of diens omge-ving door foute handelingen gevaar lopen of hinder ondervinden, is het zaak om terughoudend te zijn met natuurgetrouwe assessmentvormen. Noodlandingsprocedures worden om die reden geoefend en beoordeeld in een vluchtsimulator. ‘Dichter bij de grond’ zijn er ook toepassingen. Of specialis-ten in opleiding bekwaam zijn om endoscopisch onderzoek uit te voeren, kan (ten dele) blijken uit hun verrichtingen op een speciale pop (zie figuur 10).

44 45

DE LEEROPDRACHT

1 Aanleiding

Succesvolle curriculumvernieuwing vergt een gelijktijdige vernieuwing van het proces van toetsing en examinering. Bij Saxion Hogescholen staat de cur-riculumherziening in het teken van vraaggestuurd en competentiegericht opleiden, concreet vormgegeven volgens de filosofie van de Persoonlijke Leerweg (PLW). Terwijl voor toetsing bij traditionele opleidingsconcepten vaak niet meer dan een marginale rol is weggelegd, geldt voor de PLW dat toetsing en assessment centraal staan. Dit betekent onder andere een ver-schuiving van het toetsen van voorwaardelijke kennis en vaardigheden naar het beoordelen van processen en producten waaruit competentie kan blijken. In een vrij recente publicatie concludeert de Onderwijsinspectie dat het gebrek aan deskundigheid op het gebied van toetsing een belemme-rende factor is voor de onderwijsvernieuwing (Inspectie van het Onderwijs, 2003). Hoewel de genoemde publicatie geen onderscheid maakt tussen de traditionele en de meer moderne, op competenties gerichte toetsvormen is het vrijwel zeker dat de deskundigheid van docenten ten aanzien van de eerstgenoemde toetsvormen groter is. Voor de Raad van Bestuur van Saxion Hogescholen was dit een reden om binnen het bestaande lectoraat Assessment een tweede lector aan te stellen, die bij de uitvoering van de leeropdracht expliciet aandacht zou besteden aan de deskundigheidsbevor-dering op het gebied van instrumenten en procedures voor het beoordelen van competenties. Hiermee zou tegemoet gekomen moeten worden aan vra-gen waarvoor docenten zich momenteel gesteld zien, zoals:• Hoe kan het portfolio als methode worden ingezet om op betrouwbare en

valide wijze conclusies te trekken over de verwerving van beroepscompe-tenties en generieke hbo-competenties?

• Welke assessmentvorm verdient de voorkeur?• Hoe kunnen conclusies over competentie(s) gebaseerd worden op de ver-

zameling van bewijsstukken?• Hoeveel bewijs is er nodig om een gedegen conclusie over competentie(s)

te trekken?• Hoe valt leerwegonafhankelijk toetsen te combineren met de gedachte van

een assessmentsysteem dat volledig geïntegreerd is met het instructiesy-steem?

• Zijn formatieve en summatieve beoordelingsystemen noodzakelijk geschei-den of is het mogelijk om beoordelingen voor beide functies te gebruiken?

lijkheden van de gekozen assessmentvorm het gewenste gedrag worden uitgelokt door een impliciete of expliciete opdracht. Naarmate de assess-mentvorm een geringere natuurgetrouwheid heeft, zal er vaker expliciet een opdracht gegeven moeten worden aan de kandidaat. Daarmee blijft minstens één belangrijk aspect van een competentie buiten beschouwing, te weten: het vermogen om in een bepaalde taaksituatie de signalen te detecteren die het noodzakelijk maken om tot actie over te gaan. Als, bijvoorbeeld, een leraar-in-opleiding een reeks videofragmenten krijgt voorgelegd met de vraag om de fragmenten te selecteren waar zonder ingrijpen van de kant van de leerkracht ordeproblemen dreigen te ontstaan, dan geven de responsen minder rijke informatie dan wanneer het detecteren van potentiële orde-verstorende factoren zou worden beoordeeld in de context van een ruimere opdracht in een authentieke schoolsituatie. De expliciete opdracht zet de kandidaat als het ware ‘op scherp’.

Diverse auteurs geven advies over wat goede assessment-taken zijn (McMillan, 2001, pp. 210-215; Tombari & Borich, 1999, pp. 152-154; Popham, 1998, pp. 147). De meeste adviezen hebben echter een hoog open-deur gehalte (‘de taak moet duidelijk zijn voor de kandidaat’) of laten de lezer achter met de vraag hoe eraan te voldoen (‘de taak moet de kandidaat laten worstelen met een complex probleem dat op verschillende manieren kan worden opgelost’). Een advies dat in genoemde bronnen vaak werd gemist maar heel voor de hand liggend is, luidt: Zorg ervoor dat de taak gedrag uit-lokt dat beoordeeld kan worden met de eerder geformuleerde beoordelings-aspecten. Immers, de beoordelingsaspecten vormen de operationalisatie van de competentie die beoordeeld moet worden. Als geen van de beoordelings-aspecten gescoord kan worden, dan moet de conclusie luiden dat men niet het goede gedrag te zien heeft gekregen.

5 Tot slot

In dit hoofdstuk heb ik geprobeerd de lezer te laten ervaren welke proble-men er spelen als beoordeeld moet worden in hoeverre studenten de ver-eiste competenties verworven hebben en wat de belangrijkste stappen zijn bij het ontwerpen van een beoordelingsprocedure voor competenties. Uit de onderzoeksliteratuur en uit gesprekken met docenten is mij gebleken dat dit in veel opleidingen een nog onontgonnen terrein is. Hier ligt een mooie leer-opdracht voor een lector assessment!

46 47

• Kwaliteitsborger/innovator. Hierbij gaat het om een docent die lid is van een examencommissie of die (mede-) verantwoordelijkheid draagt voor de opzet, uitvoering en evaluatie van het assessmentbeleid van de oplei-ding. Het betreft ook docenten die voor zichzelf een rol zien weggelegd als katalysator van vernieuwingen op het gebied van assessment.

De hierboven genoemde rollen doen in toenemende mate een beroep op kennis en vaardigheden op het gebied van de onderwijskundige toepassing van assessment-instrumenten en –procedures. De cursus Onderwijskundig meten dient daarom een modulaire opzet te krijgen zodat de inhoud van de nascholing afgestemd kan worden op de behoeften vanuit de te spelen rol.

Module 1 wil cursisten die kennis en vaardigheden laten verwerven die nodig zijn om op verantwoorde wijze gebruik te kunnen maken van instru-menten en hulpmiddelen voor het vaststellen van leerresultaten (achieve-ment) en meer stabiele persoonlijke eigenschappen (aptitude, attitude) of om dergelijke instrumenten te ontwikkelen voor eigen gebruik.

Module 2 geeft achtergronden bij en handzame procedures voor het con-strueren van kennistoetsen en performance assessments voor herhaald gebruik hetzij door de ontwikkelaar zelf hetzij door anderen.

Module 3 geeft cursisten kennis en richtlijnen voor het opzetten van een assessmentbeleid alsmede een introductie in die onderwerpen die zowel zorgen voor een dieper begrip van het psychometrisch proces als voor een brede kijk op innovatieve assessment-toepassingen.Tabel 4 laat zien welke modules gevolgd zouden kunnen worden als voor-bereiding op of voorwaarde voor het vervullen van een bepaalde rol in het assessmentbeleid van de opleiding of instelling.

Module 1 Module 2 Module 3

Assessor X

Constructeur X X

Kwaliteitsborger/innovator X X X

Tabel 4: Suggestie voor een koppeling van rollen en cursusmodules.

Wie alle drie modules gevolgd (en gehaald) heeft, mag zich ‘assessmentspeci-alist’ noemen. Zo’n persoon kan alle hierboven genoemde rollen vervullen.

Nogal wat voorstanders van competentiegericht opleiden vinden dat traditi-onele, op kennis gerichte toetsen overbodig zijn geworden. Immers, als een kandidaat laat zien dat hij/zij de beroepstaken op adequate wijze kan uit-voeren, zou dat automatisch inhouden dat de daarvoor vereiste kennis ook beheerst wordt. Theoretisch klopt dit wel, maar in de praktijk is het maar de vraag of met de voorgelegde taken in een performance assessment al die kenniselementen aan de orde komen die de noodzakelijke kennisbasis vor-men van een beginnend professional. Vanuit dat gezichtspunt blijven expli-ciete kennistoetsen noodzakelijk. Misschien niet in summatieve zin, om te beslissen of een competentie al dan niet verworven is, maar wél om bijvoor-beeld te bepalen of een student de kennis beheerst die nodig is om zinvol en efficiënt te kunnen leren van het uitvoeren van authentieke beroepstaken.De implicatie van deze opvatting voor het opzetten van een nascholingscur-sus Onderwijskundig meten is dat de traditionele toetsvormen daarbij niet vergeten mogen worden.

2 Blauwdruk van een nascholingscursus ‘Onderwijskundig meten’

Het uiteindelijke doel van de cursus is om HBO-docenten zodanig bij te scholen op het gebied van assessment dat de interne kwaliteitszorg ten aanzien van het onderdeel toetsing en examinering gewaarborgd is en de externe kwaliteitszorg in de vorm van visitaties, met vertrouwen tegemoet gezien kan worden.Bij het opzetten, uitvoeren en evalueren van assessmentbeleid zijn alle docenten betrokken, zij het niet allemaal vanuit dezelfde rol. De volgende rollen worden hier onderscheiden:• Assessor. Dit is een docent die een deel van zijn tijd besteedt aan het

beoordelen van prestaties van studenten met het oog op het nemen van beslissingen over intake/plaatsing, voortgang en certificering. Het behoort tot de taak van de assessor om beslissingen over studenten te kunnen verantwoorden onder verwijzing naar de kwaliteitseisen die daarover zijn opgesteld door de instelling of opleiding.

• Constructeur. Dit is een docent die alleen of samen met anderen (onder-delen van) assessment-instrumenten construeert. De constructeur is ervoor verantwoordelijk dat de ontwikkelde instrumenten of procedures eenvoudig bruikbaar en nuttig zijn en de juiste informatie opleveren.

48 49

Figuur 11: De kenniskring: leden en opbrengsten.

Geke WalpotToetsdeskundige bij Cito, unit BBE/HOSpecialisatie: Computergestuurde performance assessments.

Gerard StraetmansLector AssessmentSpecialisatie: Moderne vormen van toetsing en assessment.

De verwachting is dat de cursus Onderwijskundig meten kan voorzien in de specifieke behoefte aan expertise die uitvoering van het nieuwe assessment-beleid (Saxion Hogescholen, 2003) ten dienste van de Persoonlijke Leerweg met zich meebrengt. Uiteraard geldt dat alleen als de cursusdoelen werke-lijk bereikt zijn door de cursisten. Dat vraagt om een afsluitende toets voor elke cursusmodule, liefst door een onafhankelijke, geaccrediteerde instantie zodat ‘assessor’, ‘constructeur’ en ‘kwaliteitsborger/innovator’ en daarmee ‘assessmentspecialist’ erkende kwalificaties worden. De aantrekkelijkheid om alle drie modules en daarmee de erkende titel te halen, wordt nog ver-groot als de specialisatie officieel deel zou uitmaken van de hogere onder-wijsfuncties. Op dit terrein komen de leeropdrachten van de twee Saxion Assessment-lectoraten (assessment van docentcompetenties en assessment van studentcompetenties) bij elkaar.

3 De kenniskring

De uitvoering van de leeropdracht is het werk van de leden van de kennis-kring. Zij doen toegepast onderzoek en (vooral) ontwikkelingswerk en zorgen ervoor dat de resultaten hun weg vinden naar de academies en opleidingen. Die resultaten zullen de vorm aannemen van cursussen, presentaties, artike-len, adviezen en een handboek. De leden van de kenniskring hebben allen reeds hun sporen verdiend op het gebied van toetsings- en assessmentvraag-stukken. In figuur 11 stel ik ze voor.

De ledenTheo GeudekeOnderwijskundige bij Saxion Hogescholen, Dienst Onderwijs & StudentSpecialisatie: Adviseren over onderwijsinnovatie, zowel vanuit een macro- als micro-perspectief.

Piet HendriksOnderwijskundige bij Saxion Hogescholen, Dienst Onderwijs & StudentSpecialisatie: Ontwikkelen van opleidingstrajecten-op-maat.

Jeanine TreepProductmanager bij Cito, unit BBE/HOSpecialisatie: Ontwikkelen van praktijktoetsen.

artikelen

adviezen

presentatieshandboek

nascholing

LEEROPDRACHT

TheoGeudeke

PietHendriks

JeanineTreep

GekeWalpot

GerardStraetmans

50 51

DANKWOORD

Het is merkwaardig te moeten constateren dat naarmate functies in hoger aanzien staan er minder vaak formele sollicitatierondes (assessments dus) worden gehouden om de kwaliteiten van de beoogde functionaris kri-tisch tegen het licht te houden. Zo ben ik niet, zoals dat heet, ‘op gesprek’ geweest. Natuurlijk heeft een Saxion-functionaris navraag gedaan bij mijn andere werkgever en daar waarschijnlijk te horen gekregen dat ‘hij een goeie is’. En waarschijnlijk werd deze kwalificatie gestaafd met de behaalde suc-cessen van de potentiële lector. Nou wil ik niemand verontrusten maar voor nieuwe werknemers geldt hetzelfde als voor aandelen: prestaties uit het verleden bieden geen garantie op toekomstige successen. Geen garanties dus maar gelukkig wel vertrouwen. Vertrouwen dat we deze unieke onderne-ming, want zo mag je het eerste bijzondere lectoraat van Nederland toch wel noemen, tot een goed einde zullen weten te brengen. Dat vertrouwen wordt gedeeld door de stuurgroep die de leeropdracht heeft goedgekeurd en de uitvoering ervan zal begeleiden en waarin de volgende personen zitting heb-ben: • Joop Cuppen, directeur Academie Mens en Arbeid;• Caroline van de Molen, directeur Dienst Onderwijs & Student;• Marten Roorda, algemeen directeur Cito;• Piet Sanders, hoofd Psychometrisch Onderzoek- en Kenniscentrum, Cito;• Wim Slingerland, directeur Academie Mens en Maatschappij;• Cor Sluijter, directeur unit BBE/HO, Cito;• Bert Velt, directeur Academie Financiën, Economie en Management.Ik wil hen bedanken voor het uitgesproken vertrouwen in mijn invulling van de leeropdracht en voor de vele adviezen waarmee ze mij de komende jaren vast en zeker gaan ondersteunen.

Ik dank de directie van het Cito voor het feit dat zij ons vakgebied in het hoger onderwijs onder de aandacht heeft willen brengen door de instelling en financiering van een bijzonder lectoraat. Ik ben vereerd dat ik die plaats mag bezetten.

De Raad van Bestuur van Saxion Hogescholen ben ik dank verschuldigd voor mijn benoeming en voor het in mij gestelde vertrouwen.

De opbrengstenDe leden van de kenniskring brengen hun specifieke deskundigheid in om de leeropdracht uit te voeren en dragen die kennis vervolgens over op anderen, die zich zowel binnen als buiten de Saxion organisatie kunnen bevinden. Dat gebeurt in de vorm van:• Artikelen over praktische zaken. Bijvoorbeeld: Hoe kom je tot een beoorde-

linginstrumentarium voor een beroepscompetentie?• Adviezen op afroep. Bijvoorbeeld om het personeel van een bepaalde aca-

demie te ondersteunen bij het opzetten of verbeteren van hun toets- en assessmentbeleid of bij de uitvoering daarvan.

• Presentaties op studiedagen of conferenties.• Nascholing. Dit vormt de belangrijkste opbrengst van de leeropdracht. De

kenniskring draagt zorg voor de inhoudelijke ontwikkeling en logistiek van een nascholingscursus op het gebied van onderwijskundig meten.

• Handboek. Een praktisch naslagwerk voor de docent die voor de taak staat de (beroeps)competenties van zijn studenten te beoordelen.

52 53

LITERATUUR

Athanasou, J.A. (1997). Introduction to educational testing. Wentworth Falls: Social Science Press.

Birenbaum, M. & Dochy, F.J.R.C. (1996). Introduction. In: M. Birenbaum & F.J.R.C. Dochy (Eds.), Alternatives in assessment of achievements, learning processes and prior knowledge. Boston: Kluwer Academic Publishers.

Colo (2002). Samen werken aan leren. Naar een competentiegerichte kwalifi-catiestructuur voor het middelbaar beroepsonderwijs. Zoetermeer: Colo.

Cras, P.P. (1992). Het toetsen van beroepskwalificaties: noodzaak en uit-daging voor opleiders. In: J.W.M. Kessels & C.A. Smit (Red.), Opleiders in Organisaties Capita Selecta, afl. 10: Het Toetsen van Beroepskwalificaties. Deventer: Kluwer Bedrijfswetenschappen.

Dochy, F., & Nickmans, G. (2005). Competentiegericht opleiden en toetsen. Theorie en praktijk van flexibel leren. Utrecht: Uitgeverij LEMMA BV.

Dwyer, C A. (1994). Criteria for performance-based teacher assessments: validity, standards, and issues. Journal of Personnel Evaluation in Education, 8(2), 135-150.

Eraut, M., & du Boulay, B. (2000). Developing the Attributes of Medical Professional Judgement and Competence. www.cogs.susx.ac.uk/users/bend/doh

Fitzpatrick, R., & Morrison, E.J. (1971). Performance and Product Evaluation. In E.L. Thorndike (Ed.), Educational Measurement (2nd edition), pgs. 237-270. Washington, DC: American Council on Education.Gipps, C.V. (1994). Beyond testing: Towards a theory of educational assess-ment. London: The Falmer Press.

Horn, J.L. (1989). Cognitive diversity: A framework for learning. In P.L. Ackerman, R.J. Sternberg, and R. Glaser (Eds.), Learning and individual dif-ferences: Advances in theory and research, (pgs. 61-116). New York, NY: W.H. Freeman and Co.

Caroline van de Molen bedank ik voor het bieden van onderdak aan mijn lectoraat in haar dienst en vanwege het feit dat ze mij steeds, ondanks haar overvolle agenda, van advies wil dienen.

Dankbaar ben ik ook voor de diensten van het secretariaat van de Dienst Onderwijs & Student, dat meedenken tot kunst heeft verheven. In de korte tijd dat ik bij Saxion rondloop, is mij gebleken dat zaken vaak al geregeld zijn voordat ik erom hoef te vragen. Hulde!

Mijn bijzondere dank gaat uit naar Cor Sluijter. Met zijn talent om snel kno-pen door te hakken wist hij een wild idee om te zetten in een gepolijst plan met nieuwe zakelijke mogelijkheden. Daarnaast moet het me van het hart dat het erg prettig samenwerken is met een baas die ook inhoudelijk van wanten weet.

Speciale dank verdient ook collega lector Assessment Wouter Schoonman, die mij met raad en daad terzijde stond (en nog staat) en zo wist te voorko-men dat ik in de eerste weken na mijn aanstelling ‘kopje onder ging’ in de Saxion-organisatie.

Ik beschouw het als een eer dat ik een groep van (voorlopig) vier talentvolle medewerkers uit Cito en Saxion Hogescholen mag beschouwen als míjn kenniskring. Dank aan Theo Geudeke, Piet Hendriks, Jeanine Treep en Geke Walpot voor hun bereidheid om samen met mij te willen werken aan de des-kundigheidsbevordering op het gebied van onderwijskundig meten van hbo-docenten in het algemeen en Saxion-docenten in het bijzonder.

Tot slot richt ik enkele woorden tot mijn dierbaren: Kitty, Frank, Paul en Milou. Door er ‘gewoon’ te zijn en ‘gewoon’ te doen, kreeg ik alle ruimte die ik nodig had, leidend tot de aanvaarding van deze ‘ongewone’ positie. Heel veel dank daarvoor!

54 55

Popham, W.J. (1998). Classroom assessment: What teachers need to know (2nd ed.) Needham Heights (Ma): Allyn & Bacon.

Procee, H. (2001). Competenties en onderwijs – een conceptuele analyse. Tijdschrift voor Hoger Onderwijs, 19, 4, 242-252.

Ritzen, M., & Kösters, J. (2002). Mogelijke functies van een portfolio binnen een competentiegericht curriculum. Onderzoek van Onderwijs, 31, 1, 3-8.

Schoonman, W. (2004). Assessment voor en door iedereen. Lectorale rede. Enschede: Saxion Hogescholen.

Sluijsmans, D. (2002). Student involvement in assessment. The training of peer assessment skills. Academisch proefschrift. Heerlen: Open Universiteit.

Stoof, A. (2005). Tools for the identification and description of competencies. Academisch proefschrift. Heerlen: Open Universiteit.

Straetmans, G.J.J.M. (2004). Protocol Portfolio Scoring. Een methode voor het systematisch scoren en vaststellen van competenties. BVE en HO Brochurereeks Perspectief op Assessment, nr. 4. Arnhem: Cito.

Suen. H.K. (1990). Principles of Test Theories. Hillsdale (NJ): Lawrence Erlbaum Associates.

Tombari, M., & Borich, G. (1999). Authentic Assessment in the classroom. Applications and practice. Upper Saddle River (NJ): Prentice-Hall, Inc.

Van der Maesen de Sombreff, P., & Schakel, L. (1999). Wat zijn competenties niet? Opleiding & Ontwikkeling, 12, 11-16.

Inspectie van het Onderwijs (2003). Zicht op toetsen. Toetsing en examine-ring in het Hoger Onderwijs: de stand van zaken. Utrecht: Inspectie van het Onderwijs.

Jonassen, D.H. (2000) Toward a design theory of problem solving. Educational Technology: Research and Development, 48, 4, 63-.

Kane, M.T. (1992). The validity of assessments of professional competence. (ERIC Document Reproduction Service No. ED 343 958).

Korthagen, F. (2004). Zin en onzin van competentiegericht opleiden. VELON Tijdschrift voor Lerarenopleiders, 25, 1, 13-23.

Linn, R.L., & Burton, E. (1994). Performance-based assessment: Implications of task specificity. Educational Measurement: Issues and Practice, 13, 1, 5-15.

McMillan, J.H. (2001). Classroom Assessment. Principles and practice for effec-tive instruction. Second edition. Needham Heights (MA): Allyn & Bacon.

Messick, S. (1994). The interplay of evidence and consequences in the valida-tion of performance assessment. Educational Researcher, 23, 2, 13-22.

Ministerie van Onderwijs Cultuur en Wetenschappen (2002). De doorstroom-agenda in de praktijk. Uitwerking Doorstroomagenda Beroepsonderwijs van de Commissie Boekhoud. ’s-Gravenhage: OCenW. www.minocw.nl/beroepskolom/3359/3359.pdf

Natkin, E., & Guild, R.E. (1967). Evaluation of preclinical laboratory perfor-mance: a systematic study. Journal of Dental Education, 31, 152-161.

Onderwijsraad (2002). Competenties: van complicaties tot compromis. Over schuifjes en begrenzers. Den Haag: Onderwijsraad.

Onderwijsraad (2002). Examinering in ontwikkeling. Een ontwikkelingsper-spectief voor examens in het voortgezet onderwijs, middelbaar beroepsonder-wijs en hoger onderwijs. ’s-Gravenhage: Onderwijsraad.

Onderwijsraad (2003). Onderweg in het beroepsonderwijs. Ondersteuning van de leerloopbanen van leerlingen. Advies. ’s-Gravenhage: Onderwijsraad.