vorlesung -...
TRANSCRIPT
Vorlesung
Grundlagen
Psychologischer Diagnostik und Testtheorie
Universität Leipzig
WS 2018/19
Datum: 19.12.2018
Dozent: Sascha Krause
2
Gliederung der Vorlesung
1. Einführung
2. Psychologische Tests
– Verschiedene Arten psychologischer Tests
– Items
– Statistische Itemanalysen
– Faktorenanalyse
– Normierung
3. Testgütekriterien
– Objektivität
– Reliabilität
– Validität
4. Entscheidungstheoretische Modelle
– Entscheidungsstrategien
– Güte diagnostischer Entscheidungen
– Nutzen diagnostischer Entscheidungen
5. Diagnostische Urteilsbildung
• Jede Messung ist fehlerbehaftet
• Ergebnis einer testpsychologischen Untersuchung kann nie mit einem festen Standardwert ausgedrückt werden
• Es muss immer ein Bereich angegeben werden, in dem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt
bzw. der wahre Wert mit einer bestimmten Wahrscheinlichkeit überdeckt wird
Konfidenzintervall berechnen, um Schwankungsbreite eines einzelnen Testergebnisses darzustellen
• Es hat sich eingebürgert 95% Vertrauensintervalle anzugeben (Konvention)
Zusammenfassung Konfidenzintervall
(Wiederholung)
• Verbreitete Definition des Normbereichs: ± 1 Standardabweichung
um den Mittelwert
4
3.2.5 Sprachliche Interpretation von Testwerten
6
3.2.5 Sprachliche Interpretation von Testwerten
Beispiele für sprachliche Interpretation von Testwerten unter
Berücksichtigung des Messfehlers
‒ IQ = 100, KI = [95;105]
‒ IQ = 112, KI = [108;116]
‒ IQ = 120, KI = [117; 123]
‒ IQ = 88, KI = [84;92]
‒ IQ = 83, KI = [78; 88]
• Ein Bewerber für eine Stelle, die einen überdurchschnittlichen IQ erfordert, erlangt bei einem Intelligenztest (rtt = .84) einen IQ-Wert von 110 Punkten.
• Schließen Sie den Bewerber für das weitere Bewerbungsverfahren aus, wenn Sie eine zu 95% sichere Entscheidung fällen müssten?
• Konfidenzintervall:
(zα/2 = 1,96 für α = 0,05)
• KI = [98; 122] -> Entscheidung?
• Aufgrund des Messfehlers der Verfahrens kann überdurchschnittliche Ausprägung nicht ausgeschlossen werden -> Kandidat bleibt dabei!
Beispiel
2/zXKI j)(Re1 XlsX
• Beispiel für alternative Interpretationsanleitung: Wechsler
Intelligenztest
8
3.2.5 Sprachliche Interpretation von Testwerten
• Vorschlag aus dem Schmidt-Atzert & Amelang (2012):
Normbereich ± 0.5 Standardabweichung um den Mittelwert
3.2.5 Sprachliche Interpretation von Testwerten
10
3.2.6 Der Standardmessfehler der Differenz
Frage, ob sich zwei Testwerte signifikant unterscheiden, z.B.
‒ Vergleich von Werten in Subdimensionen eines Tests (1 Person):
Unterscheiden sich verbale und numerische Intelligenz einer Person?
‒ Veränderungen zwischen zwei Testungen (1 Person): Hat sich die
Schüchternheit durch eine psychologische Intervention statistisch
signifikant verringert?
‒ Vergleiche zweier Personen: Erreichte Person A einen statistisch
signifikanten höheren Wert in dem dargebotenen Intelligenztest als
Person B?
Kritische Differenzen dienen zur Bestimmung der Bedeutsamkeit von intra- und interindividuellen Unterschieden
11
3.2.6 Der Standardmessfehler der Differenz
Zentrale Frage ist, wie groß eine beobachtete Differenz sein muss, damit
sie nicht mehr alleine mit Messfehlern erklärt werden kann.
13
3.2.6 Der Standardmessfehler der Differenz
Zentrale Frage ist, wie groß eine beobachtete Differenz sein muss, damit
sie nicht mehr alleine mit Messfehlern erklärt werden kann.
• Bei gleichen Streuungen der Testwerte (z.B. T-Wert mit sX = 10) führt die
Summation der beiden Standardmessfehler zu folgender Formel:
)(2212/ ttttXkrit rrszD
Dkrit = kritische Differenz zweier Testwerte
Zα/2 = Wert der Sicherheitswahrscheinlichkeit bzw. Irrtumswahrschein-
lichkeit für den Bereich, in dem eine Differenz nicht signifikant
von Null abweicht (da sie nur auf Messfehler beruht)
sX = Standardabweichung der Testwerte
rtt1, rtt2
= Reliabilitäten der Skalen 1 bzw. 2
14
3.2.6 Der Standardmessfehler der Differenz
Beispiel
‒ Herr K. erreicht im Subtest zur numerischen Intelligenz einen
Wert von IQ = 97 (rtt=.93) und im Subtest zur verbalen Intelligenz
einen Wert von IQ = 110 (rtt=.91). Hat Herr K. im Subtest zur
verbalen Intelligenz signifikant besser abgeschnitten als im
Subtest zur numerischen Intelligenz?
)(2212/ ttttXkrit rrszD
15
3.2.6 Der Standardmessfehler der Differenz
Beispiel
‒ Herr K. erreicht im Subtest zur numerischen Intelligenz einen
Wert von IQ = 97 (rtt=.81) und im Subtest zur verbalen Intelligenz
einen Wert von IQ = 110 (rtt=.83). Hat Herr K. im Subtest zur
verbalen Intelligenz signifikant besser abgeschnitten als im
Subtest zur numerischen Intelligenz?
)(2212/ ttttXkrit rrszD
16
3.2.6 Der Standardmessfehler der Differenz
Handelt es sich um einen Vergleich zweiter Testwerte einer Skala bzw.
eines Subtests (oder sind die Reliabilitäten zweier Skalen gleich) kann die
kritische Differenz vereinfacht so berechnet werden:
rtt = Reliabilität der Skala (bzw. des Subtests)
• Beispiel:
Unterscheidet sich die numerische Intelligenz von Herr K. (IQ = 97) im
durchgeführten Subtest (rtt=.93) signifikant von der numerischen
Intelligenz von Frau S. (IQ = 117), die den selben Subtest durchführte?
ttXkrit rszD 122/
17
Gliederung der Vorlesung
1. Einführung
2. Psychologische Tests
– Verschiedene Arten psychologischer Tests
– Items
– Statistische Itemanalysen
– Faktorenanalyse
– Normierung
3. Testgütekriterien
– Objektivität
– Reliabilität
– Validität
4. Entscheidungstheoretische Modelle
– Entscheidungsstrategien
– Güte diagnostischer Entscheidungen
– Nutzen diagnostischer Entscheidungen
5. Diagnostische Urteilsbildung
18
3.3 Validität
Unter Validität wird das Maß an Genauigkeit verstanden, mit dem
der Test dasjenige Merkmal misst, das er messen soll oder zu
erfassen vorgibt.
Wichtigstes Kriterium für die Bewertung der Güte eines Tests
Arten von Validität:
- Inhaltsvalidität
- Kriteriumsvalidität
- Konstruktvalidität
19
3.3.1 Inhaltsvalidität
Definition (Schmidt-Atzert & Amelang, 2012, S. 145):
„Unter Inhaltsvalidität versteht man, wie repräsentativ die Items eines Tests
für das zu messende Merkmal sind.“
Inhaltsvalidität ist hoch, wenn die Aufgaben völlig identisch mit den
Anforderungen sind, die in bestimmten Bereichen gestellt werden (z.B.
Prüfung der Fahrtauglichkeit, Arbeitsproben, Diagnostik-Klausur)
Vor allem kriteriumsorientierte Tests (z.B. Schulleistungstests, Klausuren)
werden inhaltsvalidiert
Kriteriumsorientierte Tests: Testverfahren, die nicht die Position einer
Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder
Verfehlen eines konkreten Kriteriums ermitteln wollen
20
3.3.1 Inhaltsvalidität
Bestimmung der Inhaltsvalidität: Beurteilung der Repräsentativität der
Items durch Experten (ggf. Möglichkeit der Bestimmung der
Beurteilerübereinstimmung)
Mögliches Vorgehen:
Präzise Beschreibung des untersuchten Inhaltsbereichs
(Zielkonstrukts)
Bestimmung des Teils des Inhaltsbereichs, der durch jedes einzelne
Item gemessen wird
Vergleich der Struktur des Tests mit der des Inhaltsbereichs
22
Übungsaufgabe Inhaltsvalidität
Geben Sie ihr Expertenurteil zur inhaltlichen Validität des
Schulleistungstests
23
3.3.1 Inhaltsvalidität
Mögliche Gründe für geringe Inhaltsvalidität:
- zu enge Operationalisierung
- falsche Gewichtung der Inhalte
- unangemessene Schwierigkeit der Items bzw. unsachgerechte
Setzung der Kriterien
Definition (Moosbrugger & Kelava, 2012, S. 18):
→ Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten der Testperson
innerhalb der Testsituation erfolgreich auf ein »Kriterium«, nämlich auf ein
Verhalten außerhalb der Testsituation, geschlossen werden kann.
→ Die Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität
(Korrelationsschluss).
Ein Kriterium sollte etwas Konkretes (und auch Relevantes) sein
direkt messbar (z.B. Abiturnote, Vorgesetztenbeurteilungen)
direkt beobachtbar (z.B. Straftaten, Alkoholkonsum)
Validitätskoeffizient rtc: Korrelation des Tests (t) mit einem Kriterium (c)
konkurrente, prädiktive und inkrementelle Validität 24
3.3.2 Kriteriumsvalidität
Konkurrente Validität (Übereinstimmungsvalidität):
→ Test- und Kriteriumswerte werden nahezu gleichzeitig erhoben
→ „Henne-Ei-Problem“
Prädiktive Validität (Vorhersagevalidität):
→ Testwerte werden zeitlich vor Kriteriumswerten erhoben
→ kann bei bestimmten Merkmalen stärkere Evidenz für Validität
liefern (z.B. Intelligenztests -> Vorhersage von späteren
Berufserfolg)
Inkrementelle Validität
Bestimmung des Zuwachses an Validität durch weiteres Verfahren
Ziel: umfassende Erklärung des Kriteriums (z.B. Berufserfolg)
Rechtfertigung des Einsatzes unökonomischer Tests bei Nachweis
inkrementeller Validität gegenüber dem ökonomischen Test
3.3.2 Kriteriumsvalidität
26
Paaraufgabe
Bitte erklären Sie sich gegenseitig die Begriffe
konkurrente, prädiktive und inkrementelle Validität.
27
3.3.2 Kriteriumsvalidität
Höhe der kriteriumsbezogenen Validität hängt von folgenden
Faktoren ab:
1. Inhaltliche Passung des Kriteriums („Validität des Kriteriums“):
vom Grad dessen, was Test und Kriterium an konzeptueller
Gemeinsamkeit enthalten
2. Reliabilität des Tests und des Kriteriums
3. Variabilität der Test- und Kriteriumswerte in der untersuchten
Stichprobe
28
3.3.2 Kriteriumsvalidität
1. Inhaltliche Passung des Kriteriums
Kriterien dürfen nicht beliebig sein
Testautoren müssen begründen, warum sie ein bestimmtes Kriterium gewählt haben (sofern das Kriterium nicht selbsterklärend ist).
Persönlichkeitsmerkmale können nicht als Kriterium fungieren, da es sich um Konstrukte handelt (siehe Konstruktvalidität).