sjÄlvrapportering och studiekamratskattning pÅ ... · begreppsvaliditet handlar om sambandet...

VALIDERING AV PERSONLIGHETSTESTET NEO PI-R™:SJÄLVRAPPORTERING OCH STUDIEKAMRATSKATTNING

PÅ FEMFAKTORMODELLEN∗

Niklas Hansen

Syftet med föreliggande undersökning var att pröva validiteten i det påfemfaktormodellen (FFM) baserade personlighetstestet NEO PI-R somär översatt och normerat till svenska. Som valideringsmetod utveckladesen förkortad version av testet för studiekamratskattning, ett själv-rapporterings- och ett studiekamratskattningstest direkt på faktornivå.Urvalet på 106 frivilliga studenter kom från psykologiska institutionenvid Stockholms universitet. En multifaktor-multimetodanalys visade påkonvergenta och divergenta korrelationer mellan mätinstrumenten vilkettyder på god validitet. Testpersonerna ansåg att NEO PI-Rs testresultatstämde överens med deras självupplevda personlighet. Vissa skillnaderfanns i förmågan att skatta sin studiekamrat beroende på kön, studietypoch grad av likhet. Diskussionen tar upp brister med skattning direkt påfaktornivå, kritik mot FFM och förslag på vidare forskning.

Inledning

Synen på personlighet och metoder att mäta den har förändrats genom tiderna. Ända tillbörjan av 1600-talet ansåg man att psykiskt sjuka kunde indelas i fyra temperament, varderabestämt av en särskild kroppsvätska. Den nedstämde melankolikern av trögflytande svart-galla, den maniska sangvinikern av för mycket blod, den rasande kolerikern av gulgalla ochden tröge flegmatikern av tjockt slem. (Egidius, 2001; Foucault, 1973). Under förstavärldskriget ökade intresset för personlighetstester i och med militärens krav på ”rätt manpå rätt plats”. Detta blev startpunkten för den så kallade traitpsykologin, som utgår från attdet finns konsistenta och stabila karaktärsdrag hos en individ (Allport, 1937). Härmed avsesinte bara beteenden utan även tankar och känslor (Johnson, 1997). Utvecklingen av traitstog på allvar fart genom faktoranalysering av tusentals personlighetsbeskrivande adjektivsom reducerats till ett varierande antal mer övergripande personlighetsdrag (Allport &Odbert, 1936; Cattell, 1946; Norman, 1963). Traitpsykologin kan därmed sägas vara ettempiriskt och systematiskt alternativ till andra teoretiska förklaringar till person-lighetsstrukturen. Enligt McCrae och John (1992) har traitteorin varit det dominanta para-digmet i europeisk personlighetspsykologi och ett av de viktigaste huvuddragen i ameri-kansk psykologi sedan Allports introduktion av traits under mellankrigstiden.

Sedan början av 1980-talet är Big Five, eller femfaktormodellen (FFM), det vanligaste sättet attmäta personlighet på. FFM bygger på tidigare traitforskning och anses av dess förespråkareha fångat upp och översatt de viktigaste personlighetsdragen till naturligt språk (Widiger &Trull, 1997). Ordet ”faktor” i femfaktormodellen anspelar på faktoranalysmetoden som lettfram till dessa fem personlighetsdrag. En faktor ska i detta sammanhang förstås som ett ∗ Undersökningen möjliggjordes genom att Psykologiförlaget AB stod för materialkostnader (inventorietNEO PI-R, profilöversikter, trisslotter). Ett stort tack till min handledare Joakim Westerlund förvärdefulla synpunkter om undersökningsdesign och statistisk hjälp i samband med multifaktor-multimetodberäkningar.

3

mer övergripande personlighetsdrag i jämförelse med traitnivån. Enligt FFM kan person-ligheten delas in i neuroticism, extroversion, öppenhet, vänlighet och målmedvetenhet.(McCrae & Costa, 1987). Faktorernas exakta benämningar råder det delade meningar om(Cloninger, 1996).

Hur väl dessa fem faktorer överensstämmer med faktorer i andra personlighetstest är inteoomstritt, men en vanlig uppfattning är att det finns betydande överlappningar mellan FFMoch andra kända personlighetstest, som exempelvis Cattells 16PF, Eysencks person-lighetstest EPI och Myer-Briggs Type Indicator (Mabon, 2002). Kopplingen till Eysenck´spersonlighetsteori kan ses som särskilt intressant då dennes teori är ett försök att grundapersonligheten biologiskt och således representerar ett fundamentalt olikt sätt att se påpersonlighet. Eysencks personlighetsteori utgår från att det finns individuella fysiologiskaskillnader i sättet som nervsystemet reagerar på olika stimuli. Detta leder till tre diametraltolika sätt att förhålla sig till omvärlden. Eysenck urskiljer på detta sätt trehuvuddimensioner av personligheten, nämligen introversion, neuroticism och psykoticism.Till exempel anses med denna teori arousalgraden (den cerebrala aktivitetsgraden) hosintroverta vara mer intensiv än hos extroverta. Medan de förra fjärmar sig från ytterligareintryck utifrån söker sig de senare aktivt ut mot omvärlden för att ”fylla på” sinaktivitetsgrad (Eysenck, 1967; 1990).

Det mest spridda och välanvända personlighetstestet av FFM är idag NEO PI-R (De Raad& Perguini, 2002). För att få sin personlighet analyserad enligt detta test ska man fylla i ettsjälvrapporteringsformulär bestående av 240 item (påståenden) som summeras ochgraderas efter statistiska normgrupper. NEO PI-R mäter fem övergripande dimensioner avpersonligheten som sammanfattar en persons känslomässiga läggning, graden av interper-sonell orientering, upplevelseorientering, värderingar och vilken typ av behov och motivsom ligger till grund för hans eller hennes handlande. För att ge mer specifika beskrivningarav personen inom de fem olika huvuddragen finns för varje faktor ytterligare sex smalare såkallade aspektskalor (Bergman, 2003). I tabell 1 på sidan 4 framgår vilka aspekter som hörtill respektive faktor.

Varje aspekt mäts i sin tur av åtta stycken item som behandlar mer specifika tankar, känsloroch beteenden. Respondenten besvarar varje påstående på en femgradig Likertskala. Ettexempel på ett item från testet (med vänd poängsättning) är item nummer 1: ”Jag är inte ensån som går och oroar mig.” Det är det första item av åtta som mäter aspekten ångest, somtillsammans med ytterligare fem aspektskalor sorterar under faktorn känslomässig insta-bilitet.

NEO PI-R är ett så kallat normativt test där individens resultat jämförs mot en normpopu-lation och mäter personlighetsdrag inom normalpersonligheten. Testet kan användas såvälkliniskt för en fördjupad förståelse för personligheten som inom det arbetspsykologiskafältet för exempelvis urval, karriärplanering och personalutveckling (Bergman, 2003).

Ett argument som enligt upphovsmakarna Costa och McCrae talar för NEO PI-R ijämförelse med en neurobiologisk ansats som hos Eysenck är att deras perspektiv hållit sigförhållandevis konstant och fritt från större förändringar sedan 1960-talet. Neurologin ochden kliniska neuropsykologin har däremot förändrats radikalt. Ständigt nya upptäckter harlett till att tidigare hypoteser om personligheten falsifierats (Costa & McCrae, 1992a; Kolb& Whishaw, 2003). Dessutom råder relativt stor oenighet kring hur personlighetsdragen

4

biologiskt ska mätas (Eysenck, 1990). Denna svårighet hänger samman med Descartesdikotomiska uppdelning mellan kropp och själ. Än idag har filosofer och vetenskapsmänstora problem med att översätta biologiska tillstånd till psykologiskt meningsfulla data.Costa och McCrae tycks därmed mena att stabilitet och enighet vid mätningar avpersonlighet är att föredra framför mer progressiva men instabilare neuropsykologiskateorier. Argumentationslinjen påminner om Kuhns (1962/1997) vetenskapsteoretiskamaxim att kunskapen inom ett ämnesområde inte får innehålla för allvarliga anomalier föratt betraktas som vetenskaplig.

Tabell 1. Översikt av NEO PI-Rs faktorer med respektive aspektskalor.

Reliabilitet och validitet inom psykometrin

Mycket av forskningen inom personlighetspsykologi och psykometrik handlar omstatistiska prövningar av personlighetsteoriers och personlighetstesters reliabilitet ochvaliditet. Med reliabilitet avses vanligtvis personlighetstestets precision och mängdenslumpmässiga fel som det genererar. Validiteten å sin sida handlar om huruvida personlig-hetstestet verkligen mäter de egenskaper av personligheten som det uppges göra och omdet därför går att dra säkra slutsatser om testpersonens personlighet.

I praktiken är gränsdragningen mellan reliabilitet och validitet en fråga om graden av likhetmellan det begrepp som ska prövas och kriteriet som det mäts mot. Korrelationer mellan

Faktor Aspekt

Känslomässig instabilitet (N-skalan) N1 ÅngestN2 IrritationsbenägenhetN3 NedstämdhetN4 SjälvosäkerhetN5 ImpulsivitetN6 Stresskänslighet

Utåtriktning (E-skalan) E1 TillgivenhetE2 SällskaplighetE3 SjälvhävdelseE4 VitalitetE5 SpänningssökandeE6 Gladlynthet

Öppenhet (O-skalan) O1 FantasiO2 EstetikO3 KänslorO4 AktiviteterO5 TankarO6 Värderingar

Vänlighet (A-skalan) A1 TillitA2 RättframhetA3 OsjälviskhetA4 FöljsamhetA5 BlygsamhetA6 Ömsinthet

Målmedvetenhet (C-skalan) C1 DuglighetC2 OrdningsamhetC3 SamvetsgrannhetC4 PrestationssträvanC5 SjälvdisciplinC6 Eftertänksamhet

5

två liknande metoder ger därför stöd för reliabiliteten, medan korrelationer mellan merolikartade metoder tolkas som validitetsdata (Campbell & Fiske, 1959; Magnusson, 2003).En annan aspekt på skillnaden mellan reliabilitet och validitet är att reliabiliteten sätter denyttre gränsen för validiteten på så sätt att man inte kan sägas mäta det avsedda om intetestet har någon som helst tillförlitlighet. Trots reliabilitetens makt att inskränka påvaliditeten, anses den senare inom psykologisk testning som mer fundamental på grund avatt det är validiteten som definierar testpoängens mening (Angoff, 1988; Gregory 1992).Reliabiliteten är därför en nödvändig men inte tillräcklig förutsättning för hög validitet, ochdet är validiteten som står i centrum vid konstruktion av test (Magnusson, 2003).

Traditionellt har man skilt mellan tre huvudtyper av validitet. Innehållsvaliditet handlar omatt testets urval av frågor motsvarar den verklighet som det gör anspråk på att testa.Kriterievaliditet innebär att testet ska spegla ett annat yttre kriterium på så sätt att enpersons testpoäng motsvaras av en liknande nivå på kriteriet, till exempel ett visst arbeteeller högskolestudier. Begreppsvaliditet handlar om sambandet mellan teori, test ochverklighet, samt i vilken grad testet är en bra indikator på det teoretiska begreppet (Mabon,2002; Magnusson 2003; Wolming, 1997). Av dessa varianter av validitet anses begrepps-validiteten vara det mest centrala inom psykologi (Friedman & Schustack, 1999; Westen &Rosenthal, 2003).

Enligt Stiftelsen för Tillämpad Psykologi (STP), vars uppgift är att granska svenska arbets-psykologiska test och utfärda omdömen över dessa, finns det flera sätt att validera begrepppå. Det vanligaste sättet är att korrelera testet ”mot andra test, som antas mäta samma ellerliknande egenskaper” (Stiftelsen för Tillämpad Psykologi, 2001, sid 10). Om korrela-tionerna är höga tas detta som stöd för begreppsvaliditet. Dessa korrelationer, som ansettssom mått på validitetens styrka, har traditionellt kallats för validitetskoefficienter. Som en följdav validitetskoefficientens koppling till ett yttre kriterium växlar validiteten hos ett test medsyftet för testet beroende på att det kriterium som testet mäts mot kommer att variera.Därför bör man vara försiktig vid tolkningen av validitetskoefficienten som ett uttryck förmetodens validitet, då den ytterst är avhängig lämpligheten hos kriterieinstrumentet(Magnusson, 2003). Operationaliseringen av kriteriet som det nyutvecklade testet ska mätasmot blir i detta perspektiv avgörande för de senare korrelationssambanden.

Validitetsbegreppets utveckling

Bakgrunden till begreppsvalideringens strävan att fixera det avsedda begreppet med ettannat yttre närliggande beror på Cronbach och Meehl (1955), som anses som förgrunds-gestalterna för denna syn inom psykologin och psykologiska test. Enligt dessa herrar kundebegreppsvalidering liknas vid en logisk process där slutmålet var ett nomologiskt nätverk; enempirisk kartläggning av begreppets teoretiska relationer till andra egenskaper (Wolming,1997). Genom nätet av logiska och lagbundna relationer eftersträvades en så objektivbeskrivning av objektet som möjligt. I fokus stod förklaring och predicering av beteendet,liksom en ambition att kunna simulera objektets responser matematiskt (Kekes, 1976).

Hacking (2000) menar att begreppsvaliditet var inspirerat av den logiska positivismen,Russels formalisering av vardagsspråket till logiska konstruktioner och även till Carnapshuvudverk med den inte alltför blygsamma titeln Der logische Aufbau der Welt (”Världenslogiska uppbyggnad”, 1928). Cronbach och Meehls stora förtjänst var att de visade på enmöjlig koppling mellan den teoretiska och den observerbara sfären. Men för att denna

6

filosofiska insikt skulle vara användbar inom psykometrin fattades fortfarande ett praktisktredskap att testa de nyvunna insikterna på.

Några år efter intåget av nomologiska nätverk inom psykologisk testteori utveckladeCampbell och Fiske (1959) ett redskap som skulle visa sig bli särskilt verkningshistorisktbetydelsefullt för begreppsvalidering inom psykologisk personlighetsforskning, nämligenden så kallade multitrait-multimethodmatrisen (MTMM)1, som på svenska kan översättas tillmultifaktor-multimetod. Med Eids (2000) ord har MTMM-designen blivit enstandardmetod för validering av personlighetstester. Tekniken innebär att man korrelerarminst två traits med minst två metoder. Därmed uppstår en matris med korrelationernamellan alla faktorer och metoder.

För analys av MTMM ska uppmärksamheten riktas mot några speciella relationer imatrisen. I monofaktor-heterometodkorrelationerna syns den av Campbell och Fiske(1959) så kallade konvergenta validiteten. Om begreppen som mäts är likartade förväntas dessasåledes korrelera högt även mellan metoder. Den konvergenta validiteten är detsamma somvaliditetskoefficienten mellan dessa metoder. I monometod-heterofaktorkorrelationernabör däremot sambanden vara låga, eftersom de faktorer som mäts med samma metodannars inte är divergenta (diskriminerande) mot varandra. På liknande sätt förväntas dedivergenta korrelationerna mellan heterofaktor-heterometoder vara låga. Dessa bådalågkorrelerade fält, som i matrisen har formen av trianglar, döpte Campbell och Fiske(1959) till divergent validitet. Detta innebär att faktorer som inte ska hänga samman teoretisktinte heller gör det i verkligheten. Campbell och Fiske klargjorde också att poängen på enpsykologisk variabel inte bara bestod av det påstådda begreppet som mättes utan även avsystematisk metodvarians, något författarna ondgjorde sig över att det slarvats med itidigare forskning. Med minst två metoder var det möjligt att reducera den verkligafaktorvariansen från metodvariansen genom att se till korrelationerna i heterometod-heterofaktortrianglarna (Campbell & Fiske, 1959; Eid, Lischetzke, Nussbeck & Trierweiler,2003; Petrides, Jackson, Furnham & Levine, 2003).

I begreppsvaliditetens historiska utveckling går det att se en förskjutning i dess begreppsligainnebörd. Wolming (1997) menar att den tidigare synen på validitet som ett nomologisktnätverk var ett utslag av blind empirism. Enligt West och Finch (1997) har modernamättekniker alltmer börjat betona det ömsesidiga beroendet mellan teori, metod, mätningoch val av statistisk analysmetod. Från att ha handlat om relativt enkla matematiskakorrelationer betonas alltmer validitetens enhetliga karaktär, där valideringsstudier mer fårformen av ackumulerande belägg för en viss tolkning av testresultatet utifrån ändamålet(Mabon, 2002; Standards for educational and psychological testing, 1999). Dennaförändring i synen på validitet får enligt Janson (1999) till följd att ett tests validitet aldrigkan avgöras en gång för alla. Messick (1995) argumenterar dessutom för vikten att väga invärderingar om de begrepp som mäts, då de anses styra vårt sätt att uppfatta verkligheten.Vidare menar Messick att sociala konsekvenser som dessa värderingar kan medföra börvägas in. Enligt Wolming (2000) är Messicks förslag omdiskuterat. Bland annat ifrågasättsom sociala konsekvenser ska höra till validering och huruvida värderingar ska ses som enegen post eller som en integrerad del i valideringen. Fortfarande anses dock Chronbach ochMeehls (1955) teoretiska och empiriska nätverksmodell spela en central roll vidbegreppsvalidering på så sätt att det är robustheten i de teoretiska kopplingarna till andra 1 En sökning på databasen psycINFO den 3 mars 2004 gav 1981 stycken träffar för publicerade veten-skapliga artiklar med multifaktor-multimetod.

7

begrepp och beteenden (nomologiskt nätverk) som ytterst bestämmer validiteten ipsykologiska begrepp (Messick, 1995; Petrides et al., 2003; Wolming, 2000).

Tidigare forskning om FFM och NEO PI-R

Om femfaktormodellen är en riktig beskrivning av personligheten ska den således kunnaverifieras av andra metoder. Historiskt har överensstämmelsen mellan självrapporteringoch observationsskattning varit ett viktigt valideringsinstrument för personlighetsforsk-ningen och sträcker sig ända tillbaka till Cattells faktorforskning på 1940-talet (Cattell,1946; McCrae, 1982; Watson, Hubbard & Wiese, 2000). Searle (1987) konstaterar att dennasträvan att validera förstapersonsperspektivet med ett tredjepersonsperspektiv varit enenvis tendens inom såväl filosofi som vetenskap sedan 1600-talet. Av någon anledning,resonerar Searle, betraktar vi tredjepersonsperspektivet som mer objektivt och empiriskt änförstapersonsperspektivet. För en observatör är beteendet det kriterium som person-ligheten kan mätas genom (Funder & West, 1993). Samtidigt framhåller Jones och Nisbett(1972) att människor tenderar att se andras beteenden som en funktion av internadispositioner och traits. Vi tolkar således de ledtrådar vi får genom beteenden som gester,mimik, tal med mera som uttryck för inre karaktärsdrag. När däremot ens eget beteendeska förklaras ligger det närmare till hands att se det i termer av situationsspecifika orsaker.

Det faktum att självrapportering av sin personlighet visat sig korrelera med skattningar avandra har tagits som intäkt för ett teoretiskt ställningstagande för användningen avsjälvrapportering i psykologisk forskning (John & Robins, 1993; McCrae, 1982). Attjämföra andras skattningar med självrapportering har också fördelen att olika bias som tillexempel social önskvärdhet till viss del kan undanröjas (Costa & McCrae, 1992b). Devanligaste formerna av observationsskattning av andra är partner,- expert- och kamrat-skattning. Oftast brukar partnerskattningen ge de högsta korrelationerna med självrappor-tering, vilket vanligtvis förklaras med parrelationens större intimitet och längre tillbringadtid tillsammans (Costa & McCrae, 1992b; Kurtz & Sherker, 2003). Andra studier tyder påatt graden av överensstämmelse mellan självrapportering och skattningar från någon signi-fikant annan mer beror på kvaliteten i varje konstellation (Watson et al., 2000).

Mellan självrapportering på NEO PI-R och kamratskattning på ett för observationer modi-fierat NEO PI-R har validitetskoefficienten vid tidigare studier oftast visat sig vara högst iutåtriktning och lägst i känslomässig instabilitet. Vid dessa jämförelser har NEO PI-R ävenuppvisat divergent validitet (Borkenau & Ostendorf, 1990; Costa & McCrae 1992b). Ettvanligt krav vid dessa mätningar har varit att kamraterna ska ha känt varandra i minst ett åroch i ett flertal olika situationer (McCrae & Costa, 1987).

I manualen till NEO PI-R efterlyser upphovsmakarna mer forskning om studenterssvarsstilar i NEO PI-R, liksom av studiekamratskattningar med det för observatöreranpassade testet. Även kvinnliga studenter lyfts fram som en särskilt intressant grupp somdet saknas kunskap om (Costa & McCrae, 1992b).

I en valideringsstudie av Funder, Kolar och Blackman (1995) framkom följandekonvergenta korrelationer mellan självrapportering och studiekamratskattning påcollegenivå för inventoriet NEO PI-R (uttryckt i medelvärde per faktor): Känslomässiginstabilitet: r = ,34, utåtriktning: r = ,56, öppenhet: r = ,39, vänlighet: r = ,46 och målmed-vetenhet: r = ,53 ( n = 136, samtliga korrelationer var signifikanta på 5% nivån).

8

McCrae & Costa (1992b) menar att den fenomenologiska skillnaden mellan observations-skattning och självrapportering sätter en övre gräns för hur hög en korrelation kan bli.Detta beror på att den som skattar sig själv har tillgång till sina tankar, känslor ochönskningar till skillnad från den som observerar personen utifrån. Därför är det ovanligtmed statistiskt signifikanta korrelationer över cirka r = ,50, som därmed bör betraktas somett starkt bevis för en samstämmig validitet av personlighetsdrag liksom för användbar-heten hos instrumentet.

Argument för och emot FFM och NEO PI-R

En tidig och inflytelserik kritiker av traitpsykologin var Mischel (1968) som hävdade attforskningen inom personlighetspsykologin fäster alltför stor hänsyn till beståendepersonlighetsdrag med tanke på de predikativt låga korrelationerna på högst ,30 mellanpersonlighetstest och beteendet i vardagssituationer. Denna kritik träffar förutombegreppsvaliditeten i NEO PI-R även frågan huruvida femfaktormodellen är en bra ochuttömmande beskrivning för personlighet.

Kriteriet för att avgöra vilka dimensioner som ska anses som grundläggande är enligt Costaoch McCrae (1992a) att de ska kunna uppvisa stabilitet över tid vid självrapportering,validitet mellan olika bedömare, genomsyra system av traits bland såväl lekmän somforskare, kunna uppvisas i flera olika kulturer och ha någon form av biologisk koppling.

Av dessa kriterier är troligtvis kopplingen till biologin om personligheten den svagaste(Larstone, Jang, Livesley, Vernon, & Wolf 2002). Ett av de starkaste argumenten förfemfaktormodellen har varit dess synlighet vid såväl självrapportering som obser-vationsskattning (McCrae & Costa, 1987; Norman, 1963). Detta gäller om skattningarnasker så kallat lexikaliskt på adjektivskalor (exempelvis lugn-orolig) eller med personlighets-inventorium och oberoende av om personen som skattar känner personen för skattningen(Borkenau, 1992). Även forskning om dimensionernas stabilitet för NEO PI(-R) och FFMöver tid har i ett flertal studier visat på korrelationsnivåer som översatts till omdömen som”övertygande stabilitet”, med medianvärdet r = ,83 för självrapportering efter sex årrespektive r = ,67 för kamratskattning efter sju år (Borkenau & Ostendorf, 1998; Costa &McCrae, 1992a). När det gäller FFMs legitimitet i olika kulturer har flera studier kunnat visapå att FFM faktiskt fungerar mellan olika folk och olika kulturer, men att karaktärsdragenskiljer sig åt. Till exempel visar Allick och McCrae (2004) att människor i Europa ochAmerika tenderar att ha ett högre medelvärde i faktorn utåtriktning och öppenhet och lägrei vänlighet jämfört med människor i Asien och Afrika.

En tung metodologisk kritik mot FFM ger Block (1995). Kritiken riktar sig huvudsakligenmot val av faktoranalysteknik, svårigheten med att identifiera ”verkliga” faktorer samtfaktorernas instabilitet mellan olika stickprov och situationer. Dessutom riktas kritik motden självklara okritiskhet med vilken Costa och McCrae övertagit FFM från Norman(1963) och vidareutvecklat NEO PI-R på.

Block (1995) börjar med att konstatera att FFM är analyserad enligt den så kalladeortogonala faktoranalysmetoden. Denna metod är mer effektiv vid multipel regression pågrund av att den minimerar multikolinearitet och maximerar den divergenta validiteten(Saucier & Goldberg, 2002) Däremot, menar Block, är valet av ortogonal faktoranalys-metod inte något på förhand givet sätt att analysera data på, utan ett medvetet teoretiskt

9

beslut som får konsekvenser för hur materialet sorteras och struktureras. Med ett annatrotationskriterium (som exempelvis den oblika vilken tillåter att faktorerna korrelerar medvarandra) ändras faktorernas psykologiska ”natur” radikalt. Detsamma gäller om antaletförklarande faktorer ändras. Även homogeniteten hos stickprovet har betydelse för omfemfaktormodellen uppvisar en tydlig ortogonalitet eller inte. Ju mindre homogent, destomindre ortogonalt blir det. Detta innebär att egenskaper som hör ihop i ett stickprov intebehöver göra det i ett annat. Block (1995) ger ett exempel med stridspiloter med en negativkorrelation mellan inåtvändhet och impulsivitet, medan däremot manliga studenterkorrelerar positivt mellan dessa egenskaper. En faktoranalys skulle följaktligen identifieradessa två variabler olika beroende på vilket stickprov som används.

Vidare kritiseras korrelationskoefficientens förmåga att representera centrala egenskaperom hur personligheten fungerar (Block, 1995). Enligt Block förmår inte korrelations-koefficienten uttrycka asymmetriska relationer. Som exempel ges egenskaperna vitsighetoch intelligens. Vitsighet implicerar nödvändigtvis intelligens, medan det går att varaintelligent utan att vara vitsig.

Dessutom finns en risk att frivilliga inte alltid är villiga eller förmögna att ge validpresentation av sig själv eller skattning av någon annan (Block, 1995). I en hänvisning till enannan studie gjord av Schonemann (1990, refererad i Block, 1995) anförs att faktorpoängsom är baserad på flera variabler kan ha en nollkorrelation med ett yttre kriterium samtidigtsom flera av variablerna som bygger upp faktorn är högt korrelerade med kriteriet. Blockställer sig därmed frågande till den vetenskapliga nyttan hos dessa trubbiga ochsammanblandande faktorer. Som ett alternativt sätt att bedriva forskning om personlighets-strukturen föreslås mer komplexa och multipla forskningsansatser (beteendeobservation,psykofysiologiska mätningar, individuella skillnader i situationskontext, faktainsamlingarom personer, djupintervjuer och longitudinella studier över personlighetsutveckling) ochmer forskning på att finna ett koherent intrapersonellt teoretiskt ramverk, istället för attsom i dagens forskning mest inrikta sig på interpersonella skillnader.

En annan kritik inriktar sig på skattningproceduren vid mätning av FFM. Enligt McAdams(1992) innebär det en metodologisk begränsning att personlighetsbedömningen görsgenom skattning. När respondenten ska bedöma sig på ett item som ”I am not a cheerfuloptimist” (sid 351) jämför han/hon sig mot andra optimister som han hon känner, har setteller kan föreställa sig. Skattningar har därför alltid en social referens som gör demmeningsfulla. Denna tanke tas även upp av Cloninger (1996) som menar att en testpoängsmening är oskiljaktigt förenad med den kultur ur vilken normeringsdata är hämtad.Cloninger (1996) hävdar också att de personlighetsbeskrivande adjektiv som FFM ärgrundat i, per se uttrycker mer stabilitet än vad exempelvis beteendebeskrivningar ellersituationer gör.

McAdams (1992) anser vidare att traitskattning förutsätter en särskild blick som objekti-fierar den som skattas. Denna blick liknas vid den som vi kan ha gentemot främlingar somvi inte vet någonting om: ”They encapsule those most general and encompassingattributions – simple, comparative, and virtually unconditional” (sid 353). Ju bättre vi lärkänna den vi skattar desto mer kontextualiserad och nyanserad blir attribueringen omdenne person. Hogan (1996) framhåller att FFM inte är den slutgiltiga sanningen ompersonlighetens uppbyggnad utan ser den mer som en indikator på vilka vi vill vara genom

10

det intryck vi förmedlar om oss själva till andra. Med denna syn är traits därför endast”indikationer på underliggande processer och teman” (sid 178).

Undersökningens syfte

Enligt Mabon (2002) är det ovanligt med valideringsstudier genomförda i Sverige. På grundav kostsamheten åberopar många testförläggare generaliseringsvalidering som ett billigarealternativ. Risken vid dessa fall av mer eller mindre direktöversättningar av tester från enkultur och språk till andra är emellertid att språkbarriärer och kulturella skillnader gör testetmindre valid (Byrne, 2002; Mabon, 2002). Det finns därför skäl som talar för att ett testsvaliditet bör prövas i det land där det ska användas.

I föreliggande undersökning kommer validiteten hos det på svenska översatta ochnormerade personlighetstestet NEO PI-R att prövas. Som valideringsinstrument användssjälvrapportering och studiekamratskattning på inventorie- och faktornivå.

Frågeställning 1. Har den svenska versionen av NEO PI-R god validitet? (Hypotes 1-3)

För att besvara frågan kommer testet prövas mot två olika skalor (förkortad inventorienivåoch faktornivå) och två olika skattningstyper (självrapportering och studiekamratskattning)Valideringen görs i form av en MTMM-matris, som prövar divergent och konvergentvaliditet mellan mätinstrument och faktordimensioner. Med konvergent validitet avses attmätningar av samma faktor med olika metoder korrelerar signifikant högre än noll. Meddivergent validitet avses att mätningar av samma faktor med olika metoder ska korrelerahögre än mätningar utförda mellan olika faktorer inom samma metod. Dessutom avsesmed divergent validitet att mätningar av samma faktor med olika metoder är högre änkorrelationen mellan olika faktorer med olika metoder.

För att NEO PI-R kan sägas ha god validitet ska följande kriterier uppfyllas: uppvisakonvergent validitet mellan samma faktor vid jämförelse med självrapportering påfaktornivå, studiekamratskattning på inventorienivå samt studiekamratskattning påfaktornivå (hypotes 1) och divergent validitet mellan olika faktorer med ovan nämndamätinstrument (hypotes 2 och 3).

Hypotes 1: NEO PI-R uppvisar konvergent validitet såtillvida att korrelationer mellansamma faktorer och olika mätinstrument är signifikant större än noll.

Hypotes 2: Den konvergenta validiteten är högre än korrelationerna mellan olikafaktorer och olika mätinstrument (inom heterometodens kolumn och rad).

Hypotes 3: Den konvergenta validiteten är högre än alla korrelationer mellan olikafaktorer och samma mätinstrument (heterofaktor-monometodtrianglarna).Om hypoteserna 2 och 3 är uppfyllda har testet divergent validitet.

Ett antal kompletterande frågeställningar kommer att ledsaga ovanstående valideringspröv-ning. Den andra frågeställningen rör tolkningen av testpersonens resultat från själv-rapporteringen i NEO PI-R. I en utvärderingsblankett presenteras testpersonens resultatöverfört på faktornivå.

11

Frågeställning 2:Hur stor överensstämmelse råder mellan tolkningen av testpersonernasfaktorresultat som den presenteras i blanketten Dina testresultat och derassjälvuppfattning av sin personlighet?

Vidare kommer som tredje frågeställning några komparativa analyser av självrapporterings-inventoriet NEO PI-R och det förkortade studiekamratskattningstestet att utföras för attpröva om det finns några skillnader i förmågan att bedöma sin studiekamrat i olikaundergrupper av urvalet. Om det visar sig vara fallet kommer även beräkningar att utförasför att se om skillnaderna är signifikanta.

Frågeställning 3:Finns det några skillnader i den konvergenta validiteten på faktornivåmellan (i) kvinnor och män? (ii) fristående kurs och psykologprogrammet?samt (iii) de som uppgav att de var mer lika sin studiekamrat jämfört medde som uppgav att de var mindre lika?

Den fjärde och sista frågeställningen undersöker förekomsten av ordningseffekter.

Frågeställning 4: Finns det några ordningseffekter mellan de som började skatta sig självajämfört med de som började skatta sin studiekamrat?

Metod

Undersökningsdeltagare

Totalt deltog 106 personer i undersökningen, samtliga studenter vid psykologiska institu-tionen på Stockholms universitet. Av dessa studerade 87 på fristående kurs och 19 påpsykologprogrammet. Medelåldern var 27,3 år, med en standardavvikelse på 7,0 år (n =104; två testpersoner angav ingen ålder). Åldern varierade mellan 18 och 48 år. Till åter-kopplingstillfället kom 51 personer (48%).

För att uppskatta ett tillräckligt stort deltagarantal för en hög sannolikhet att få statistisktsäkerställda korrelationer för valideringskoefficienterna gjordes före rekryterings-kampanjerna en poweranalys för beräkning av lämpligt antal testpersoner (formel 1 medberäkning). Med stöd från tidigare forskning av korrelationer mellan självrapportering ochkamratskattning av NEO PI-R räknades ett mycket grovt medelvärde för samtliga avfemfaktormodellens skalor ut till en personlighetskoefficient på 0,3. Med en power på 0,80gav detta ett deltagarantal på 88 personer:

1,8813,0

8,21

22

=+

=+

=

ρδ

N (1)

Eftersom denna beräkning byggde på medelvärdet av faktorkorrelationerna och inte defaktorer med lägst korrelation ökades antalet testpersoner till ursprungligen 100 personervilket gav en tillåten lägsta korrelation på drygt r = ,28. Vid själva datainsamlingen gjordesett litet överintag som gjorde att urvalsstorleken slutade på 106 personer.

12

Testpersonerna rekryterades antingen muntligen av testledaren i anslutning till undervis-ningstillfällen eller via information på en anslagstavla för experiment på psykologiskainstitutionen. Information delgavs vid båda värvningssätten om undersökningens syfte(valideringsstudie av på svenska nyutkommet personlighetstest) och ungefärlig tid för del-tagande (45 minuter till en timme). För att delta i undersökningen var testpersonernatvungna att ha med sig varsin studiekamrat från psykologiska institutionen som de känt iminst en termin och i ett flertal olika situationer. Som ersättning för sitt deltagande ficktestpersonerna antingen obligatorisk undersökningstid motsvarande tiden de avsatte elleren trisslott á 25 kronor per person. I anslutning till den skriftliga informationen omundersökningen fanns anmälningslistor uppsatta där testpersonerna kunde anmäla sigparvis, det vill säga tillsammans med den studiekamrat som skulle personlighetsskattas.Testpersonerna informerades även om möjlighet för återkoppling vid två senare tillfällen.Vid återkopplingen kunde testpersonerna efter instruktioner från testledaren utvärdera sinatestresultat från NEO PI-R till en svensk standardiserad och normerad personlighetsprofil.Dessutom sattes reklamliknande affischer upp på psykologiska institutionen för attytterligare öka intresset för och rekryteringen till undersökningen.

Några bakgrundsfrågor från ett av testinstrumenten visade på följande rörande test-personerna och deras relation till sina skattade och skattande studiekamrater: De flesta avde skattande paren var av samma kön som den skattade (75%). I genomsnitt hade mankänt varandra i 2,9 terminer, med en standardavvikelse på 4,7. En orsak till den högastandardavvikelsen var att det fanns fyra stycken så kallade outliers (kraftigt avvikande iförhållande till urvalet), som svarade att de känt varandra i tjugo respektive trettio terminer.Utan dessa fyra personer var medelvärdet i antal terminer man känt varandra 2,0 (s = 1,7).På frågan hur lika de var sin studiekamrat i ”personlighet, attityder, temperament ochkänslor” svarade bara 3% att de var mycket lika, 40% att de var lika, 37% att de delvisvar/delvis inte var lika, och 21% svarade att de inte var särskilt lika.

I genomsnitt ansåg testpersonerna att de kände sin studiekamrat mellan alternativet bra ochalternativet varken bra eller dåligt. 5% ansåg att de kände sin studiekamrat mycket bra, 49%bra, 43% varken bra eller dåligt och 3% dåligt. Ingen av testpersonerna svarade att dekände sin studiekamrat mycket dåligt.

Material

Nedan följer en beskrivning av de mätmetoder som använts för valideringen. Av upphovs-rättsliga skäl kommer vare sig NEO PI-R eller något av valideringsinstrumenten att bifogas.

NEO PI-R

Personlighetsinventoriet NEO PI-R består av ett frågehäfte med 240 item och en svars-blankett i vilken testpersonerna fyller i sina svar. Testet inleds med bakgrundsfrågor omnamn, kön, ålder och datum. Frågorna i testet är sorterade i en viss systematisk ordnings-följd, där faktor- och aspektskalor byts med varje nytt item. Testpersonerna tar vid varjepåstående ställning till en femgradig Likertskala, med svarsalternativen ”stämmer inte alls”,”stämmer inte särskilt väl”, ”stämmer delvis/delvis inte”, ”stämmer ganska bra” och”stämmer precis”. Testpersonerna svarar genom att sätta ett kryss för det alternativ sompassar bäst. På ett papper under svarsblanketten som är dolt för testpersonen översättskryssen till poäng mellan 0-4 för varje item.

13

Testet avslutas med tre frågor huruvida den svarande har besvarat alla påståenden på ettkorrekt och ärligt sätt, om alla påståenden är besvarade samt om den svarande markeratsina svar i korrekta svarskategorier.

Reliabiliteten beräknat med Cronbachs alfa i stickprovet för NEO PI-R var _ = ,87 förfaktorn känslomässig instabilitet, _ = ,73 för utåtriktning, _ = ,70 för öppenhet, _ = ,75 förvänlighet och _ = ,82 för målmedvetenhet (medelvärdet var _ = ,77). Dessa värden liknarförhållandevis väl tidigare forskningsresultat från såväl USA som i Sverige (Bergman, 2003;Costa & McCrae, 1992b).

Förkortat NEO PI-R för studiekamratskattning (NEO-FK)

Ett på NEO PI-R baserat förkortat studiekamratskattningstest (NEO-FK) med 30 itemutvecklades som ett valideringsinstrument. Att inte låta studiekamraterna skatta påfullängdstestet byggde på antagandet att studiekamraterna endast kände varandra i ettbegränsat antal situationer. Dessutom antogs även motivationella och tidsmässiga skäl spelain vid testtillfället. I en studie av Fossum (2002) demonstreras dessutom att det är möjligtmed en förkortad version av NEO PI-R med bra innehålls- och kriterievaliditet och godreliabilitet. Även Burisch (1984) menar att det är möjligt att korta de flesta personlighetstestutan att kompromissa med validiteten.

I en pilotstudie ombads studenter som tillfälligtvis råkade befinna sig i byggnaden påpsykologiska institutionen vid Stockholms universitet om de kunde tänka sig att bedömasamtliga NEO PI-Rs item utifrån hur lätta eller svåra de var att skatta sin studiekamratmed. Kravet var att de hade en studiekamrat som de känt i minst ett år och i ett flertal olikasituationer. Totalt deltog elva personer, varav sex kvinnor och fem män. Medelåldern var33 år (s = 8,04). I genomsnitt hade testpersonerna känt sin studiekamrat i 7,5 terminer.Anledningen till att man känt varandra så länge var att alla utom en testperson studerade påpsykologprogrammet, den resterande på fristående kurs. Testpersonerna fick ett häfte medsamtliga NEO PI-Rs item i modifierad studiekamratform (ex: ”Min studiekamrat tänkerefter noga innan han/hon fattar ett beslut”). Till varje item fanns en sexgradig skattnings-skala med polerna ”mycket lätt” till ”mycket svårt”. Efter avslutad datainsamlig valdes detitem från varje aspekt som ansågs lättast att skatta sin studiekamrat med att representeraaspekten inför denna undersöknings NEO-FK. Således finns varje aspekt från NEO PI-Rrepresenterad. På samma sätt som i pilotstudien har dessa 30 item modifierats i förhållandetill självrapporteringstestet genom att ändra ordalydelsen från första person (ex: ”Jag harmycket livlig fantasi”) till ett tredjepersonsperspektiv (”Min studiekamrat har mycket livligfantasi”).

Såväl itemordning som instruktioner i NEO-FK följer samma struktur och utseende somNEO PI-R (= utseendevaliditet). Svarsalternativen fördelade sig på en femgradigLikertskala, med svarsalternativen ”stämmer inte alls”, ”stämmer inte särskilt väl”,”stämmer delvis/delvis inte”, ”stämmer ganska bra” och ”stämmer precis”.

Ett item byttes ut i NEO-FK jämfört med pilotstudiens resultat. Detta item var det sominledde det förkortade studiekamrattestet och som i pilotstudien var negerat (”Minstudiekamrat är inte en sån som går och oroar sig”). Istället valdes det näst mestlättskattade itemet i samma aspekt från pilotstudien och som inte var negerat: ”Min

14

studiekamrat oroar sig ofta över saker som skulle kunna bli fel”. Detta för att underlättaskattningen genom att reducera risken för missförstånd med ett krångligare item.

Cronbachs alfa reliabiliteten för NEO-FK var _ = ,51 för faktorn känslomässig instabilitet,_ = ,61 för utåtriktning, _ = ,45 för öppenhet, _ = ,52 för vänlighet och _ = ,79 förmålmedvetenhet (medelvärdet var _ = ,58).

Självrapportering direkt på faktornivå (FFM-S)

För att se hur väl testresultatet från NEO PI-R på varje faktor korrelerade med en generellfaktorbeskrivning, användes Psykologiförlaget ABs egen återkopplingsblankett Dinatestresultat som underlag för ytterligare ett valideringsinstrument. På denna blankett tolkastestpersonen utifrån sina poäng till en av tre beskrivningar för varje faktor. Det förstaalternativet på N-skalan var en beskrivning av en person med hög känslomässig instabilitet.Det andra alternativet beskrev en person med genomsnittlig grad av känslomässiginstabilitet. Det tredje alternativet beskrev en person med låga värden på egenskapenkänslomässig instabilitet, vilket är detsamma som en känslomässigt stabil person. Dealternativ som beskrev en person med höga värden på faktorskalorna valdes genomgåendeut att ingå i valideringstestet för FFM-S. För att ytterligare förstärka intrycket av att dethandlar om ett övergripande karaktärsdrag har adverbet ”i allmänhet” lagts till som intefanns i originalutförandet. Till exempel löd faktorfrågan för utåtriktning: ”Jag är i allmänhetutåtriktad, sällskaplig, aktiv och livlig. Jag tycker bäst om att vara med andra största delenav tiden.” Svarsalternativen bestod av en femgradig Likertskala med svarsalternativen”stämmer inte alls”, ”stämmer inte särskilt väl”, ”stämmer delvis/delvis inte”, ”stämmerganska bra” och ”stämmer precis”.

Studiekamratskattning direkt på faktornivå (FFM-K)

Det sista valideringsinstrumentet var snarlik FFM-S till utseendet, med skillnaden att skatt-ningen gällde studiekamraten. En modifiering av ordalydelsen till tredjeperson blev därförnödvändig. Till exempel löd faktorfrågan för utåtriktning: ”Min studiekamrat är i allmänhetutåtriktad, sällskaplig, aktiv och livlig. Han/hon tycker bäst om att vara med andra störstadelen av tiden.” I övrigt var valideringsinstrumentet identiskt med instrumentet för FFM-Smed avseende på såväl instruktioner som den femgradiga Likertskalan som svarsalternativ.

I det förkortade studiekamratskattningstestet ställdes dessutom fyra bakgrundsfrågor omtestpersonen och dennes relation till sin studiekamrat. Först ombads testpersonen angestudieform med svarsalternativen fristående kurs eller psykologprogrammet. Därefter skulletestpersonen fylla i antal terminer som han/hon känt sin studiekamrat. Vidare handlade ettitem om hur pass lika testpersonen ansåg sig vara sin studiekamrat med avseende påpersonlighet, attityder, temperament och känslor. Slutligen frågades om hur väl test-personen ansåg att han/hon kände sin studiekamrat. Svarsalternativen för samtliga itembestod av en femgradig Likertskala.

Som avslutning på skattningsformulären ställdes en öppen fråga om hur testpersonen upp-levde situationen att bedöma sig själv och sin studiekamrat på detta sätt. Den öppna avslut-ningen var avsedd som återkoppling på valideringsstudien i en mer kvalitativ, vardags-språklig form.

15

Procedur

Testpersonerna kom parvis och samlades i lektionssalar för genomförandet av själv-respektive studiekamratskattningen. Totalt genomfördes femton skattningstillfällen, medett deltagarantal från ett par till tio par per tillfälle. Vilken av personerna som fick vilkentestordning bestämdes slumpvis av testledaren. För att eliminera risken för fuskande(sneglande på sin kurskamrats svar) separerades varje par fysiskt och ombads placera sig sålångt från varandra i rummet som möjligt. När alla testpersoner hade kommit inledde test-ledaren med en muntlig genomgång som inleddes med att syftet delgavs; att pröva vali-diteten hos ett på svenska nyutkommet personlighetstest genom beräkning av korrelationenmellan självrapportering och studiekamratskattning. Testpersonerna informerades om attundersökningen var konfidentiell och att de inte behövde skriva sina namn på testen.Numreringen på testen förklarades med att det var en förutsättning för senare statistiskakorrelationsberäkningar. Vidare fick testpersonerna två datum för återkoppling på sinpersonlighet enligt svenska normdata. För de som önskade närvara vid detta tillfälle gavs enupplysning om att komma ihåg sitt nummer på testet för att därigenom underlättaadministreringen vid detta tillfälle. Testpersonerna instruerades även om hur de skulle fylla itesten, samt att de gjorde testen i just den ordning som de låg i. De fick också veta att defick sitta så länge de ville, men att det troligtvis skulle ta mellan 45 minuter till en timme attgenomföra alla fyra testen. Slutligen informerades testpersonerna om att de efter inlämnattest skulle få undersökningstid motsvarande den tid de avsatt avrundat uppåt till närmastehalvtimme (enligt institutionens praxis), alternativt en trisslott.

Sammanlagt fick varje testperson sex stycken häften uppdelade i: (1) Ett frågehäfte och ensvarsblankett för NEO PI-R, (2) ett frågehäfte och en svarsblankett för det förkortadestudiekamratskattningstestet (NEO-FK), (3) ett självrapporteringstest för faktornivå (FFM-S) samt (4) ett studiekamratskattningstest för faktornivå (FFM-K).

För att i viss mån säkra för ordningseffekter delades testordningen för de fyra testen in i tvåordningsföljder, där den första personen i varje par började med NEO PI-R, följt av FFM-S, NEO-FK och FFM-K. Den andra i paret började med NEO-FK, följt FFM-K, NEOPI-R och FFM-S. Varje person fick således skatta både sig själv och sin studiekamrat.Samtliga test var numrerade dels efter par (samma nummer per par från 1 till 53), dels efterom testpersonen ordningsmässigt var den första eller andra personen i paret (efter varjeparnummer ytterligare ett nummer; 1 för ettorna och 2 för tvåorna).

I takt med att testpersonerna blev klara med testerna kom de fram till testledaren somöversiktligt tittade igenom testen för att se om något item inte var besvarat. Därefter fylldetestledaren i undersökningstid alternativt gav ut en trisslott mot att testpersonen först skrevpå en särskilt lista med namn och telefonnummer (till Psykologiförlaget AB som stod förtrisslotterna).

Vid återkopplingstillfället fick testpersonerna tillbaka sitt eget personlighetstest. Förstsummerades poängen till en råpoäng, som sedan fördes över till en Profilöversikt somtillhandahölls av Psykologförlaget AB. På denna översikt kunde testpersonen se resultatetav NEO PI-R på respektive faktor och aspekt och hur han/hon placerade sig i förhållandetill normpopulationen. Därefter fick varje testperson fylla i sin övergripande personlighets-profil på blanketten Dina testresultat (som även den kom från Psykologiförlaget AB) utifrånsina poäng från testet. Slutligen ombads testpersonerna fylla i en enkät där de skulle ta

16

ställning till hur väl de ansåg att denna beskrivning stämde överens med derassjälvuppfattning om sin personlighet. För varje faktor fanns ett femgradigt svarsalternativ”stämmer inte alls”, ”stämmer inte särskilt väl”, ”stämmer delvis/delvis inte”, ”stämmerganska bra” och ”stämmer precis”.

Databearbetning

Då svarsfördelningen från NEO PI-R var förhållandevis normalfördelad, har genomgåendePearsons produktmomentkorrelationskoefficient för multifaktor-multimetodberäkningarnaanvänts. En jämförelse med Spearmans rangkorrelationskoefficient visade på mycket småskillnader. Som mest skilde sig rxy från rs i en variabel med ,06. Denna korrelationsskillnadmotsvarar cirka en tredjedels procent förklarad varians, vilket inte är tillräckligt stort för attberättiga korrelationsberäkningar med Spearman.

För att besvara frågeställningen om det fanns några signifikanta skillnader i denkonvergenta validiteten på faktornivå mellan olika undergrupper i stickprovet, harkorrelationerna översatts till Fischers Z (formel 2). Därefter har Z differensen mellan Z1

och Z2 dividerats med medelfelet för differensen i Z (formel 3 och formel 4). Kvotvärdet iz har slutligen jämförts mot det kritiska z-värdet 1,96 med en säkerhet på 5% nivån (2-sidigprövning) för att avgöra om skillnaden var signifikant.

−

+=

r

rZ

1

1ln2

1 (2)

21

21

zz

ZZz

−

−=σ

(3)

där

3 -

1

3 -

1

212

21

221 nn

zzzz +=+=− σσσ (4)

Resultat

Konvergent validitet mellan NEO PI-R och valideringsmetoderna

I tabell 2 på sidan 18 framgår konvergenta validiteter (validitetskoefficienter) i fetstil. Dessauttrycker korrelationsnivåerna mellan olika instrument men inom samma faktordimension.Mellan NEO PI-R och mätinstrumenten FFM-S, NEO-FK och FFM-K rådde konvergentvaliditet. Högst korrelationer återfanns mellan självrapportering på inventorie- ochfaktornivå: Här var medianvärdet mellan NEO PI-R och FFM-S r = ,58 (p < ,01 församtliga korrelationer. Mellan NEO PI-R och NEO-FK (inventoriejämförelser mellansjälvrapportering och studiekamratskattning) var mediankorrelationen r = ,41 (p < ,01 församtliga korrelationer). Mellan NEO PI-R och FFM-K var mediankorrelationen r = ,27 (p

17

< ,01 för känslomässig instabilitet och utåtriktning. För öppenhet, vänlighet och målmed-vetenhet var p < ,05).

För de återstående jämförelserna var även här den konvergenta validiteten god. Av dessauppvisade korrelationerna mellan NEO-FK och FFM-K det högsta medianvärdet på r =,50 (p < ,01 för samtliga korrelationer). Korrelationerna mellan FFM-S och NEO-FK hadeett medianvärde på r = ,26 (p < ,01 för samtliga korrelationer förutom känslomässiginstabilitet, som hade p < ,05). Mellan FFM-S och FFM-K var mediankorrelationen ,32. (p< ,01 för känslomässig instabilitet, utåtriktning och vänlighet, p < ,05 för målmedvetenhet,faktorn öppenhet var dock inte signifikant).

Hypotes 1 har därför stärkts för NEO PI-R, genom att det uppvisar konvergent validitet iförhållande till de jämförande metoderna.

Divergent validitet mellan NEO PI-R och valideringsmetoderna

För att hypotes 2 skulle få stöd krävdes att korrelationen mellan samma faktor och olikametoder (konvergent validitet) skulle vara högre än mellan resterande faktorer i sammametodjämförelse. Vid jämförelse mellan NEO PI-R och de övriga valideringsmetodernavisade sig detta vara fallet gentemot FFM-S samt NEO-FK (se tabell 2 på sidan 18). MellanNEO PI-R och FFM-K var däremot tre av fem heterofaktorkorrelationer högre än ellerlika höga som den konvergenta validiteten.

För övriga metodjämförelser var det endast korrelationerna i studiekamratskattningenmellan inventorie- och faktornivå vars konvergenta validitet för alla faktorer som var högreän heterofaktorkorrelationerna.

Hypotes 2 fick därmed stöd för NEO PI-R i metodjämförelser med FFM-S och medNEO-FK. Hypotes 2 fick även stöd för metodjämförelser mellan NEO-FK och FFM-K.

För att hypotes 3 skulle få stöd krävdes att den konvergenta validiteten skulle vara högre änkorrelationerna mellan olika faktorer i samma metod, det vill säga högre än metod-variansen. För NEO PI-R var detta fallet för alla fem faktorer i jämförelse med FFM-S ochNEO-FK.

Mellan övriga metodjämförelser klarade sig studiekamratskattning mellan inventorie- ochfaktornivå. Även för dessa metoder fick alltså hypotes 3 stöd. Vid övriga jämförelser varmetodvariansen högre än den konvergenta validiteten vid minst en faktor för respektivemetod.

Detta ger sammantaget för NEO PI-R att såväl hypotes 2 och hypotes 3 fick stöd imetodjämförelse med FFM-S och med NEO-FK. Mellan dessa metoder rådde såledesdivergent validitet.

Även för studiekamratskattningens inventorie- och faktornivåjämförelse rådde divergentvaliditet.

Övriga metodjämförelser har däremot brister i den divergenta validiteten.

18Tabell 2: Korrelationer i multifaktor-multimetodmatris.

Anmärkning: N = känslomässig instabilitet. E = utåtriktning. O = öppenhet. A = vänlighet. C = målmedvetenhet. Konvergenta korrelationer i fetstil. Decimalkommatering borttagen. NEO-FK = förkortadversion av NEO PI-R för studiekamratskattning. FFM-S = självrapportering direkt på faktorskalnivå. FFM-K = studiekamratskattning direkt på faktorskalnivå. N = 102-106.* Korrelationen är signifikant på ,05-nivån (2-sidig prövning). ** Korrelationen är signifikant på ,01-nivån (2-sidig prövning).

S jälvrapporter ing Studiekamratskattn ingNEO PI-R FFM-S NEO-FK FFM-K

_ N E O A C N E O A C N E O A C N E O A CN 87

E 73 -37**

O 70 07 18

A 75 -16 05 14

C 82 -21* 08 -09 11

N 57** -10 29** -05 -09

E -34** 81** 08 12 10 -14

O -18 40** 47** -03 -04 02 34**

A -03 09 15 58** 16 01 13 10

C -05 -03 -06 01 73** -05 -03 -01 11

N 51 35** -21* 01 -18 01 23* -17 -08 -11 08

E 61 -06 59** 05 -04 02 08 49** 14 -09 -03 -21*

O 45 -07 04 41** 06 -19 14 -02 26** 00 -05 -03 08

A 52 -09 -12 06 51** 11 -01 -13 -03 36** 17 -10 -23* 11

C 79 11 -17 -05 12 34** -04 -10 -02 30** 26** 24* -23* -24* 15

N 27** 10 27** -10 -10 34** 08 07 -04 -03 48** 09 29** -03 -04

E -09 52** 09 -02 -10 -01 52** 16 -04 -17 -19 65** 06 -08 -22* 04

O -21* 30** 19* 20* -26** 07 25* 16 06 -19 -26** 30** 44** 19 -17 02 36**

A 05 -03 10 34** -03 11 -03 01 32** 08 -09 -06 03 50** 15 04 07 25**

St

ud

ieka

mr a

tska

ttn

i ng

S

jälv

rap

po

rter

ing

FFM

-K

NE

O-F

K

FFM

-S

N

EO

PI-

R

C 09 -14 05 11 23* 00 -14 -13 23* 22* 10 -17 -08 13 66** 02 -17 -09 09

19

Upplevelser av skattningsproceduren

På den öppna frågan i slutet av testet svarade 90 personer. En vanlig uppfattning var attskattning av såväl sig själv som någon annan kan variera beroende på situation, men ävenpå sinnestillstånd, ålder, och social status. En strategi att kompensera för denna bristandesituationsanpassning var att kryssa för ett mittenalternativ. Samma strategi användes iblandnär vissa testpersoner upplevde att ett item innehöll två påståenden, trots att testpersonenegentligen passade väl in i ena hälften av påståendet men mindre väl i den andra.

En del upplevde det som svårare att skatta sig själva medan andra tyckte tvärtom. Ensynpunkt på svårigheten med självrapportering var att en testperson ansåg sig ha så mångasidor i sin personlighet att samma frågor kunde ha många ”rätta” svar. Att det var svårt attskatta den andre ansåg många hängde samman med att de i egenskap av studiekamrat intekände varandra särskilt väl.

En annan synpunkt rörde sanningshalten i svaren. Trots att en testperson tyckte atthan/hon svarade sanningsenligt kom han/hon plötsligt ändå på sig själv med att svara somhan/hon skulle vilja vara och i enlighet med vad som anses vara ett socialt önskvärtbeteende. På grund av att testet inte gällde till exempel ett arbetsprov var en uppfattning atthan/hon kunde ge ärligare svar.

En källa till irritation och osäkerhet i svaren var den semantiskt oklara innebörden av ordsom ”ofta” och ”ibland” som ingick i en del av itemen.

Skattningen direkt på faktornivå upplevdes av vissa som för allmänt och intetsägande.Många ansåg dock att självrapporteringen som sådan varit intressant och givit nya insikterom sin egen personlighet.

Självupplevd validitet

Den andra frågeställningen ville undersöka hur god överensstämmelse som rådde mellantestets övergripande tolkning av personligheten och självupplevd personlighet på fem-faktormodellens skalor. Svarsfördelningen av enkäten fördelade sig som visas i tabell 3.

Tabell 3: Grad av överensstämmelse mellan testets tolkning och självupplevdpersonlighet på femfaktorskalorna

Anmärkning: Svarsalternativen i procent. Medelvärdet på en skala 1-5 där 1 = stämmer inte alls och 5 = stämmer precis.N = känslomässig instabilitet. E = utåtriktning. O = öppenhet. A = vänlighet. C = målmedvetenhet. N = 50-51.

Överensstämmelse N E O A CStämmer inte alls 0 0 0 6 2Stämmer inte särskilt väl 2 12 4 20 10Stämmer delvis/delvis inte 22 14 24 12 12Stämmer ganska bra 33 31 46 40 39Stämmer precis 43 43 26 24 37

Medelvärde 4,18 4,06 3,94 3,55 4,00

20

Störst överensstämmelse mellan testets tolkning av personligheten och den egna uppfatt-ningen av sin personlighet hade faktorn känslomässig instabilitet, följt av utåtriktning, mål-medvetenhet och öppenhet. Minst överensstämmelse uppvisades i faktorn vänlighet. Enberoende ANOVA visade att det fanns en signifikant skillnad mellan de olika faktorerna, F(4,196) = 3,41 (p = ,01). Ett uppföljande post hoc test (Bonferroni) visade emellertid att detendast förelåg en signifikant skillnad i uppfattad överensstämmelse mellan testets tolkningoch sin självupplevda personlighet mellan faktorn vänlighet med ett medelvärde på 3,55och faktorn känslomässig instabilitet med ett medelvärde på 4,18 (p = ,036).

Könsskillnader i skattningar av sin studiekamrat

Den första delfrågan i den tredje frågeställningen undrade om det fanns någrakönsskillnader. En beräkning av Pearsons korrelationskoefficient mellan NEO PI-R ochNEO-FK visade att förmågan att skatta sin studiekamrat skilde sig åt mellan könen (tabell4). Männen var med undantag för skattningar av faktorn målmedvetenhet bättre änkvinnorna på samtliga av NEO PI-Rs faktorskalor. En omräkning av korrelationerna tillFischer´s Z visade dock att den enda signifikanta skillnaden var i faktorn målmedvetenhet;z = 4,81, p < ,001.

Tabell 4: Könsskillnader i förmågan att skatta sin studiekamrat på femfaktormodellen.

Anmärkning: Korrelationerna baseras på en jämförelse mellan NEO PI-R och NEO-FK. N = känslomässig instabilitet. E= utåtriktning. O = öppenhet. A = vänlighet. C = målmedvetenhet. N för kvinnor = 75-77. N för män = 28-29.* Korrelationen är signifikant på ,05-nivån (2-sidig prövning).** Korrelationen är signifikant på ,01-nivån (2-sidig prövning).

Skillnader mellan fristående kurs och psykologprogrammet i korrelationsförmåga av sin studiekamrat

Den andra delfrågan i den tredje frågeställningen rörde eventuella skillnader mellanstudenter som läser fristående kurs jämfört med studenter på psykologprogrammet. Enberäkning av Pearsons korrelationskoefficient mellan NEO PI-R och NEO-FK visadeatt förmågan att skatta sin studiekamrat skilde sig åt även här (tabell 5 på sid 21).Psykologprogrammets studenter var sämre att skatta sin studiekamrat på känslomässiginstabilitet, vänlighet och målmedvetenhet jämfört med studenter på fristående kurs.Däremot var psykologprogramstudenterna bättre än studenterna på fristående kurs på attskatta sin studiekamrat på utåtriktning och öppenhet. En omräkning till Fischer´s Zvisade emellertid att den enda signifikanta skillnaden mellan studietyperna var förmålmedvetenhet, z = -2,03, p < ,05).

Kön N E O A C

Kvinnor ,27* ,53** ,36** ,43** ,39**

Män ,41* ,65** ,55** ,68** ,16

21

Tabell 5: Skillnader mellan studieform i förmågan att skatta sin studiekamrat påfemfaktormodellen.

Anmärkning: Korrelationerna baseras på en jämförelse mellan NEO PI-R och NEO-FK. N = känslomässig instabilitet. E= utåtriktning. O = öppenhet. A = vänlighet. C = målmedvetenhet. N = 18-19 för psykologprogramstudenter. N = 85-86 för fristående kurs.* Korrelationen är signifikant på ,05-nivån (2-sidig prövning).** Korrelationen är signifikant på ,01-nivån (2-sidig prövning).

Skillnader i skattningsförmåga av sin studiekamrat mellan de som var lika sin studiekamrat jämfört medde som var mindre lika sin studiekamrat

Den tredje delfrågan i den tredje frågeställningen undersökte om det fanns skillnader iskattningsförmågan av sin studiekamrat beroende på testpersonens uppgivna grad av likhetmed sin studiekamrat. Pearsons korrelationskoefficient mellan NEO PI-R och NEO-FKvisade att förmågan att skatta sin studiekamrat skilde sig åt beroende på om testpersonenuppgivit att de var lika sin studiekamrat jämfört med de som inte ansåg sig vara lika sinstudiekamrat (tabell 6). I tre av fem faktorer minskade förmågan att bedöma sinstudiekamrat om man uppgivit sig vara mer lik denne. Den största skillnaden var i faktornmålmedvetenhet. Detta visade sig också vara den enda signifikanta skillnaden efteromräkning till Fischer´s Z. De som ansåg sig vara mer lika sin studiekamrat hade sämreförmåga att skatta sin studiekamrat (medelvärde: r = ,06) jämfört med de som ansåg sigvara mindre lika sin studiekamrat (medelvärde: r = ,49), z = 2,34, p < ,05.

Tabell 6. Skillnader mellan graden i likhet i förmågan att skatta sin studiekamrat påfemfaktormodellen.

Anmärkning: Korrelationerna baseras på en jämförelse mellan NEO PI-R och NEO-FK. N = känslomässig instabilitet. E= utåtriktning. O = öppenhet. A = vänlighet. C = målmedvetenhet. N = 44-60.* Korrelationen är signifikant på ,05-nivån (2-sidig prövning).** Korrelationen är signifikant på ,01-nivån (2-sidig prövning).

Studietyp N E O A C

Psykologprogrammet ,18 ,68** ,51* ,45 -,14

Fristående kurs ,38** ,58** ,39** ,52** ,39**

Lik sin studiekamrat N E O A C

Stämmer inte alls/Stämmer delvis/delvis inte

,39** ,56** ,39** ,54** ,49**

Stämmer ganska bra/Stämmer precis

,28 ,64** ,44* ,44** ,06

22

Ordningseffekter mellan de som skattade sig själva först och de som började skatta sin studiekamrat

Som fjärde och sista frågeställning undersöktes förekomsten av ordningseffekter. Ettoberoende t-test visade en signifikant skillnad i medelvärde för faktorn målmedvetenhet iFFM-S mellan de som började skatta sig själva jämfört med de som först skattade sinstudiekamrat: På frågan ”Jag är i allmänhet samvetsgrann och organiserad. Jag har högaideal och strävar alltid efter att uppnå mina mål” blev medelvärdet för de som skattade sigsjälva först 3,00 (på en skala 0-4). För de som började skatta sin studiekamrat blevmedelvärdet 2,64, t(104) = 2,1, p = ,03. I övrigt uppvisades inga signifikanta ordnings-effekter på testordningen.

Diskussion

Multifaktor-multimetoden visar att NEO PI-R har en konvergent och divergent validitet ikorrelationerna med NEO-FK och med FFM-S för testets fem faktorer känslomässiginstabilitet, utåtriktning, öppenhet, vänlighet och målmedvetenhet. Att korrelationerna ärhögre mellan NEO PI-R och FFM-S jämfört med självrapportering mot studiekamrat-skattning var förväntat då intrapersonella skattningar som regel brukar vara högre äninterpersonella skattningar (McCrae & Costa 1992b). Mellan övriga metodjämförelser ärantingen den divergenta validiteten i heterometodblocken för dålig, den konvergentavaliditeten för låg, metodvariansen för hög, eller en kombination av dessa. Attkorrelationerna i heterometodblocken är för höga i faktorskattningstesten för att ge entillräckligt god divergent validitet beror troligtvis på frågornas alltför breda karaktär. Tillexempel handlar faktorfrågan målmedvetenhet om flera saker: ”Min studiekamrat är iallmänhet samvetsgrann och organiserad. Han/hon har höga ideal och strävar alltid efteratt uppnå sina mål”. Det är inte otänkbart att en del ansåg sin studiekamrat varasamvetsgrann, organiserad eller strävsam utan att för den skull vara alla tre. Dennamångtydighet med flera frågor i en bidrar med stor säkerhet till en sänkt tillförlitlighet hostestpersonernas svar och visar på en brist hos detta valideringsinstrument samt även förvaliditeten som sådan för denna utvärderingsform. Några av testpersonerna angav i denöppna frågan att de vid denna typ av multipåståenden svarade med ett mittenalternativ,fastän de i själva verket överensstämde mycket väl med ena halvan av frågan men mindreväl i den andra halvan.

Utöver risken att besvara multipla frågor med mittenkryssalternativ finns även en risk förgemensam metodvarians vid skattningen direkt på faktorinstrumentet på grund avfrågornas likhet beträffande utseende och innebörd. Detta gäller främst faktorbeskriv-ningarna för utåtriktning och öppenhet: ”Min studiekamrat är i allmänhet utåtriktad,sällskaplig, aktiv och livlig. Han/hon tycker bäst om att vara med andra största delen avtiden” (utåtriktning), och ”Min studiekamrat är i allmänhet öppen för nya erfarenheter.Han/hon har många intressen och är mycket fantasirik” (öppenhet). Här är det befogat attställa sig tvivlande till de olika faktorernas divergenta förmåga. I multifaktor-multimetodmatrisens monofaktortrianglar för skattning direkt på faktornivå blir metod-variansen tydlig för dessa dimensioner. Mellan öppenhet och utåtriktning råder enkorrelation på ,34 för självrapportering och ,36 för studiekamratskattning (p < ,01 för bådaskattningarna). Motsvarande korrelationer på inventorienivå är visserligen positiva, menlägre och inte signifikanta.

23

John & Robins (1993) menar dock att metodvarians i samband med mätningar länge harvarit något av en blind fläck. På senare år har däremot forskningen om metodvarians ökat iantal och i precision. Ett antal nya förslag på alternativa och reviderade versioner avMTMM som bättre skiljer ut metodspecifik varians från traitvarians presenteras av Eid(2000) och Eid et al. (2003). Från McAdams (1992) perspektiv är frågan om bättreinstrument för mätande av metodvarians mycket angelägen på grund av att helatraitpsykologin kan ses som beroende av vilken metod som används. Enligt McAdamsberor meningen hos dimensionen utåtriktning på den kontext i vilken mätningen äger rum,till exempel påverkar relationstyp mellan observationsskattning och självrapporteringenvilka sidor hos dimensionen som synliggörs. En brist i detta sammanhang är att jag intesökte igenom litteraturen efter vanligt förekommande bias som kan ha bidragit till resul-tatet, innan själva undersökningen genomfördes.

Ytterligare tillförlitlighetsproblem rör proceduren. Vitsen med att låta studiekamratparenkomma tillsammans och skatta varandra inför en testledare var att reducera risken för yttredistorsioner (exempelvis olika tider på dygnet och oljud i form av andra ljudkällor) liksomför möjligheten att prata ihop sig. Att studiekamratparen dessutom inte tilläts sitta bredvidvarandra bör ha eliminerat risken för eventuellt tjuvtittande på sin kamrats svar.

Ett annat problem som handlar om undersökningens validitet är risken att testpersoneninte skattar sig själv utifrån sin egen självbild utan utifrån hur han/hon antar att studie-kamraten uppfattar honom/henne, på grund av att de vid genomgången informerades omatt valideringen sker genom att korrelera självrapportering med studiekamratskattning. Somdesignen är upplagd är det emellertid svårt att se hur denna typ av bias kan undvikas. Enmer tidskrävande design hade naturligtvis varit att låta flera personer skatta sammastudiekamrat. En annan aspekt är att testpersonen svarar som han/hon önskar vara, det villsäga ger socialt önskvärda svar. Denna risk borde till viss del kunna uppvägas på grund avdet faktum att testpersonerna visste att de kunde få en förutsättningslös återkoppling på sinegen personlighet utan krav på någon motprestation. Det kan därför ses som troligt att endel såg detta som ett tillfälle att få respons på sin personlighet utan att behöva framställa sigpå ett visst sätt som exempelvis vid en anställningsintervju.

Även undersökningsdesignens upplägg med både ett inventorie- och ett faktorskattnings-test kan ifrågasättas. Eftersom testpersonerna delgivits syftet med undersökningen finnsrisken att det också påverkade hur pass konsistenta svar de gav mellan inventorie- ochfaktornivån. Det är naturligtvis möjligt att en del därför uppgav ett mer konsistent svarmellan skalnivåerna än de skulle ha gjort utan vetskapen om att testen skulle korreleras.

En helt annan invändning som rör mätdesignen framkastas av Howard (1994) som undrarvarför man ska pröva självrapportering mot den betydligt osäkrare metodenbeteendeskattning. Denna paradox har belysts av Howard (1994), som konstaterar atttillförlitligheten är högre vid självrapportering jämfört med andra datakällor. Som stöd fördenna tes anges att det vid en begreppsvalidering framkom att valideringskoefficienten försjälvrapportering var överlägsen koefficienten för andra mätformer. Trots dessa fynd anserHoward att många forskare är alltför fixerade vid problemen med självrapportering medande samtidigt ignorerar hot mot validiteten hos beteendemätningar. Detta visas inte minstvid kriterie- och begreppsvalideringar där validiteten hos självrapporteringar mäts genomkorrelationen med någon ickesjälvrapporteringsmetod av det eftersökta begreppet. Denomvända ordningen där en ickesjälvrapportering valideras med hjälp av en själv-

24

rapportering finns det enligt Howard inga exempel på. Samtidigt väcker en lågöverensstämmelse mellan självrapportering/självbilden och observationsskattning/andrasbild av mig den intressanta men svåra frågan vilken bild som är den mest korrekta(Johnson, 1997; Montgomery, 2001).

Korrelationerna mellan självrapportering och studiekamratskattning är i såväl pilotstudiensom i föreliggande undersökning störst i faktorn utåtriktning, vilket även tidigare forskningpå NEO PI-R mellan självrapportering och kamratskattning uppvisat (Borkenau &Ostendorf 1990; John & Robins, 1993; McCrae & Costa, 1987). En flervägs beroendeANOVA beräkning från pilotstudien visade att de fem olika faktorskalorna på inventorie-nivå ansågs signifikant olika svåra att skatta sin studiekamrat med, F(4,40) = 5,88 (p =,001). Ett uppföljande post hoc test (Bonferroni) visade emellertid att enbart personlighets-dimensionen utåtriktning ansågs signifikant lättare att skatta jämfört med känslomässiginstabilitet (p = ,04) och öppenhet (p = ,04).

Att utåtriktning visade sig vara lättast att skatta leder in på frågan om synligheten hos defem faktordimensionerna samt vilken betydelse bekantskapen med den man skattar har förförmågan att göra korrekta bedömningar. I denna undersökning fanns inga tydliga teckenpå att vare sig hur länge man känt sin studiekamrat eller graden av närhet till densammaskulle ha någon större betydelse för hur väl man lyckas skatta den andre. Tidigare forskninghar dock belyst förhållandet mellan bekantskap med personen man skattar och dessbetydelse för förmågan att skatta den andre på mindre synliga personlighetsdimensionersom exempelvis känslomässig instabilitet (Watson, Hubbard & Wiese, 2000). Det visar sigatt förmågan att skatta just denna faktor ökade mer än för de övriga faktorerna ompersonen som skattade angav att de hade en närmare bekantskap med den skattade(Watson, Hubbard & Wiese, 2000). Samtidigt menar Watson et al. att det är viktigt att se tillolika spektra av bekantskap, såväl längd som intensitetsdjup. Resultatet från föreliggandeundersökning skulle i så fall peka på att studiekamratparen inte kände varandra särskilt väl,både med tanke på den relativt sätt låga korrelationsgraden i känslomässig instabilitetjämfört med övriga faktorskalor och genom den obetydliga ökningen i förmågan att skattavarandra mellan de som ansåg sig känna sin studiekamrat väl jämfört med de som inteansåg sig känna sin studiekamrat så väl (en ökning från en korrelation på ,32, p < ,05 ,förde som uppgav att de känner sin studiekamrat ”varken bra eller dåligt” eller ”dåligt” till ,37,p < ,01, för de som uppgav att de känner sin studiekamrat ”bra” till ”mycket bra”) .

Ett annat problem besläktat med bekantskapsgraden till den man skattar är om graden avlikhet påverkar skattningsförmågan. En studie av Funder, Kolar & Blackman (1995) visaratt collegestudenter som är bekanta inte är mer lika varandra i personlighet jämfört medslumpvis valda personer från samma college. En invändning mot (studie)kamratskattningkan ju annars vara att kamraten på grund av sin likhet till den han/hon skattar uppnår enhögre korrelation jämfört med en som inte är så lik. Resultatet från en kamratskattnings-studie gjord av Kurtz och Sherker (2003) visar att en stor skillnad i personlighet till denman skattar tvärtom kan öka förmågan att bedöma denne. En annan aspekt som däremotvisat sig spela roll för förmågan att skatta sin kamrat är graden av interpersonell orienteringsom personen har mot den som ska skattas, det vill säga ett intresse att utveckla ochbibehålla relationen (Dawne, Vogt och Colvin, 2003). En motivationsfråga om graden avinterpersonellt intresse hade i föreliggande undersökning kunnat lämna värdefullinformation om styrkan på detta eventuella samband.

25

I undersökningen visar korrelationerna mellan NEO PI-R och NEO-FK på studiekamrat-skattning som en valid skattningsform, med konvergenta och divergenta korrelationer sompåminner om tidigare forskningsresultat (Borkenau & Ostendorf, 1990; Costa & McCrae,1992a; Funder, Kolar & Blackman, 1995; McCrae & Costa, 1987).

Vid första anblicken kan det verka förvånande att den konvergenta validiteten i dennaundersökning är lika hög som i tidigare studier, då studiekamraterna i denna undersökningkände varandra både kortare tid och i lägre utsträckning än i tidigare forskning vilket skullekunna förväntas leda till sämre överensstämmelse i skattningsförmåga mellan studie-kamratparen. Å andra sidan är det troligt att pilotstudien genom att välja ut de item somansågs lättast att skatta sin studiekamrat med bidrog till att kompensera för studiekamrat-relationens brister. Korrelationerna med NEO-FK visar därmed att det faktiskt är möjligtatt valideringspröva ett instrument med ett förkortat personlighetsinventorium utan attförlora alltför mycket i mätprecision och slutsatser. Dessutom är det inte omöjligt attpsykologistudenter är särskilt väl rustade för att utföra dylika skattningar med tanke påsåväl intresseriktning som psykometrisk vana.

Att urvalet är begränsat till just psykologistudenter är dock en brist vid en eventuellvalideringsgeneralisering. Arthur (2002) ser ett problem när ett särskilt stickprov somexempelvis psykologistudenter ska generaliseras till en större population. Förutom att självaåldersskillnaden är problematisk i det att den inte är representativ för befolkningen finnsäven en risk att stickprovet skiljer sig från normalpopulationen i intellektuell förmåga ochsocial bakgrund. Med dessa invändningar finns det skäl att även begränsa resultatet fråndenna undersökning till att gälla enbart skattningsförmågan av sin egen respektive sinstudiekamrats personlighet för psykologistudenter vid Stockholms universitet. För andrapopulationer behövs således nya undersökningar.

I jämförelse med många publicerade artiklar med angiven god begreppsvaliditet ipersonlighetstest ställer STP betydligt strängare krav. Enligt riktlinjerna från 2002 är detbara mediankorrelationen mellan NEO PI-R och FFM-S som når upp till omdömet”tillräcklig”, vilket är det näst lägsta godkända värdet enligt denna skala. Resterandemetodjämförelser som rör NEO PI-R får omdömet ”ej acceptabel”. För det högsta betyget”utmärkt” hade krävts en mediankorrelation på större än ,75, en nivå som aktualiserar denflytande gränsen mellan reliabilitet och validitet. För att uppnå så höga korrelationer är detmöjligtvis mer en fråga om reliabilitetsprövning. I samma skrift poängteras dock att detendast rör sig om grova riktlinjer och således inga exakta mått, och att bedömningen görsutifrån ett helhetsintryck, där även kvaliteten i de metoder som ligger till grund för värdenatas med i beräkningen. Det är dock anmärkningsvärt att korrelationer mindre än ,45 av STPstämplas som icke acceptabla. Ser man till andras forskning om begreppsvaliditeten ipersonlighetstest, verkar det som om STP vid sin stipulering av skalvärden främst avser dentyp av validering där ett nytt test korreleras med ett liknande men psykometriskt beprövat.För validering där självrapportering jämförs med observationsskattning råder betydligt lägrekorrelationer utan att för den skull betraktas som dåliga.

En inte ovanlig metod är att justera validitetskoefficienten på grund av kriteriets bristandereliabilitet. Vid dessa fall divideras validitetskoefficienten med kvadratroten av reliabilitets-värdet. Enligt Mabon (2002) är detta en ”bruklig korrigeringsmetod” (sid 154). Eninvändning mot detta resonemang är att det i så fall lönar sig att ha ett kriterium med lågreliabilitet, eftersom validitetskoefficienten därmed justeras uppåt.

26

I förmågan att skatta sin studiekamrat beroende på kön visade resultatet på något oväntat.Tvärtemot vad många kanske skulle tro var männen generellt sett bättre än kvinnorna attbedöma sin studiekamrat på femfaktormodellens personlighetsdimensioner. Ett citat frånHolm (2002, sid 159) kan belysa den rådande föreställningen om ”kvinnors intresse förrelationer och medvetenhet i interaktioner, vilket även överensstämmer med deras godaempatiska förmåga”. Resultat kan bero på flera saker. En möjlighet kan vara att männenhade en annan typ av relation till den de skattade jämfört med kvinnorna. En annanförklaring skulle kunna vara att bilden av kvinnor som mer empatiska än män intestämmer. I en senare bok nyanserar Holm (2003) sin tidigare hållning med att framhållaempirisk forskning som visat att medan kvinnor framställer sig som mer empatiska så ärden faktiska förmågan att läsa av andras tankar och känslor vid skattningar genomfrågeformulär inte bättre än männens faktiska förmåga.

Ett annat resultat som aktualiserar diskrepansen mellan uppfattad och faktisk förmåga ärmellan studenter som läser till psykologer och studenter på fristående kurs. Även här finnsen samhällelig förväntan på psykologen som bra på att avläsa andra människorskänslomässiga tillstånd, något som går stick i stäv med undersökningsresultatet. Attpsykologprogramstudenterna skulle vara signifikant sämre att skatta sin studiekamrat påitem som handlar om vilken typ av behov och motiv som ligger till grund för denneshandlande är uppseendeväckande. Dessutom visade sig psykologprogramstudenterna varasämre än fristående kursare på att bedöma sin studiekamrats psykiska välbefinnande, ettresultat som kastar tvivel över en blivande yrkeskår. Denna skillnad var dock inte statistisktsäkerställd och bör därför heller inte tas för allvarligt. Ett allmänt problem vid jämförelserav undergrupper i denna undersökning är det snedvridna urvalet med färre män änkvinnor, liksom färre psykologprogramstudenter än fristående kursare. Detta gör attresultatet för undergrupperna överlag måste tolkas med försiktighet.

Att det finns en ordningseffekt mellan studiekamratparen på faktordimensionen mål-medvetenhet (”Jag är i allmänhet samvetsgrann och organiserad. Jag har höga ideal ochsträvar alltid efter att uppnå mina mål”) skulle kunna bero på att jag inte var heltslumpmässig vid utdelningen av materialet. Utan att ha några faktiska belägg tycker jag migi efterhand kunna erinra mig att de som fick den första testordningen (som började medsjälvskattning) något oftare var de som kom tidigast och som gick fram först och hämtadeskattningsformulären. Detta är, om det verkligen förhöll sig på det sättet, givetvis en bristfrån min sida, men visar samtidigt på en viss sann varians när det gäller faktornsdiskriminerande förmåga. Det är inte orimligt att tänka sig att de som kom i god tid ocksåär eller åtminstone upplever sig vara mer organiserade och målfokuserade.

I testet för den självupplevda validiteten var den allmänna uppfattningen att testtolkningenöverensstämde väl med självbilden av sin personlighet. Däremot visade sig vänlighet varaden faktor med lägst överensstämmelse, ett resultat som även bekräftades av ett post hoctest (Bonferroni) i jämförelse med faktorn känslomässig instabilitet som hade högstöverensstämmelse. Vad orsakerna till den relativt sett lägre överensstämmelsen förvänlighet beror på är för tidigt att säga något säkert om. En möjlighet skulle kunna vara attdenna faktor mer är färgad av kulturella värderingar i jämförelse med de övriga faktor-dimensionerna. Som testet mäter vänlighet har denna dimension med våra värderingar attgöra, ett normativt område med stora möjligheter till olika perspektiv. En annan tanke äratt formuleringen i blanketten Dina testresultat för de med låga värden på denna faktor på ett

27

iögonfallande sätt avviker från normen i vår kultur: ”Kall, skeptisk, stolt och tävlingslysten.Du tenderar att uttrycka din ilska rakt på sak”.

När det gäller den språkliga översättningen av NEO PI-Rs item finns en risk att kulturelltbetingade ord inte går att direktöversätta utan att förlora essensen hos begreppet som skamätas (Byrne, 2002). En risk som det finns visst fog för i några av itemen, till exempel omreligiösa auktoriteter: ”Jag anser att vi borde söka svar på moraliska frågor hos religiösaauktoriteter” eller i synen på sin kompetens: ”Jag är en mycket kompetent person”. Enberättigad fråga är huruvida item som dessa diskriminerar lika bra mellan människor iSverige som i USA.

I ett vidare perspektiv leder frågan om korrekta översättningar in på frågan om korrektabegreppsvalideringar. I och med avsaknaden av en ordentlig teori uppstår problemet att viinte riktigt vet huruvida de item vi använder oss av exakt motsvarar de begrepp som vi förtillfället valt att inordna dem under. Ordens relation till sina begreppsliga objekt tycksdärmed vara en högst arbiträr historia, som saknar såväl exakt referens som en metod attsäkra att olika människor ser på ordet på samma sätt (Quine, 1960/1997). För envalideringsstudie som denna blir därmed frågan hur pass starkt korrelationerna mellanexempelvis självrapporteringen och studiekamratskattningen ska tolkas. Vad innebäregentligen korrelationskoefficienten översatt till vanligt språkbruk, och hur god är denfaktiska förmågan i att korrekt uppfatta den andres personlighet? Johnson (1997) menar atttestet endast ger valid information så länge som testpersonen och testkonstruktören tolkaritemsvaren på samma sätt.

Diskussionen om personlighetens egentliga struktur och olika sätt att mäta den på kommersäkert alltid att pågå. Ett uppmärksammat exempel som aktualiserar vikten av väl utprovademätinstrument är den i skrivande stund rättspsykiatriska undersökningen av utrikesministerAnna Linds mördare. I Läkartidningen har debatten stundtals varit mycket hård om bristerhos vissa så kallade projektiva personlighetstester som används inom rättspsykiatrin. Ävenidag är den vanligaste testformen ett projektivt test med namnet Draw a tree, som innebäratt låta den dömde måla ett träd, vars stammar och krona av psykologen sedan tolkas somprojiceringar av karaktärens inre. Men psykometrisk kritik kan även riktas mot mer såkallade objektiva test. Till exempel är självrapportering förknippat med betydande bias ochen möjlighet att förställa sig (Crona et al., 2001; Trygg et al., 2001, se även Pronin, Puccino& Ross, 2002).

Att traitansatsen inte når särskilt långt i förklaringsdjup hänger samman med det empiriskamen icke-teoretiska sättet den är grundad på. Att karaktäriseras genom ett visst trait innebärendast att personen kan beskrivas som bärare av en viss egenskap eller beteende, inte enförklaring på varför han eller hon uppvisar egenskapen i fråga. Samtidigt innebär detta icke-teoretiska förfarande en fördel i och med att själva teorin annars är tvungen att förklarasoch valideras, något som exempelvis Freuds teorier om personlighetens olika medveten-hetsnivåer har haft stora problem med, men även modernare personlighetsteorier somEysencks har hamnat i svårigheter. Upphovsmakarna Costa och McCrae (1995) medger attdet på FFM baserade personlighetstestet NEO PI-R inte kan förklara allt ompersonligheten, men att nästan alla personlighetstraits är relaterade till en eller fler av defem faktorerna. Detta resonemang liknar emellertid ett cirkelresonemang där det som skaförklaras redan förutsätts. Frågan är ju om traits och FFM är ett bra sätt att mäta

28

personlighet på. Ett pragmatiskt svar är nog ett ja tills att det kommer något som är bättre(Johansson, 2003).

Kritiken från Mischel (1968) satte enligt Mabon (2002) igång en utveckling avpersonlighetstest med bättre prognosticeringsförmåga. Detta har resulterat i tester som vidaöverstiger Mischels angivna högsta korrelationer på ,30 mellan test och kriterium. I dennaundersökning ger en omräkning av mediankorrelationen mellan självrapportering ochstudiekamratskattning på inventorienivå en förklarad varians på 33,6%. Samtidigt innebärresultatet att drygt 66% av en persons självrapportering av sin personlighet inte överens-stämmer med skattningarna från sin studiekamrat. I en litteraturgenomgång av Widiger ochTrull (1997) konstateras ändå att av de personlighetstest som bygger på FFM är NEO-PI-Rdet med bäst uppvisad reliabilitet och validitet. Samtidigt menar författarna att NEO PI-Rpå grund av sin nära överensstämmelse med den ursprungliga lexikaliska versionen av FFMtenderar att ha mindre klinisk och social betydelse. Skillnaden mellan å ena sidantrogenheten till FFM och å andra sidan en begränsad praktisk användning ställerbetydelseförskjutningen hos validitetsbegreppet på sin spets: Är det användbarheten ellerbegreppstrogenheten som ska prioriteras? Denna fråga är mycket intressant men skullebehöva ett betydligt större utrymme än detta för att kunna besvaras utförligt. En preliminärsynpunkt är dock att när det gäller normalpersonlighetstest tenderar det som ärigenkännbart att vara användbart. Resultaten från min undersökning visar på såvälintersubjektiv överensstämmelse som självupplevd validitet i förhållande till testresultatet.

Som framgår av Blocks (1995) kritik kan FFM och därmed även NEO PI-R kritiseras föratt inte vara fullt så empiriskt uppkommen som vanligtvis framhålls. Enligt Block berorsnarare de fem övergripande personlighetsdimensionerna på en teoretisk konstruktion därden oblika faktoranalysmetoden är medkonstruktör. Såväl faktoranalys som statistiskaprocedurer i allmänhet bör därför inte tillämpas tanklöst som en ”mekanisk sannings-generator” (Meehl, 1992, sid 152). Costa och McCrae (1995) håller med om att inte betraktaresultat från faktoranalysen som att det vore en empirisk upptäckt, men menar samtidigt attdet ortogonala systemet som NEO PI-R är faktoranalyserat på är försiktigare än det oblikaoch verkar därmed mena att det därigenom är mindre konstruerande. Denna invändningrör emellertid inte på något sätt kärnkritiken, nämligen FFMs konstruerade uppbyggnad.

Att självskattningsinventoriet NEO PI-R är grundat i naturligt språk får en rad konse-kvenser för testets användning och legitimitet. Det är lätt att känna igen sig i beskriv-ningarna som utspelar sig i en livsvärld de flesta kan relatera till. Att testet dessutom byggerpå självrapportering motsvarar väl en individualistisk kultur där konsten att presentera sigsjälv är en livsstil och en industri (Bauman, 2002; Nuber, 1998). Samtidigt är dennautgångspunkt i vardagsspråket en begränsning. Som Alvesson (2003) uttrycker kan språketsägas konstruera verkligheten snarare än att avbilda den. I anslutning till dennarelativisering av sanningsbegreppet i motsats till en mer naiv realistisk hållning kan tillfogasett konstruktivistiskt perspektiv vid själva skattningen. Vid bedömningar av andra användervi inte nödvändigtvis våra sinnen utan vår föreställningsförmåga (Montgomery, 2001). Innei vår kognitiva verkstad kan vi manipulera och konstruera tänkbara scenarion. I en kontextsom en personlighetsbedömning av ens studiekamrat är det inte omöjligt att item varsinnehåll personen inte vet något om kan rekonstrueras genom användning av föreställ-ningsförmågan. Med detta perspektiv tenderar korrelationsnivåerna mellan självrappor-tering och studiekamratskattning att inte längre framstå som fullt så empiriskt grundad somföreträdare för denna valideringsform gärna vill framhålla. Å andra sidan innebär

29

avsaknaden av en förklarande teori liksom den relativa okunskapen vid skattningsprocessentill en slags svart låda som producerar validitetskoefficienter utan att vi riktigt vet vad de stårför eller hur de uppkommit. Hume skulle förmodligen dessutom ställa sig tvivlande till deninduktiva säkerhet med vilken statistiken grundar sina förutsägelser om framtiden. Etttvivel som det idag inte verkar finnas någon bra lösning på (Murdoch, 2002).

Drömmen om ett fullständigt induktivt förfarande fritt från teoristyrning och teoretiskakonstruktioner är en illusion. Redan människan i sig konstruerar verkligheten utifrån sinakognitiva och perceptiva dispositioner (Kant, 1781/1998). Att däremot gå till enextrempunkt där varat fullständigt uppgår i en konstruktion är emellertid att underskattaverkligheten och tinget i sig (som många postmodernister roar sig med, däribland Rorty,1997). Det är ju fortfarande något som retar våra sinnesintryck, och får oss att uppfattavärlden på ett visst sätt (Hacking, 2000). Likt hjälten Neo i filmen Matrix som flyger mellanden verkliga och den konstruerade världen rör sig personlighetstestet NEO PI-R igränslandet mellan perception och konstruktion, mellan induktion och deduktion. Vad viuppfattar i personlighet hos andra och i oss själva är resultatet av en komplicerad blandningav biologi, visuellt och språkligt seende och social (teoristyrd) kognition. Dessutom präglarhistorien oss att uppfatta verkligheten på ett visst sätt, en förväntningshorisont som styrvad vi kan se och inte kan se (Gadamer, 1960/1990; Heidegger, 1954/1996).

En intressant fortsättning på forskningen om personlighetstest vore att försöka öka predik-tionskraften genom att integrera olika discipliner till ett och samma inventorium. Tillexempel skulle meta-analyser av såväl traitforskning som biologiskt grundade personlighets-teorier kunna välja ut test med bäst uppvisad reliabilitet och validitet för att i nästa stegförsöka integrera dem med mer interaktionistiska och situationsspecifika synsätt. Som detär nu förklarar varje personlighetstest individen utifrån sin vetenskapsteoretiska ochepistemologiska horisont (Karlsson, 2001). För FFMs del är problemet att alla fem faktorerär ”dimensioner av samma semantiska rymd” (personlig kommunikation med D.Magnusson, 10 mars, 2004). Popper (1962) menar att spänningen mellan fasta person-lighetsdrag och situationens betydelse för personligheten blottlägger en djupare klyftamellan å ena sidan psykologiska intrapersonella förklaringsmodeller och en långt drivensociologisk grundad situationslogik å den andra. Enligt Kuhn (1962/1997) är två paradigminkommensurabla och inkompatibla, vilket betyder att det är omöjligt att jämföra dem. Detfinns ingen neutral plats som vi kan göra jämförelsen mellan de två systemen ifrån, menarKuhn. Men frågan är hur två teorier kan vara inkommensurabla och inkompatibla påsamma gång. De pratar om samma sak men har olika förslag på hur det ska förstås.

Ytterligare ett ämne för framtida forskning är huruvida personlighetens stabilitet över tid(test-retest) vid såväl självrapportering som observatorieskattning är en verklig konstanseller om kognitiva processer hos den som skattar delvis ”ser” traits hos den skattadepersonen som inte längre finns. Denna ansats kräver såväl forskning om minnets betydelsevid perception med hjälp av exempelvis funktionell magnetröntgenavbildning (fMRI) somfenomenologiskt grundade kvalitativa studier av vad människor faktisk upplever av sin ochandras personlighet.

Kritiken och invändningarna till trots har jag valt att använda mig av en erkänd ochbeprövad valideringsmetod. På grund av urvalets ensidighet, valideringsinstrumentens adhoc karaktär samt det faktum att det fanns skillnader mellan undergrupperna i urvalet kanresultatet anses gälla enbart för psykologistudenter vid Stockholms universitet och för

30

NEO PI-R i jämförelse med just dessa instrument. Sammanfattningsvis tyder mönstret avkorrelationer från multifaktor-multimetoden i min undersökning på att NEO PI-Ruppvisar såväl god konvergent som divergent validitet i jämförelse med det förkortadestudiekamratskattningstestet NEO-FK, och i jämförelse med självrapportering direkt påfaktornivå. Då den sistnämnda valideringsmetoden emellertid har vissa brister i dendivergenta validiteten, är detta inget idealiskt instrument för validering. Överlag ansertestpersonerna att tolkningen av deras testresultat ligger i linje med deras självbild avpersonligheten. Sammantaget ger detta stöd för tolkningen att NEO PI-R har god validitet.

Referensl ista

Allick, J., & McCrae, R.R. (2004). Toward a geography of personality traits: Pattern ofprofiles across 36 cultures. Journal of Cross-Cultural Psychology, 35, 13-28.

Allport, G.W. (1937). Personality: A psychological interpretation. New York: Holt.Allport, G.W., & Odbert, H.S. (1936). Trait names: A psycho-lexical study. Psychological

Monographs, 47, (hela nummer 211).Alvesson, M. (2003). Beyond neopositivists, romantics, and localists: A reflexive approach

to interviews in organizational research. Academy of Management Review, 28, 13-33.American Educational Research Association, American Psychological Association &

National Council on Measurement in Education. (1999). Standards for educational andpsycholocial testing. Washington, DC.

Angoff, W.H. (1988). Validity: An evolving concept. In H. Wainer & H.I. Braun (Ed.) TestValidity (pp. 19-32). Hillsdale, New Jersey: Lawrence Erlbaum Associates.

Arthur, P. (2002). The relationship between attributional style, gender and the five-factormodel of personality. Personality and Individual Differences, 33, 1185-1201.

Bauman, Z. (2002). Det individualiserade samhället. Göteborg: Daidalos.Bergman, H. (2003). NEO PI-R. Manual: Svensk version. Stockholm: Psykologiförlaget AB.Block, J. (1995). A contrarian view of the five-factor approach to personality description.

Psychological Bulletin, 117, 187-215.Borkenau, P. (1992). Implicit personality theory and the five-factor model. Journal of

Personality, 60, 295-327.Borkenau, P., & Ostendorf, F. (1990). Comparing explanatory and confirmatory factor

analysis: A study of the 5-factor model of personality. Personality and Individual Differences,11, 515-524.

Borkenau, P., & Ostendorf, F. (1998). The big five as states: How useful is the five-factormodel to describe intraindividual variations over time? Journal of Research in Personality,32, 202-221.

Burisch, M. (1984). Approaches to personality inventory construction: A comparison ofmerits. American Psychologist, 39, 214-227.

Byrne, B.M. (2002). Validating the measurement and structure of self-concept: Snapshotsof past, present and future research. American Psychologist, 57, 897-909.

Campbell, D.T., & Fiske, D.W. (1959). Convergent and discriminant validation by themultitrait-multimethod matrix. Psychological Bulletin, 2, 81-105.

Cattell, R.B. (1946). Description and measurement of personality. Yonkers, NY: World.Cloninger, S.C. (1996). Personality: description, dynamics and development. New York: W.H.

Freeman and Company.Costa, P.T., & McCrae, R.R. (1992a). Four ways five factors are basic. Personality and

Individual Differences, 6, 653-665.

31

Costa, P.T., & McCrae, R.R. (1992b). NEO PI-R™: Professional manual. Florida:Psychological Assessment Resourses.

Costa, P.T., & McCrae, R.R. (1995). Solid ground in the wetlands of personality: A reply toBlock. Psychological Bulletin, 117, 216-220.

Crona, L., Eriksson, Å., Backgård, P., Jonson, C., Lillieroth, L., & Lönnqvist-Backe, M.(2001). Psykologiska test i rättspsykiatriska bedömningar står på fast mark.Läkartidningen, 46, 5235-5239.

Cronbach, L.J., & Meehl, P.E. (1955). Construct validity in psychological tests. PsychologicalBulletin, 4, 281-302.

Dawne, D.S., Vogt, D.S., & Colvin, C.R. (2003). Interpersonal orientation and the accuracyof personality judgements. Journal of Personality, 71, 267-295.

De Raad, B., & Perugini, M. (2002). Big Five factor assessment: Introduction. In B. deRaad & M. Perugini (Ed.), Big Five Assessment (pp. 1-26). Göttingen: Hofgrede & HuberPublishers.

Dåderman, A.M. (2000). Personlighetsmodeller och självrapporteringsskalor. In L. Lidberg(Ed.), Svensk rättspsykiatri – en handbok (pp.397-420). Lund: Studentlitteratur.

Egidius, H. (2001). Tio teman i psykologins historia. Lund: Studentlitteratur.Eid, M. (2000). A multitrait-multimethod model with minimal assumtions. Psychometrica, 65,

241-261.Eid, M., Lischetzke, T., Nussbeck, F.W., & Trierweiler, L.I. (2003). Separating trait effects

from trait specific method effects in multitrait-multimethod models: A multiple-indicator CT-C(M-1) model. Psychological Methods, 8, 38-60.

Eysenck, H.J. (1967). The biological basis of personality. Springfield, IL: Charles C. Thomas.Eysenck, H.J. (1990). Biological dimensions of personality. In L.A. Pervin (Ed.), Handbook

of personality:Theory and research (pp. 244-276). New York: Guilford Press.Fossum, T.A. (2002). Keeping it short and simple: A simple rating scale for personality.

Dissertation Abstracts International: Section B: The Sciences and Engineering, 63 (5-B), 2581-2582.

Foucault, M. (1973). Vansinnets historia under den klassiska epoken. Stockholm: BokförlagetAldus.

Friedman, H.S., & Schustack, M.W. (1999). Personality: Classic theories and modern research.Boston: Allyn and Bacon.

Funder, D.C., Kolar, D.C., & Blackman, M.C. (1995). Agreement among judgement ofpersonality: Interpersonal relations, similarity, and acquaintanceship. Journal of Personalityand Social Psychology, 69, 656-672.

Funder, D.C., & West, S.G. (1993). Consensus, self-other agreement, and accuracy inpersonality judgement: An introduction. Journal of Personality, 61, 521-551.

Gadamer, H.G. (1960/1990). Wahrheit und Methode: Grundzüge einer philosophischenHermeneutik. Tübingen: J.C.B. Mohr (Paul Siebeck).

Gregory, R.J. (1992). Psychological testing: Theory, principles, and applications. Boston:Allyn and Bacon.

Hacking, I. (2000). Social konstruktion av vad? Stockholm: Thales.Heidegger, M. (1954/1996). Die Technik und die Kehre. Stuttgart: Verlag Günter Neske.Hogan, R. (1996). A socioanalytic perspective on the five-factor model. In J.S. Wiggins

(Ed.) The five-factor model of personality: Theoretical perspectives (pp. 163-179). New York:Guilford Press.

Holm, U. (2002). Det räcker inte att vara snäll: Förhållningssätt, empati och psykologiska strategier hosläkare och andra professionella hjälpare. Falkenberg: Natur och Kultur.

Holm, U. (2002). Empati: Att förstå andra människor. Stockholm: Natur och Kultur.

32

Howard, G.S. (1994). Why do people say nasty things about self-reports? Journal ofOrganizational Behaviour, 15, 399-404.

Janson, H. (1999). Projective methods and longitudinal developmental research: Considerations of data´snature and reliability. Akademisk avhandling. Stockholm: Psykologiska institutionen.

Johansson, L.G. (2003). Introduktion till vetenskapsteorin. Stockholm: Thales.John, O.P., & Robins, R.W. (1993). Determinants of interjudge agreement on personality

traits: The big five domains, observability, evaluativeness, and the unique perspectiveon the self. Journal of Personality, 61, 521-551.

Johnson, J.A. (1997). Units of analysis for the description and explanation of personality. InR. Hogan, J. Johnson & S. Briggs (Ed.), Handbook of personality psychology (pp. 143-164).San Diego: Academic Press.

Jones, E.E., & Nisbett, R.E. (1971). The actor and the observer: Divergent perceptions ofthe causes of behaviour. In E.E. Jones, D.E. Kanous, H.H. Kelley, R.E. Nisbett, &R.F. Kidd (Ed.), Attribution: Perceiving the causes of behavior (pp. 219-266). Morristown,N.J.: General Learning Press.

Kant, I. (1781/1998). Kritik der reinen Vernunft. Hamburg: Felix Meiner Verlag.Karlsson, G. (2001). Fenomenologiska reflexioner över perspektivbegreppet tillämpat på

samhällsvetenskaplig forskning. In H. Montgomery & B. Qvarsell (Ed.), Perspektiv ochförståelse: Att kunna se från olika håll (pp. 10-23). Stockholm: Carlssons.

Kekes, J. (1976). Physicalism and subjectivity. Philosophy and Phenomenological Research, 37,533-536.

Kolb, B., & Whishaw, I.Q. (2003). Fundamentals of human neuropsychology. New York: WorthPublishers.

Kuhn, T.S. (1962/1997). De vetenskapliga revolutionernas struktur. Stockholm: Thales.Kurtz, J.E., & Sherker, J.L. (2003). Relationship, trait similarity, and self-other agreement

on personality ratings in college roommates. Journal of Personality (pp. 21-48). Malden:Blackwell Publishing.

Larstone, R.M., Jang, K.L., Livesley, J., Vernon, P.A., & Wolf, H. (2002). The relationshipbetween Eysenck´s P-E-N model of personality, the five-factor model of personality,and traits delineating personality dysfunctions. Personality and Individual Differences, 33, 25-37.

Mabon, H. (2002). Arbetspsykologisk testning: Om urvalsmetoder i arbetslivet. Stockholm:Psykologiförlaget AB.

Magnusson, D. (2003). Testteori. Stockholm: Psykologiförlaget.McAdams, D.P. (1992). The five-factor model in personality: A critical appraisal. Journal of

Personality, 60, 329-361.McCrae, R.R. (1982). Consensual validation of personality traits: Evidence from self-

reports and ratings. Journal of Personality and Social Psychology, 43, 293-303.McCrae, R.R., & Costa, P.T. (1987). Validation of the five-factor model of personality cross

instruments and observers. Journal of Personality and Social Psychology, 52, 81-90.McCrae, R.R., & John, O.P. (1992). An introduction to the five-factor model and its

applications. Journal of Personality, 60, 175-215.Meehl, P.E. (1992). Factors and taxa, traits and types, differences of degree and differences

in kind. Journal of Personality, 60, 117-174.Messick, S. (1995). Validity of psychological assessment: Validation of inferences from

persons’ responses and performances as scientific inquiry into score meaning. AmericanPsychologist, 50, 741-749.

Mischel, W. (1968). Personality and assessment. New York: Wiley.

33

Montgomery, H. (2001). Den dubbla tvåsidigheten: Om perspektiv och värderingar. In H.Montgomery & B. Qvarsell (Ed.), Perspektiv och förståelse: Att kunna se från olika håll (pp.10-23). Stockholm: Carlssons.

Murdoch, D. (2002). Induction, Hume, and probability. The Journal of Philosophy, 2, 185-199.Norman, W.T. (1963). Toward an adequate taxonomy of personality attribute: Replicated

factor structure in peer nomination personality ratings. Journal of Abnormal and SocialPsychology, 66, 574-583.

Nuber, U. (1998). Vår tids egoism: Varför självförverkligande ofta leder till ensamhet. Stockholm:Natur och Kultur.

Petrides, K.V., Jackson, C.J., Furnham, A., & Levine, S.Z. (2003). Exploring issues ofpersonality measurement and structure through the development of a short form of theEysenck personality profiler. Journal of Personality Assessment, 81, 271-280.

Popper, K.R. (1962). Die Logik der Sozialwissenschaften. Kölner Zeitschrift für Soziologie undSozialpsychologie, 14, 233-270.

Pronin, E., Puccino, C., & Ross, L. (2002). Understanding misunderstanding: Socialpsychological perspectives. In T. Gilovich, D. Griffin, & D. Kahneman (Ed.), Heuristicsand biases: The psychology of intuitive judgement (pp. 636-665). Cambridge: CambridgeUniversity Press.

Quine, W.V. (1997). Word and object. Massachusetts: MIT Press.Rorty, R. (1997). Kontingens, ironi och solidaritet. Lund: Studentlitteratur.Saucier, G., & Goldberg, L.R. (2002), Assessing the big five: Applications of 10

psychometric criteria to the development of marker scales. In B. De Raad & M.Perugini (Ed.). Big five assessment (pp. 29-58). Göttingen: Hofgrede & Huber Publishers.

Searle, J.R. (1987). Indeterminacy, empirism, and the first person. The Journal of Philosophy,84, 123-146.

Stiftelsen för Tillämpad Psykologi. (2001). Läsanvisning för STP´s granskningsrapporter.[Broschyr]. Westerlund, J: Författare.

Stiftelsen för Tillämpad Psykologi. (2002). Kvalitetskriterier för testinstrument: Personlighets-bedömning.

Trygg, L., Dåderman, A.M., Wiklund, N., Meurling, A.W., Lindgren, M., Lidberg, L.,&Levander, S. (2001). Projektiva test i rättspsykiatrin medför risker för rättssäkerheten.Läkartidningen, 26-27, 3118-3123.

Watson, D., Hubbard, B., & Wiese, D. (2000). Self-other agreement in personality andaffectivity: The role of acquaintanceship, trait visibility, and assumed similarity. Journal ofPersonality and Social Psychology, 78, 546-558.

West, S.G., & Finch, J.F. (1997). Personality measurement: Reliability and validity issues. InR. Hogan, J. Johnson & S. Briggs (Ed.), Handbook of personality psychology (pp. 143-164).San Diego: Academic Press.

Westen, D., & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures.Journal of Personality and Social Psychology, 84, 608-618.

Widiger, T.A., & Trull, T.J. (1997). Assessment of the five-factor model of personality.Journal of Personality Assessment, 68, 228-250.

Wolming, S. (1997). Validitet: Ett traditionellt begrepp i modern tillämpning. Pedagogiskforskning i Sverige, 3(2), 81-103.

Wolming, S. (2000). Validering av urval. Akademisk avhandling. Umeå: Pedagogiskainstitutionen.

sjÄlvrapportering och studiekamratskattning pÅ ... · begreppsvaliditet handlar om sambandet...

Documents