evalueringsbegreber og metoder...bearbejdning, analyse og epidemiologisk metode fortolkning af data...

94
Region Hovedstaden Center for HR Evalueringsbegreber og metoder TIL UDDANNELSES- OG KURSUSANSVARLIGE I REGION H

Upload: others

Post on 05-Feb-2020

30 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

Region HovedstadenCenter for HR

Evalueringsbegreber og metoderTIL UDDANNELSES- OG KURSUSANSVARLIGE I REGION H

Page 2: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

2

Evalueringsbegreber og metoder

Til uddannelses- og kursusansvarligeNærværende e-bog er henvendt til alle i Region Hovedstaden, som står over for at skulle beslutte igangsætning af evaluering af kurser og uddannel-ser. E-bogen er udformet på baggrund af et ønske fra klinikere om at få bedre hjælp til evaluering af kurser og uddannelse i Region H.

I e-bogen finder du en alfabetisk gennemgang af evalueringsbegreber og metoder. Du kan læse den i sin helhed, eller du kan anvende den som et opslags-værk. Med e-bogen bliver du bedre rustet til selv at træffe en beslutning om en evalueringstilgang. Vi anbefaler også, at du vurderer behovet for at få hjælp fra konsulenter, som kan være med på side-linjen af din evaluering. I gennemgangen forklares begreber og metoder ud fra eksempler fra kurser og uddannelse, men gennemgangen kan også bruges til at forstå evaluering inden for andre områder.

Tak til Tine Louise Mundbjerg Eriksen for review på 2. udgave og til Nete Krogsgaard Niss fra Det Nati-onale Forskningscenter for Velfærd og Karl Fritjof Krassel fra KORA for review på 1. udgave.

- Jacob Brauner

Page 3: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

3

Evalueringsbegreber og metoder

360 side 7

360-graders evaluering

A side 7

Absolut og relativ difference

Akkreditering

Aktionsforskning, aktionsmetode

Analyse

Anonymitet

ANOVA

Appropriateness

Auditmetode

B side 9

Baggrundsvariabel

Bayesian Additive Regression Trees (BART)-modeller

Bayesiansk statistik

Baseline

Bearbejdning, analyse og fortolkning af data

Benchmark

Bias - systematiske og usystematiske fejl

Big Data

Blinding

Bounds

C side 13

Case-studier

Centrale værdier

Certificering

Cherry picking

Compliance

Confounder

Cost-effectiveness og cost-benefit

Cut-off

D side 16

Data mining

Datatyper

Deduktiv og induktiv metode

Delphi-metode

Deltagerobservation

Desk research

Deskriptiv versus inferentiel statistik

Didaktik

Difference-in-differences

Diffusion

Diskursanalyse

Dosis

E side 20

Effectiveness

Effekter på individ- og gruppe-niveau

Effektmåling

Efficacy

Endogenitet og eksogenitet

Ekspertinterviews

Epidemiologisk metode

Epistemologi og ontologi

Estimat

Evaluering

Evalueringscirkel

Evalueringsniveauer

Evidenshierarki

F side 27

Factorial design

Faktoranalyse

Falsifikation

Falsk negative og falsk positive observationer

Falske effekter

Feasibility

Fejlled

Page 4: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

4

Evalueringsbegreber og metoder

Feltobservation og deltager- observation

Fixed og random effects

Fixed og random effects, mikro- økonometri

Fokusgruppe

Forandringsteori

Forforståelse

Frekventiel statistik

Fremskrivningsanalyse

Fænomenologi

Følgeforskning

G side 32

Gennemsnit

Going native

Graf

Grafiske datapræsentation, diagrammer og grafer

Gruppeinterview

H side 34

Harmonisering

Heteroskedasticitet og homo- skedasticitet

Hypotese

I side 34

Idealtype

Impact evaluering

Implementering og disseminering

Imputering

Indsats, intervention

Informant, interviewperson

Instrument

Interviewperson

Interviews, fokusgrupper og gruppeinterviews

Intuition

Item Response Theory

K side 40

Kausalitet

Kausal effekt og subjektiv oplevelse

Key performance indicator

Kildekritik

Kirkpatricks trappemodel

Klynge-evaluering

Kolonnediagram

Komparative studier

Kompatibilitet

Konceptuel grafisk kortlægning

Konfidensinterval

Konfirmatorisk analyse

Konsekventiel validitet

Kontekstualitet

Kontrafaktisk tilstand

Kontrolgruppe

Korrelation

Korrespondanceanalyse

Kriterier for synliggørelse af et kausalforhold

Kritisk hændelse, vendepunkt

Kumulerede data

Kvalitativ og kvantitativ tilgang

Kvalitative metoder og analysetilgange

Kvalitetskriterier

Kvasieksperimenter

L side 51

Lagkage/cirkeldiagram

Latent variabel

Litteraturstudier

Longitudinel analyse

Longitudinale data, kohorter, paneldata og tidsseriedata

Læringskurve og glemmekurve

Page 5: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

5

Evalueringsbegreber og metoder

Løbende dataindsamling og løbende afrapportering

M side 54

Machine learning

Matrice

Matrixsampling

Median

Mekanismer

Meningskategorisering

Meningskondensering

Metastudier og systematiske reviews

Metodepluralisme

Metodeudvikling

Middelværdi

Minimisering

Mixed methods

Modus

Multicenter evaluering

Multikollinearitet

Multilevel-modeller

Multitrait multimethod analyse

Mørketal

N side 57

Narrativ

Narrativ analyse

Naturlige eksperimenter

Netværksanalyse

Normalfordeling

O side 58

Observationsstudier

Oplevelser versus fakta/”fakta”

Opskalering

Outlier

Over- og underestimering

P side 60

Paradata

Paraevaluering

Parametriske og nonparametriske modeller

Pilotundersøgelse

Population, totalpopulation og stikprøve

Positivistisk analyse

Pre-post studier

Procesevaluering

Prospektiv vs retrospektiv dataindsamling

Propensity score matching

Protokol

Proxy

Prædiktion

Pseudonymisering

P-værdi

R side 64

Random effects

Randomisering

Randomiseret kontrolleret forsøg, RCT

Registerdata

Regressionsanalyse

Regression discontinuity design

Regressionsmodel, multipel regressionsmodel

Reliabilitet

Repeated measures ANOVA

Replicering

Repræsentativitet

Respondentgrupper

Resultatmålinger og virkningsmålinger

Rådata

Page 6: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

6

Evalueringsbegreber og metoder

S side 68

Sammenhænge mellem stokastiske variable

Scratchnotes

Selektion

Sensitivitet

Signifikansniveau

Socialkonstruktivistisk kritik af effekt og kausalitet

Solsikkediagram

Spatial analyse

Spredning, varians og standard- afvigelse

Spredningsdiagram

Spørgeskemadata

Spørgsmålsbank

Spørgsmålstyper i et spørgeskema

Stamdata

Standardfejl

Sti-analyse/path-analyse

Stikprøve

Strata, stratificering

Suggestion

Summativ og formativ evaluering

Survey/spørgeskemaundersøgelse

Sustainability

Symboler

Syntese

Søjle/stolpe/pindediagram

T side 78

Teoridrevet analyse

Testgruppe og kontrolgruppe

Tilfredshedsmåling

Tragtdiagram

Transfer

Treatment-as-usual

Triangulering

Troværdighed

Tvillingestudier

Typefejl

Tænke højt test

U side 82

Udviklingsevaluering

Underspørgsmål

Univariat og bivariat analyse

Use-case

V side 84

Validitet inden for skalavalidering

Variabel/skalatyper

Vignet

Voxpop

Vægtning af datasæt

Vægtning af temaer

Værdifrihed

Litteraturliste side 87

Page 7: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

7

Evalueringsbegreber og metoder

360A

360-graders evaluering360-graders evaluering er en populær betegnelse for evalueringer, hvor man beder om udsagn fra alle involverede. I forbindelse med et kursus kan denne type evaluering fx omfatte kursister, undervisere, undervisningsansvarlige og ledere.

Absolut og relativ differenceEn absolut difference måles i måleenhedens værdi, hvor en relativ difference måles som andel, fx procent. Hvis en klinik i år 2017 har 50 medarbejdere og i 2018 har 60 medarbejdere, så er den absolutte difference 10 medarbejdere og den relative difference 20%. Relativ difference tager udgangspunkt i det oprinde-lige, hvis der indgår en tidsdimension. Hvis man i stedet betragter den relative difference mellem antal mænd og kvinder på klinikken, og der er 30 kvinder og 20 mænd, så kan det ene antal ikke siges at være mere oprindeligt end det andet. Her må man angive hvad der er udgangspunktet, hvis man ønsker at angive den relative difference, fx ”Der er 50 % flere kvinder end mænd”.

AkkrediteringVed akkreditering forstås ekstern evalueringsproces med det formål at kvali-tetssikre ud fra standarder, som en praksis skal overholde, fx en maxgrænse for fejlbehandlinger af patienter (Mathison 2005).

Aktionsforskning, aktionsmetodeSe kvalitative metoder og analysetilgange

AnalyseEn analyse består i at tolke empiri. Et simpelt eksempel er fx beregning af gennemsnitsvægten for et antal personer. Mere komplekse analyser kan fx være synliggørelsen af ledelsesstrategier ud fra et interviewmateriale eller tolkning af en regressionsmodel.

Anonymitet(se også pseudonymisering)

I en evaluering tilbyder man som udgangspunkt evalueringens respondenter og interviewpersoner anonymitet. De personer, som data omhandler, vil i så fald ikke være genkendelige, når man publicerer resultaterne, uanset om resultaterne gøres offentlige eller holdes internt, fx inden for regionen. Hvis man anvender et spørgeskema, bør man som udgangspunkt altid sikre, at respondenter kan svare anonymt. En ofte anvendt regel inden for afrapportering af tabeller er, at man ikke afrapporterer data, som har mindre end fem observationer i en celle. Meget få observationer i en celle giver stor usikkerhed, og betyder desuden, at læseren kan gætte, hvem det dækker over. Med andre ord handler anonymitet både om validitet og etik.

I forbindelse med tabeller taler man om ”K-anonymitet”, dvs. at enhver celle i en krydstabel mindst skal have K observationer for at blive afrapporteret. Hvis det ikke er tilfældet, fx hvis K er 5, og der kun er to personer, som har svaret ”helt

Page 8: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

8

Evalueringsbegreber og metoder

Tabel 1: Ikke-anonymiserede data

Sygeplejersker Læger

Enig 20 13

Uenig 7 2

Tabel 2: K-anonymiserede data

Sygeplejersker Læger

Enig 20 13

Uenig 7 *

Anonymitet handler blandt andet om, at at respondenten ikke skal kunne stilles til ansvar for sin besvarelse, herunder fx over for sin leder eller andre personer. Dernæst er anonymitet også vigtig, fordi det er en præmis, som i betydelig grad sikrer, at besvarelsen så vidt mulig er ærlig, og i overensstemmelse med respon-dentens oplevelse og overbevisning. Hvis besvarelsen sker på et uærligt grundlag, så kan man ikke forvente, at de indsamlede data er gyldige. Derfor kan det også være vigtigt i begyndelsen af et spørgeskema at gøre tydeligt opmærksom på, at besvarelsen foregår anonymt. Hos Region Hovedstaden kan du tage kontakt til CIMT vedrørende sikring af anonymitet i en evaluering. CIMT er bindeled til Datatilsynet, som godkender evaluering og forskningsprojekter, og som også har retningslinjer for anonymitet (https://www.datatilsynet.dk/borger/forskningspro-jekter/).

I nogle typer af analyser vil det være nødvendigt for den person, som analyserer data, at vide, hvem der er hvem, fx i forbindelse med at koble en førmåling til en eftermåling, så man kan se, hvad kursisten Frank har svaret henholdsvis før og efter sin kursusdeltagelse. Her kan respondentens identitet knyttes til en kode, så datasæt kan sammenflettes uden kendskab til respondentens identitet. Evalua-toren, som har indblik i data, har pligt til at sikre, at andre personer, som ikke er del af evalueringsprojektet, ikke får adgang til data, herunder personfølsomme oplysninger, såsom en patients diagnoser.

For anonymiteten er det også vigtigt at sikre, at man har tilladelse til at indsamle data. Standardproceduren for at få godkendt indsamling af data sikres for Region Hovedstadens område gennem CIMT. Læs mere om anonymitet i Hansen & Andersen 2000.

ANOVAANOVA står for Analysis of Variance. ANOVA er en statistisk test, som udtrykker hvorvidt det er sandsynligt, at to eller flere stikprøver med en given middelværdi og med samme varians, kan komme fra samme population, på den betingelse at middelværdierne er normalfordelte. Der findes flere typer ANOVA-tests.

enig”, så angiver man ”*” eller ”-” i tabellen frem for at der står 2. Nedenfor i tabel 1 og 2 er illustreret et eksempel med en fordeling både i en ikke-anonymiseret og en K-anonymiseret udgave.

Page 9: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

9

Evalueringsbegreber og metoder

B

AppropriatenessSe implementering og disseminering

AuditmetodeAuditmetode er en kvalitativ metode, hvor retningslinjer for en praksis sammen-holdes med involverede parters vurdering af, hvorvidt retningslinjerne overhol-des. Vurderingen kan fx være baseret på karaktergivning efterfulgt af diskussion. I forhold til at retningslinjer sammenholdes med vurdering kan auditmetode minde om akkreditering, men adskiller sig fra akkreditering ved at vurderingen er intern, hvor akkreditering foregår eksternt.

BaggrundsvariabelI spørgeskemaundersøgelser indsamler man nogle gange oplysninger om bag-grundsforhold, fx alder, køn, uddannelse, fagområde, som ikke har direkte teore-tisk relevans i forhold til evalueringsemnet, men som giver indblik i baggrunds-oplysninger om, hvem de adspurgte er. Dette kaldes baggrundsvariable.

Bayesian Additive Regression Trees (BART)-modellerBART er en metode baseret på Markov chain Monte Carlo til at estimere hierarki-ske modeller, dvs. sandsynligheder eller effekter på overordnet og underordnede niveauer. BART er blevet foreslået som en estimator af kausale sammenhænge i situationer, hvor hverken randomiserede kontrollerede forsøg eller stærke kva-si-eksperimentelle metoder er mulige, blandt andet fordi tilgangen kan estimere hvor påvirkelig modellen er for ukendte confounders. Tests har vist, at tilgangen er en stærkere estimator end andre tilsvarende metoder (Chipman 2008; Hill 2011; Dorie et al 2015). Metoden er induktiv, dvs. at hver subgruppes estimat er afhængigt af de øvrige estimater.

Bayesiansk statistikMeget statistik er baseret på, at empiriske data anvendes til at be- eller afkræfte en hypotese, bayesiansk statistik er, modsat frekventistisk statistik, baseret på, at estimater er betinget af andre relaterede estimater og anvendes til machine learning., at analysen ikke ses løsrevet fra eksisterende viden inden for samme område. Frem for at be- eller afkræfte en hypotese som et enten-eller spørgsmål, beskæftiger man sig med bayesiansk statistik med graden af sandsynlighed for, at en hypotese holder stik, betinget af den eksisterende viden. Bayesiansk statistik betragtes derfor som en induktiv metode, hvor hypotesetestmetoden er deduktiv.

BaselineNår man anvender baseline-måling, også kaldet før-måling, så sikrer man, at der er det samme tidsforløb i målingen for alle deltagere. I evalueringer som indehol-der et forløb for en gruppe mennesker, har hver person sin egen baseline, dvs. et starttidspunkt for forløbet. Nedenfor er illustreret et eksempel, hvor fire kursister

Page 10: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

10

Evalueringsbegreber og metoder

deltager i et kursus samtidig. Eftersom de deltager i kurset samtidig, ligger base-line for hver kursist på samme tidspunkt. Generelt set betyder baseline-måling dog ikke, at alle individer får en bestemt indsats. Eksemplet nedenfor illustrerer baselinens betydning for evalueringen af en indsats.

Ofte kan man have et kursus, som ikke alle personer deltager i samtidig, fx et e-læringskursus. Hvis en deltager X afslutter sit kursus 1. august og deltager Y afslutter sit kursus 1. september, så tilpasses evalueringen, så begge deltagere evaluerer anvendeligheden af deres kursus med samme interval, fx 14 dage, efter deres kursusdeltagelse. Hvis man blot lagde et tværsnit og bad alle deltagere om at evaluere samtidig, selvom de havde deltaget på forskellige tidspunkter, så ville det potentielt kunne give store variationer i besvarelserne, og det ville blive usik-kert, hvad det egentlig var man målte. Modsat baseline-målinger er der kohor-te-målinger, hvor alle deltagere måles samtidig, uanset gennemførelses-tidspunkt. Ved kohorte-målinger gælder, ligesom ved baselinemåling, at der ikke nødven-digvis er tale om evaluering af en indsats. I figur 1 nedenfor er illustreret måling med fælles baseline og i figur 2 er illustreret måling med forskudt baseline.

Figur 1: illustration af fælles baseline

Førmåling, baseline Eftermåling

Kursist 1

Kursist 2

Kursist 3

Kursist 4

Kursus

Figur 2: illustration af forskudt baseline

Førmåling, baseline Eftermåling

Kursist 1

Kursist 2

Kursist 3

Kursist 4

Kursus

Kursus

Kursus

Kursus

Bearbejdning, analyse og fortolkning af data Evaluering af såvel kvalitative som kvantitative data, består af bearbejdning, analyse og fortolkning af data. Hvis man ikke allerede har data, så vil der forud for bearbejdning også foregå afgrænsning af population, design af indsamling (fx spørgeskema eller interviewguide) og indsamling sted. I udgangspunktet kræver enhver form for data bearbejdning, uanset om det er spørgeskemadata, register-data, telefoninterviews, fokusgruppeinterviews eller andet.

Page 11: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

11

Evalueringsbegreber og metoder

Når man arbejder med kvantitative data, fx spørgeskemadata, renser man dem typisk først, fx ved at rette fejl i datasættet. Tilsvarende vil man med interviews, som er en kvalitativ datatype, fx transkribere lydfilerne, dvs. skrive lydoptagelser-ne ud i tekst, så man nemmere kan arbejde med data og skabe overblik. For både kvalitative og kvantitative data omfatter klargøringen af data også anonymisering eller pseudonymisering, så en uindviet ikke umiddelbart kan se, hvem der har svaret hvad. Alt deette betragtes som bearbejdning af data.

Analyse og fortolkning af data sker efterfølgende, og kan i nogle sammenhænge betragtes som delvist overlappende fænomener. At analysere kvantitative data kan fx bestå i at udregne middelværdien for en variabel, såsom middelværdien for anciennitet for nogle medarbejdere.

Analysen af nogle kvalitative interviews kan tilsvarende fx handle om at finde ud af, hvilke temaer der bliver talt om i de givne interviews. Fortolkning vil for de kvantitative data fx bestå i at vurdere, om et resultat er signifikant, fx om en middelværdi er signifikant forskellig fra en anden middelværdi eller om det er sandsynligt, at den identificerede kausale effektmodel kan antages at gælde for den øvrige population og ikke kun stikprøven, der blev indsamlet data for. Tilsva-rende vil fortolkning af kvalitative data, såsom temaerne i en række interviews, fx bestå i at vurdere i en teoretisk kontekst, hvad der ligger i, at der bliver talt om netop disse temaer.

BenchmarkVed evaluering med benchmark skal der være mulighed for et sammenlignings-grundlag, fx målinger for forskellige steder, faggrupper eller klinikker.

Bias - systematiske og usystematiske fejlSe også validitet, reliabilitet og selektion

Enhver evaluering vil som udgangspunkt indeholde fejl. Spørgsmålet er blot omfanget og om fejlene er ”systematiske” eller ej. Man taler med andre ord om systematiske fejl og usystematiske fejl. Usystematiske fejl kaldes også støj. Syste-matisk bias er den kvantitative evaluators fjende nummer et. Systematisk bias er alt det, som skævvrider resultaterne, så evalueringen giver et forkert billede. Jo mere ukendt systematisk bias, jo mindre kan man stole på sine resultater. Kendt systematisk bias kan med visse analyser delvist fjernes.

Man kan fx i en tilfredshedsundersøgelse være klar over, at der ikke er så mange af de tilfredse kursister, som har besvaret tilfredshedsundersøgelsen, hvorved man har at gøre med en kendt systematisk bias. Her er man bekendt med, at til-fredshedsniveauet i målingen kommer til at se lavere ud, end det i virkeligheden er, fordi mange af de tilfredse kursister ikke har besvaret. Værre er det med den ukendte systematiske bias. Det kan fx være tilfældet, at man ikke er klar over, at de tilfredse kursister ikke har besvaret undersøgelsen. En af de vigtigste opgaver for en evaluator er derfor at begrænse den systematiske bias, og gøre sig bekendt med potentiel systematisk bias så vidt muligt. Man taler også om, at systematisk bias gør, at man enten overestimerer eller underestimerer sine resultater, hvis en måling indeholder systematisk bias.

Mindre farlig er til gengæld de usystematiske fejl, som også kaldes støj. Særligt ved store stikprøvestørrelser på fx 10.000 individer er betydningen af usystemati-ske fejl forholdsvis lille. Hvis vi tager udgangspunkt i en spørgeskemaundersøgel-se, hvor man ønsker at spørge nogle medarbejdere, om de har deltaget i et givent

Page 12: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

12

Evalueringsbegreber og metoder

kursus, så kunne det være tilfældet, at nogle respondenter måske bare får trykket forkert i spørgeskemaet. Dette kan give ”støj” i målingen, som kan give overesti-mering af varians, men som ikke danner grundlag for over- eller underestimering af middelværdien, hvis der er tilstrækkelig mange individer i evalueringen. Hvis man fx spørger 1000 personer ”Har du haft kursus i basal genoplivning?”: [Ja, Nej] og 50 personer ved en fejl svarer ja, hvor de skulle have svaret nej, og 50 andre personer ved en fejl svarer nej, hvor de skulle have svaret ja, så ville man betragte det som usystematisk bias på middelværdien, fordi fejlene ikke ændrer middel-værdien.

En af de mest klassiske kilder til systematisk bias i effektmåling er forskelle mellem test- og kontrolgruppe og forskelle i stikprøven ved før- og eftermålingen. Hvis kontrolgruppen ikke til forveksling ligner testgruppen, dvs. at de fx har en anden fordeling af køn, alder, uddannelsesniveau, anciennitet m.m., så kan det sandsynliggøres, at forskellen har betydning for den målte forskel mellem grupperne. Det er også almindeligt, at bortfald i en spørgeskemaundersøgelse kan bidrage med systematisk bias, da dem som svarer er systematisk forskellige fra dem, som ikke svarer.

Nogle af de mest almindelige årsager til bias i spørgeskemaundersøgelser:• Afgrænsning af stikprøve, som ikke repræsenterer populationen, også kaldet

selektionsbias• Manglende data på grund af fejl i opsætning af spørgeskema• Skævt bortfald, fx personer som nægter at svare eller manglende kontakt-

oplysninger• Uhensigtsmæssig spørgsmåls- og svarformulering også kaldet respons bias,

herunder fx recall bias, dvs. at respondent husker forkert• Fejlkodning af data forud for analyse• Fejltolkning af analyse.

Læs mere i Agresti & Finlay 2007, Angrist & Pischke 2009, Dougherty 2007 samt Hansen & Andersen 2000. Se også kritisk diskussion omkring evaluering og for-tolkning af evalueringsresultater i Dahler-Larsen 2013.

Big DataEn type af registerdata kaldes nogle gange ”Big Data”. Som navnet antyder, er der tale om data, som ofte fylder forholdsvis meget. Hvornår noget betragtes som Big Data findes der ikke en præcis afgrænsning af, men navnet anvendes typisk til at tale om data fra Facebook, smartphones m.m., hvor positions-data, ”likes” og me-get andet samles. Big Data kaldes også nogle gange ”kvalikvantitative” data, hvis de består af et udsagn i tekst, dvs. kvalitative data, kombineret med et tidsstem-pel, som er kvantitative data, altså et tidspunkt, hvor nogen fx har ytret noget på et socialt medie. Big Data kan have en skæv fordeling i forhold til befolkningspo-pulationen fx i forhold til aldersspredning, og har derfor begrænsninger i forhold til analyse.

BlindingNår man evaluerer praksis, som involverer mennesker, så kan de mennesker, som indgår i evalueringen, herunder både deltagere, evaluatorer, undervisere, ledere m.fl., være påvirket af, at der foregår en evaluering (se også placebo- og Hawthorne-effekt). For at undgå, at den målte effekt er andet end en effekt af indsatsen, forsøger man derfor at holde alle involverede på et need-to-know level. Hvis man ønsker at sammenligne to grupper, som gennemfører hver deres kursus, for at se, hvilket kursus der er bedst, så undlader man fx at fortælle deltagerne,

Page 13: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

13

Evalueringsbegreber og metoder

C

hvilket af disse kursus, man har mest tiltro til, så man undgår, at dette påvirker forsøget. Hvis det alene er deltagerne, som blindes, kaldes det enkelt-blindet forsøg. At blinde deltagerne kan være urealistisk, hvis indsatsen er undervisning, hvor det er urealistisk at deltageren ikke opdager, at vedkommende bliver udsat for undervisning, hvorimod dette er mere realistisk, hvis indsatsen er, at en forsøgsperson får en pille. Her er det svært for forsøgspersonen at vide, om pillen er placebo eller om den indeholder et aktivt stof. Man kan tilsvarende dobbelt-, trippel-blinde osv., alt efter hvor mange evaluerings-led, man involverer. Læs mere i Daston 2005.

BoundsUpper- og lower bounds har at gøre med maksimum og minimum for fordelinger. Der kan være et minimum og et maksimum for, hvor stor effekt det er rimeligt at forvente af en given indsats. Hvis udfaldet af et kursus i håndhygiejne er, at patienterne sjældnere bliver genindlagt pga. infektioner, så må man forvente, at mulighedsrummet for effekten har en lower bound. Der vil være en nedre grænse for, hvor meget antallet af genindlæggelser kan reduceres. Det vil fx ikke være rea-listisk, at en fordobling af længden af sygeplejerskernes EPM-modul (Elektronisk Patient Medicinering) også fører til en tilsvarende halvering af antallet af genind-læggelser. Hvis man bruger meget store ressource på at sende alle medarbejdere på håndhygiejnekursus, så vil man stadig opleve, at der foregår genindlæggelser. Det kaldes en lower-bound effekt, når man har identificeret, hvor meget man maksimalt kan opnå med en given indsats.

Case-studierSe også kvalitative metoder og analysetilgange

I case-studier interesserer man sig for det specifikke og det unikke, dvs. studier, som analyserer et enkelt individ, fx et enkelt hold kursister eller et enkelt uddan-nelsessted. I case-studier udvælger man ikke for at opnå repræsentativitet, men for at opnå viden om ”det særlige”. Er der enkelttilfælde, hvor noget er særligt interessant? Kan vi blive klogere i forhold til generel praksis af at kigge nærmere på disse særlige tilfælde? Dette kunne fx handle om at se på en case, hvor der er sket en utilsigtet hændelse med alvorlige konsekvenser. Her kan det måske bidrage med væsentlig viden at se på, hvad der skete i det særlige tilfælde, for at blive klogere på, hvorfor det gik galt. Case-studier er pga. fokus på det specifikke, ikke egnede til at vurdere udfald på det generelle, eller sagt på en anden måde, har case-studiet meget lav ekstern validitet. Se mere om case-studier i Ritchie et al 2014 og Jacobsen et al 2012. Se også use-cases nedenfor.

Centrale værdierDen mest almindelige centrale værdi er middelværdien, populært kaldet gen-nemsnit. Alternativt kan det nogle gange være relevant at beregne median eller modus. Medianen i en fordeling angiver den midterste værdi og modus er den hyppigst forekommende. For fordelingen med værdierne [0, 1, 2, 3, 8, 8, 100] er middelværdien ca. 17,42, medianen er 3 og modus er 8. Læs mere om centrale værdier på statnoter.dk.

Page 14: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

14

Evalueringsbegreber og metoder

CertificeringEn evaluering kan have det sigte at sikre, at medarbejdere opfylder kompetence- eller vidensmæssige kriterier. Hvis en persons gennemførelse af en tests fx har betydning for det arbejde personen må udføre, kaldes det certificering. Testen kan blandt andet bestå af spørgsmål, hvor en given andel skal besvares korrekt, for at bestå, eller testen kan være baseret på, at testpersonen skal udføre en opga-ve mens en observatør vurderer udførelsen.

Cherry pickingCherry picking handler om at udvælge evaluerings- eller forskningsresultater, som blot understøtter ens synspunkt og ignorerer evaluerings- eller forskningsre-sultater, som modsiger det.

ComplianceCompliance handler om at sikre, at deltagerne i et interventionsstudie følger de anvisninger, man har givet. Hvis man deler en målgruppe op i to dele, som efterfølgende bliver tildelt hver deres kursus, så handler compliance om, hvorvidt hver deltager følger tildelingen til det kursus, de henvises til. Når man deler per-soner op i grupper, som skal gøre noget forskelligt, fx at deltage i et af to kurser udbudt i Kursusportalen, så kan det kræve et stort arbejde at sikre, at de også deltager. Det kan både ske, at personer i en kontrolgruppe, som ikke skal gå på et kursus, ønsker at deltage i kurset, og at personer i testgruppen, som skal modtage kurset, ikke er motiverede til at deltage. Evaluatoren bør have stort fokus på den logistiske og informationsmæssige udfordring, som ligger i arbejdet med at sikre compliance. For RCT-studier bliver der nogle gange brugt store ressourcer på at sikre, at alle personer gennemfører det forløb, som man er blevet tildelt. Læs mere i Angrist & Pischke 2009.

Confounder(se også ukendt bias)

En confounder er en uobserveret variabel, som uønsket forstyrrer en målt kausal sammenhæng mellem to variable. Derfor ønsker man i en effektmåling at be-grænse påvirkningen fra confounders. Hvis randomiserede, kontrollerede forsøg udføres efter gængse standarder, er dette det mindst muligt sårbare undersøgel-sesdesign i forhold til confounders. Kvasieksperimentelle tilgange kan være mere sårbare over for confounders end randomiserede, kontrollerede forsøg.

Som eksempel på påvirkningen af en confounder kan man fx tage evalueringen af et kursus, hvor man ønsker at måle den affødte læring hos kursisterne. Her er den kausale sammenhæng påvirkningen mellem A som er et kursus for syge-plejersker og B som er læringen. Målingen af påvirkningen fra variablen A til variablen B kan forstyrres af en variabel evaluatoren ikke kender. Denne ukendte variabel, C, kan fx beskrive kursisternes erfaring på sygeplejeområdet. Nogle sygeplejersker har et højere læringsniveau fordi de i forvejen har meget erfaring på området og ikke kun fordi de har deltaget i kurset. C samvarierer altså med A og B, og kan derfor potentielt ”confounde” effekten af A på B.

Påvirkningen fra confounderen får effekten af kurset til at fremstå højere eller la-vere, end den reelt er, når erfaring udelades af analysen, så man altså risikerer at

Page 15: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

15

Evalueringsbegreber og metoder

fejlfortolke effekten af kurset. Dette er en central problematik ved effektmåling, og derfor er det vigtigt at fjerne eller minimere påvirkningen fra confounderen. Ved at tilføje en kontrolgruppe med samme niveau af læring som dem der delta-ger i kurset, kan det med rimelighed antages, at forskellen mellem de to grupper er udtryk for effekten af kurset. Dermed udelukkes den eksisterende erfaring som en confounder, C på effekten af et kursus, A, målt ved læring, B, fordi mængden af eksisterende erfaring er den samme i de to grupper. Påvirkningen af en con-founder er illustreret i figur 3 nedenfor.

Cost-effectiveness og cost-benefitCost-benefit analyser er, som navnet antyder, analyser af om en ressource kan betale sig i forhold til udfaldet. Cost-benefit beror derfor på at vurdere hvor stor en ressource er i forhold til gevinsten, nogle gange baseret på sammenligning mellem flere mulige tilgange. Man kan fx være interesseret i at vurdere, om det er den bedste investering at efteruddanne 20 personer med et langt kursus eller 50 personer med et kort kursus i forhold til den forbedring det vil give for behandlingen af patienter. Ved økonomiske udfald kaldes studierne cost-benefit og ved andre udfald, fx patient-udfald, såsom patientens trivsel, genindlæggelser, komplikationer m.m. kaldes det cost-effectiveness (Bleichrodt & Quiggin 1999).

C A B

Figur 3: Påvirkningen af en confounder

Page 16: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

16

Evalueringsbegreber og metoder

D

Cut-offCut-off er en kritisk værdi, som fastsættes pa baggrund af empirisk analyse. Den kritiske værdi skelner fx personer som har bestået en uddannelse fra personer som ikke er bestået, baseret på en læringstest. Inden for psykiatri anvendes det fx også til at vurdere, om en patient skal tildeles en diagnose eller ej. Et spørge-skema kan fx anvendes til at estimere læring. Her kan der være en interesse for at anvende resultater af besvarelsen i et spørgeskema til at vurdere, hvilke med-arbejdere, der har brug for videre kompetenceudvikling, og hvem der ikke har. I figur 4 nedenfor er cut-off (den lodrette stiplede linje) determineret på baggrund af beregning af, hvor kurven er mest stejl ved en akkumuleret tæthedsfunktion, eller sagt mere simpelt: der hvor linjen er mest stejl. Punktet kan også, som det er illustreret i model 3, findes ved at tage den ordinære tæthedsfunktion, baseret på toppunktet i en normalfordeling eller med andre metoder og fordelinger.

Data miningData mining er en eksplorativ analysemetode, hvor man først forsøger at finde mønstre i data og derefter forklare, hvorfor der er disse forhold. Metoden er kri-tiseret for sin efterrationaliserende karakter, hvor de sammenhænge man finder, kan være spuriøse, dvs. at man finder sammenhænge som er tilfældige. Derfor risikerer man fejlbehæftede konklusioner ved data mining. Inden for kvantitativ analyse vil man almindeligvis, i stedet for data mining, anvende hypoteser, som opstilles forud for analysen, så analysen bliver en test af, hvorvidt hypotesen kan verificeres eller falsificeres.

DatatyperInden for evaluering findes der forskellige typer af data, som kan være hensigts-mæssige at inddrage i evaluering. Blandt andet skelner man mellem kvantitative og kvalitative data. Inden for kvantitative data skelnes der typisk mellem spørge-

Antal Personer Cut-off

Akkumulerede point i test

Point i test

Antal Personer Cut-off

Figur 4: ILLUSTRATION AF CUT OFF

Page 17: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

17

Evalueringsbegreber og metoder

skemadata og registerdata. Inden for kvalitative data skelner man fx mellem felt-noter og transskriberede udsagn fra interviews. Senest er man begyndt at tale om ”Big Data”, som nogle gange kaldes ”kvali-kvantitative” data, fordi de har karakter af en blanding mellem kvalitative og kvantitative data med et tidsstempel og et kvalitativt udsagn. Forskellige typer af data har forskellige analytiske fordele og ulemper, fx i omfang, validitet og nuancering. Fordelen ved kvantitative data ligger mest i omfang, mens fordelen ved kvalitative data ligger i nuancering. Den type data man indsamler, bør afhænge af hvad man ønsker at opnå viden om, da datatypen har stor betydning for, hvad man meningsfuldt kan konkludere.

Deduktiv og induktiv metodeDeduktiv metode er baseret på at bevæge sig fra det generelle til det specifikke, hvor induktiv metode baserer sig på at bevæge sig fra det specifikke til det gene-relle. Deduktiv metode associeres typisk med kvantitative tilgange, hvor indukti-on typisk associeres med kvalitative tilgange. Et eksempel på deduktion kan være, at man tester en hypotese, som udtrykker en teori, dvs. noget der udtrykker ”det generelle” og søger at lade empirien, dvs. ”det specifikke”, be- eller afkræfte, om teorien holder stik. Et eksempel kan fx være hvorvidt den generelt formulerede hypotese ”Ved at ansætte flere specialiserede læger mindskes antallet af genind-læggelser” kan be- eller afkræftes, når den testes ved at ansætte flere specialise-rede læger på en given klinik. Med induktion bruger man omvendt empirien, dvs. det specifikke, til at opstille teorier, dvs. at man fx kan nå frem til, at man ad induktiv vej kan nå frem til, at det er generaliserbar regel, at ansættelse af flere specialiserede læger kan mindske antallet af genindlæggelser. På den måde kan man sige, at der i opbygningen af viden eksisterer en kontinuert vekselvirkning mellem induktive og deduktive tilgange.

Delphi-metodeDelphi er en metode beregnet til at afdække fx trends, tendenser og mulige fremtidsscenarier, så metoden kan fx anvendes til at anlægge politiske strategier. Metoden egner sig derfor til at nå frem til, hvad en uddannelses indhold bør være i fremtiden. Delphi-metode kan også anvendes til at anskueliggøre, hvordan eks-perter mener, at fremtiden kommer til at se ud, men metoden afviger betydeligt fra økonomiske modeller, hvor man foretager fremskrivninger af strukturelle tendenser for at vurdere balance mellem arbejdsressource og arbejdspladser nogle år frem.

Metoden går ud på at man udvælger nogle personer, som forventes at have en sær-lig ekspertise inden for emnet. Ofte vægter man højt, at det er personer, som man vurderer har et åbent sind, og at de har tid til at deltage i fortløbende målinger. Det vigtigste kriterie er dog, at deltagerne har en stærk ekspertise indenfor det emne, de skal behandle. Deltagerne bidrager i første omgang med deres bud på trends ved at udfylde et spørgeskema med åbne spørgsmål. Deltagerne besvarer herefter et nyt spørgeskema med lukkede spørgsmål, hvor de skal rangordne eller rate disse oplistede trends uden at vide, hvilke af de øvrige deltagere, der har på-peget disse trends. Efter anden runde har man fået information om, hvor mange af eksperterne, der bakker op om hver trend. I den tredje runde skal deltagerne vurdere disse trends igen, men denne gang er der angivet i spørgeskemaet, hvor stor opbakning der er til hver trend. Respondenten kan i tredje runde godt fast-holde sin vurdering af trends i modstrid med øvrige deltageres vurdering, men skal i så fald begrunde hvorfor i spørgeskemaet. Metoden er oprindeligt kvantita-tiv, men findes i flere varianter, herunder også kvalitative (Hsu & Sandford 2007; Brady 2015).

Page 18: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

18

Evalueringsbegreber og metoder

DeltagerobservationSe Feltobservation.

Desk researchSe også metastudier

Desk research, også kaldet sekundær research, tekstanalyse eller litteraturstudie, er kvalitativ analyse af tekstmateriale, som er umiddelbart tilgængeligt, i modsæt-ning til evalueringstilgange hvor man udtrækker, indsamler og konstruerer data, som kaldes primær research. Typisk vil man anvende artikeldatabaser og søgema-skiner, når man foretager desk research. Desk research kan i forhold til uddan-nelsesevaluering fx være at gennemgå Undervisningsministeriets beskrivelse af sygeplejerskeuddannelsens studieordning over en årrække for at se på tematiske ændringer. Forud for at evaluere en uddannelsespraksis kan det fx være hensigts-mæssigt at undersøge hvad uddannelsens hensigt er, da praksis kan afvige fra hensigten. Her kan desk research være en relevant tilgang. Desk research kræver forholdsvis få ressourcer (Dobney 2016).

Deskriptiv versus inferentiel statistikI evalueringsterminologi skelner man mellem deskriptive tilgange og inferen-tielle tilgange. Dette handler om, hvorvidt de indsamlede data gør det muligt at tegne et øjebliksbillede (deskriptiv tilgang) eller om data giver mulighed for at be-skrive dynamikker (inferentiel tilgang). Dynamikker gør det muligt at identificere effekter, dvs. kausalforhold, eller sagt på en anden måde, ”om faktor A påvirker faktor B”, såsom hvorvidt et kursus påvirker læringen. En deskriptiv evaluering kan fx bero på at konstatere, at niveauet af viden for en gruppe sygeplejersker er X, hvor en inferentiel evaluering kan bero på at konstatere, at kurset Y påvirker læringen Z. Læs mere om deskriptiv og inferentiel statistik i Agresti & Finlay 1997, Dougherty 2007 og Angrist & Pischke 2009.

DidaktikDidaktik er et begreb, som dækker over undervisningens mål og indhold, her-under undervisningsmetodik, dvs. at didaktik beskæftiger sig med tænkningen omkring hvilke metoder, der effektivt kan skabe læring hos fx studerende og kursister (nedenfor kaldet ”den lærende”). Didaktik kan derfor være et centralt element at beskæftige sig med på lige fod med undervisningens faglige indhold, såfremt man ønsker at evaluere på sandsynligheden for, at undervisning har skabt læring.

Adskillige forskere har beskæftiget sig med, hvilke undervisningsmetoder, der er effektive, og blandt andet har den newzealandske uddannelsesforsker John Hattie samlet 900 metaanalyser i et omfattende metastudie baseret på 245 millioner observationer primært på folkeskoleniveau for at se på, hvad der er de mest effektive undervisningsmetoder (Hattie 2010). Nedenfor er angivet nogle af de mest effektive metodikker, som er relevante i forbindelse med undervisning for unge og voksne:

• Den lærende skal forud for undervisningen angive, hvilken karakter vedkom-mende forventer at få, og underviseren skal efterfølgende drøfte med den lærende, hvad der skal til for at opnå en højere karakter.

Page 19: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

19

Evalueringsbegreber og metoder

• Underviseren skal fremstå troværdig som en kompetent underviser. • Underviseren bør anvende formativ evaluering, dvs. evaluering med det

formål at styrke den lærendes udvikling, blandt andet gennem feedback un-dervejs i læringen omkring hvad hver enkelt kan gøre for at skærpe sin læring, at den lærende tillader sig selv at prøve sig frem og fejle og ved at underviseren stiller spørgsmål som skaber refleksion hos den lærende. Formativ evaluering kan ses som modsætning til summativ evaluering, som har til formål at samle op på den lærendes viden fx ved en standpunktskarakter.

• Undervisning bør tilrettelægges som mikro-undervisning, dvs. undervisning via mini-lektioner på små hold med drøftelser af indholdet efter hver lektion.

• Underviseren bør facilitere diskussioner i undervisningslokalet.• Underviseren bør tydeligt formulere undervisningens formål og succeskriterier. • Underviseren bør give de lærende feedback orienteret omkring opgaven, pro-

cessen og hvordan den lærende indgår i læringsmiljøet, ikke feedback omkring den lærendes personlige karakteristika.

Difference-in-differences Difference-in-differences design er baseret på, at forskellen i progression mellem test- og kontrolgruppe er udtryk for effekten (Angrist & Pischke 2008; Card & Krueger 1994). I figur 5 nedenfor er illustreret en lilla og en grå linje, som udtryk-ker udviklingen fra før en intervention til efter interventionen. Den lilla linje udtrykker udviklingen for en testgruppe, og den grå linje udtrykker udviklingen for kontrolgruppen. Differencen ved førmålingen illustrerer, at de to grupper ikke havde samme testværdi forud for interventionen, som de almindeligvis ville have haft, hvis der var tale om et randomiseret kontrolleret forsøg, og det er et problem, fordi effektmåling hviler på en antagelse om, at kontrolgruppen ligner testgruppen, så kontrolgruppen kan antages at estimere en kontrafaktisk tilstand, dvs. at den estimerer, hvad der var sket for testgruppen, hvis de ikke havde fået interventionen. Difference-in-difference er baseret på, at man fraregner diffe-rencen fra førmålingen, når man estimerer effekten baseret på eftermålingen. Selvom dette effekt-estimat står stærkere end simpel måling af differencen, så er det dog stadig en svaghed ved designet, at det ikke nødvendigvis er tilstrækkeligt at fraregne dem målte difference før interventionen1 .

Pre -intervention difference

Tid

Effekt

T 1 T 2

Outcome

Figur 5: Difference-in-difference

1 Difference-in-difference kan også være en metode med begrænset værdi for estimering af effekter af kurser, hvis man måler viden om et emne med en test. Hvis en kursist skal udfylde den samme test før og efter et kursus, så vil selve testen nemt kunne påvirke forståelsen for læringsemnet, simpelthen ved at læ-ringstesten ikke bare måler et læringsniveau, men også giver kursisten noget læring i sig selv, i supplement til den læring man opnår fra selve kurset.

Page 20: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

20

Evalueringsbegreber og metoder

E

DiffusionSe implementering og disseminering

DiskursanalyseSe kvalitative metoder og analysetilgange

DosisFor nogle typer af indsatser kan det give mening at tale om dosis. Hvis en uddan-nelse fx består af et antal træningstimer med kirurgisk operation på en opera-tionsdukke, så kan man meningsfuldt tale om, at en fordobling af antallet af træningstimer er en fordobling af dosis. Her kan et evalueringsperspektiv være at se på, om fordobling af dosis også fører til øget kompetence for kursisterne. Læs mere i Fixsen 2005.

EffectivenessI en effectiveness-evaluering er det ikke tilstrækkeligt, at der er en målbar effekt af indsatsen. Ved effectiveness-evaluering skal effekten være over en vis størrelse. Dette kan fx bero på et politisk ønske om at nedbringe antallet af genindlæggel-ser, dødsfald eller andet med en vis andel. Ved effectiveness-evaluering er det almindeligt at ressourcen til indsatsen er stor, fx i form af dygtige undervisere og stor tidsressource, fordi forventningerne til udfaldet er tilsvarende store. Læs mere i Gartlehner et al 2006.

Effekter på individ- og gruppe-niveauSom udgangspunkt vil man inden for evalueringsverdenen ikke beskæftige sig med at måle effekter på individ-niveau. Uanset hvor meget man gør ud af at sikre et stærkt design, så er måling af effekter på individ-niveau forbundet med alt for stor usikkerhed, og usikkerhed på mange niveauer. Såfremt man har målinger med standardiserede, validerede instrumenter, som er meget præcise, kan man godt med rimelighed antage, at man har målt, om en sygeplejerske er blevet dygtigere til at flytte en patient fra et sengeleje, lægge venflon eller andet fra måling nr. 1 før et kursus til måling nr. 2 efter et kursus. Det er blot ikke muligt at vurdere, om forandringen alene skyldes det kursus, som sygeplejersken har del-taget i. Generelt har mennesker en naturlig progression i deres læring i løbet af et liv, på grund af de generelle erfaringer man gør sig, dvs. vi har tendens til at lære og forandre os, uanset de aktiviteter, herunder kurser og uddannelser, vi deltager i, og derfor er det ikke muligt på individ-niveau at isolere hvad der har forårsaget effekten. Læs mere i Agresti & Finlay 1997 og Malchow-Møller & Würtz 2003.

Page 21: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

21

Evalueringsbegreber og metoder

Effektmåling(se bl.a. også evidenshierarki, kausalitet og randomiseret kontrolleret forsøg)

Som navnet antyder handler effektmåling om at måle effekten af ”noget”, og hvis det man ønsker at måle effekten af, er et kursus, så kan det stilles op som i mo-dellen nedenfor, baseret på et randomiseret kontrolleret forsøg. Figuren nedenfor skal illustrere, at vidensniveauet om et emne er blevet målt for to ens grupper, hvorefter den ene gruppe gennemfører et kursus (testgruppe, lilla linje), og den anden gruppe ikke gennemfører et kursus (kontrolgruppe, grøn linje). Kassen illu-strerer kurset, som kun testgruppen deltager i. Efter kurset måles vidensniveauet for begge grupper igen, og differencen af viden mellem de to grupper målt efter kurset antages at være udtryk for kursets effekt. I et randomiseret kontrolleret forsøg antages som udgangspunkt, at test- og kontrolgruppe ikke er signifikant forskellige forud for det, man måler effekten af, fx målt på fordeling af alder og køn og forhold som forventes at have betydning for effektmålingen. Men nogle gange inddrager man alligevel førmåling, i stedet for blot at antage lighed, for at sikre kendskab til, om der er forskelle mellem grupperne. Den grundlæggende antagelse er, at hvis der ikke er nogen andre forskelle mellem de to grupper, end at den ene gruppe har deltaget i et kursus, så bør den målte difference udtrykke effekten af kurset. Modellen illustrerer også, at såfremt man havde gennemført målingen uden en kontrolgruppe, så ved man ikke hvilken udvikling kursisterne ville have opnået uden deltagelse i kurset. Dette er væsentligt fordi der kan være andet end kurset, som har betydning for deltagernes udvikling af viden.

EfficacyEfficacy handler om at estimere en effekt i forhold til det i forvejen eksisterende. I et efficacy-studie sammenligner man en ny tilgang med en tidligere tilgang. Fx kan man se på en ny uddannelsestype og undersøge, om den øger vidensniveauet blandt deltagerne, sammenlignet med den tidligere uddannelsestype. Man kan gennemføre efficacy evaluering ved en ny undervisningstilgang, hvor man ind-drager e-læring som en del af undervisningen, og så vil kontrolgruppen modtage ”treatment as usual”, dvs. den gamle undervisningstilgang. Sammenlignet med en cost-benefit/cost-effectiveness analyse ignoreres omkostningssiden. Læs mere i Gartlehner et al 2006.

Endogenitet og eksogenitetEndogenitet og eksogenitet handler om, hvorvidt en variabel kan forklares af en anden variabel eller ej. Hvis en variabel kan forklares af en anden variabel, kaldes

Måling før kursus Måling efter kursus

Målt difference

Tid

Viden Kursus

Figur 6: Måling før og efter kursusaktivitet

Page 22: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

22

Evalueringsbegreber og metoder

den endogen, og hvis den ikke kan forklares af andet, kaldes den eksogen. Stort set alt hvad man kan finde at måle på i den sociale verden, vil som udgangspunkt være en endogen variabel, dvs. at stort set alt i en eller anden grad kan forklares af noget andet. Uddannelsesniveau kan fx forklares blandt andet med social arv, hvor der blandt ufaglærte fx hyppigere er tale om, at personens forældre er ufaglærte, end tilfældet er blandt personer med akademisk uddannelse. Hund-redevis af andre forhold har også betydning for et givent menneskes uddannel-sesniveau, men hvor nogle af disse er ikke nødvendigvis direkte observerbare. En treatment-variabel, dvs. en variabel der bruges til at dele en gruppe tilfældigt op i test- og kontrolgruppe, er eksogen.

Når man gennemfører effektmåling med eksperimentel tilgang, har man brug for en eksogen variabel, dvs. en variabel, som ikke kan forklares af noget andet. Tag fx en opdeling af en gruppe mennesker på 100 personer i to lige store grupper, dvs. gruppe 1 = 50 personer og gruppe 2 = 50 personer. Hvis opdelingen er sket efter tilfældighedsprincip, dvs. at man har valgt fuldstændig vilkårligt, hvilken gruppe hver person skulle indgå i, fx ved at slå plat og krone for hver deltager, så er der ikke nogen variable, hverken uddannelse, alder, vægt, trivselsniveau, anciennitet eller noget andet, som kan forklare den enkelte persons placering. Dermed er variablen, som beskriver tildelingen, eksogen, forudsat at mønten altså har lige store chancer for at lande på henholdsvis plat og krone.

Eksogenitet i en treatment-variabel, dvs. en variabel, som definerer hvem der skal indgå i henholdsvis test- og kontrolgruppe, er et forsøg på at sikre, at man måler effekten af treatment og ikke alt muligt andet. Det er eksogeniteten, som er den teoretiske forsikring af, at de to grupper kan antages at være ens, og at effekten derfor kan måles som en forskel mellem grupperne efter treatment. Eksogenitet i en treatmentvariabel antages at være den primære sikkerhed for at måle en sand kausal effekt. Læs mere i Agresti & Finlay 2007, Dougherty 2007 og Angrist & Pischke 2009.

EkspertinterviewsEkspertinterview er en metode anvendt inden for kvalitativ interviewmetode. Tilgangen anvendes til interviews med personer, som forventes at have en særlig ekspertise inden for det tema, interviewet omhandler, og hvor personen kan re-degøre nøgternt for emnet. Ved ekspertinterviews skal man være opmærksom på, at ekspertise ikke er det samme som fuldstændig objektivitet og komplet indblik i et emne.

Kvalitative interviews tager ofte udgangspunkt i det personlige perspektiv. Hvis man ønsker at gennemføre kvalitative interviews med klinikere i en sundheds-faglig kontekst, skal man være opmærksom på, at interviewet kan fordre udsagn, som tager udgangspunkt i en ekspertise eller faglighed, frem for informantens personlige perspektiv, man forsøger at nå frem til.

Epidemiologisk metodeInden for klinisk forskning bruger man kvasieksperimentelle tilgange til at afdække kausalforhold mellem sundhedsforhold, fx rygnings betydning for hyppighed af cancer. Inden for sundhedsvidenskab omtales kvasieksperimentelle deskriptive metoder ofte som epidemiologisk metoder, og som modsætning til interventionistisk metode, såsom randomiserede kontrollerede forsøg.

Page 23: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

23

Evalueringsbegreber og metoder

Epistemologi og ontologiDet epistemologiske betyder læren om erkendelse og ontologi betyder læren om det værende. Disse filosofier udgør to væsensforskellige strømninger, idet episte-mologien er centreret omkring indsamling af viden om menneskers oplevelser, betragtninger, det subjektive, hvor ontologien tager udgangspunkt i den fysiske verden. Den epistemologiske kritik af ontologiske tilgange går ud på, at vi ikke kan vide, hvordan verden egentlig er, og derfor må begrænse os til at fortolke. Tilsvarende går den ontologiske kritik af epistemologien på, at fortolkende til-gange er relativistiske, dvs. ikke en eksakt videnskab. Andre videnskabsteoretiske positioner tager udgangspunkt i, at videnskabsproduktion er en mellemting eller en vekselvirkning mellem disse filosofier.

EstimatInden for statistik er et estimat en beregning af en værdi, som er ukendt. Fordi man sjældent har adgang til den fulde population, fx ”alle sygeplejersker i Region Hovedstaden”, vil man ofte beregne et estimat på baggrund af en stikprøve. Selv hvis man har sendt et spørgeskema ud til alle, fx ”alle som har deltaget i kursus i håndhygiejne”, så må man forvente et bortfald. Evaluering vil ofte være baseret på estimater, fx en estimeret andel, fordi man ikke har den sande andel. Man kan fx være interesseret i at vide, hvor mange sygeplejersker på en årgang, der vælger at tage en forskningsuddannelse, men hvis man ikke har data på alle sygeplejer-sker, er det ikke muligt at kende den sande andel. Her kan man basere et estimat på de personer, man har data for. Et estimat kan være behæftet med stor eller lille usikkerhed. Ved stor usikkerhed kan man eventuelt angive estimatet med et konfidensinterval, dvs. en margin.

EvalueringEn udbredt, nutidig definition af evaluering findes hos Evert Vedung (1991): ”en systematisk retrospektiv vurdering af processer, præstationer og effekter, som tiltænkes at spille en rolle i praktiske handlingssituationer”. Definitionen er en opsamling på flere bølger inden for evalueringsparadigmet, og bruges af evalueringsforskere, såsom Peter Dahler-Larsen og Hanne Kathrine Krogstrup. Andre danske forskere har fx defineret det som en ”... systematisk indsamling af informationer og data, der giver grundlag for at skabe viden om gennemførelse, organisering og virkninger af konkrete indsatser, der er sat i værk for at påvirke forhold i samfundet. Evalueringer gennemføres med henblik på praktisk anven-delse, hvilket kan ske gennem formidling af resultater undervejs eller efter at eva-lueringen er gennemført” (Olsen & Rieper 2004). Definitionen fra Olsen & Rieper minder meget om Vedungs definition, men anlægger et mere instrumentalistisk sigte, dvs. at evalueringen ikke kun har det formål at gøre evaluatoren og andre klogere, men har også til formål at blive brugt til at afklare relevansen af eventuel efterfølgende forandring af praksis.

Selvom der ikke eksisterer en fuldstændig konsensus om definitionen, tager definitioner typisk udgangspunkt i, at der er tale om systematiske, empiriske analyser med henblik på kvalitetssikring. Kvalitetssikringsperspektivet adskiller dermed evaluering fra forskning, som typisk ikke sigter efter at forskningsresul-tater bliver anvendt på en bestemt måde. Evalueringsmetoder svarer til forsk-ningsmetoder, men hvor forskning er omfattet af krav om forskeruddannelse og publicering via forskningsinstitutioner og videnskabelige tidsskrifter, er dette ikke tilsvarende et krav for evaluering.

Page 24: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

24

Evalueringsbegreber og metoder

Evaluering kan også have et akkrediteringssigte, hvor evalueringen har til hensigt at besvare, om en praksis lever op til fastsatte kriterier. Evaluering sigter typisk efter øget viden lokalt, dvs. at viden om praksis i en klinik ofte produceres med henblik på anvendelse af ansatte i klinikken eller tæt på klinikken.

En evaluering er som udgangspunkt et afgrænset projekt, som ofte starter med et opdrag fra en opdragsgiver efterfulgt af en projektbeskrivelse fra den part, som udfører evalueringen. I projektbeskrivelsen angives fx typisk formål, metode, tidsplan og ressourcer. Efterfølgende påbegyndes dataindsamling, hvorefter man klargør data til analyse og gennemfører en analyse. Slutproduktet vil typisk være en rapport, som fx kan indeholde en indledning, metodeafsnit, analyse, konklusi-on og nogle gange anbefalinger.

EvalueringscirkelPraksis er en kontinuerlig størrelse, og ideelt set er sundhedssektorens og enhver anden praksis i kontinuerlig forbedring. Derfor kan man tænke evaluering og praksis som elementer, der indgår i en vekselvirkning. Når man har evalueret praksis, kan det potentielt føre til fornyet indsigt, som foranlediger forandringer af praksis, hvorefter man vil opstille nye mål for fremtidig praksis2. Evalueringen af et kursus kan fx føre til at det pågældende kursus fremtidigt gennemføres i en til-rettet formx. Denne kontinuitet kan illustreres via nedenstående evalueringscirkel:

PRAKTISERE

FORANDREMÅLSÆTTE

PRAKTISERE EVALUERE

FORANDRE MÅLSÆTTE

Figur 7: Evalueringscirkel

EvalueringsniveauerInden for evaluering kan man tale om forskellige analytiske niveauer. Typisk skel-ner man mellem mikro-, meso- og makroniveau. Mikro-niveauet er evalueringens mindste enhed, som typisk vil være det samme som person-niveau eller indi-vid-niveau. Meso-niveau kan fx være enhed eller afdeling, og makroniveau kan fx være hospital eller region. På individ-niveau vil alder være den enkelte persons alder, og på meso- og makro-niveau kan alder være det aggregerede niveau, dvs. gennemsnitsalderen for personerne i en enhed, afdeling, hospital eller region. Meso- og makroniveau bliver også ofte betegnet som ”strukturelle niveauer”, eller man kan sige, at mikro/makro-forholdet er en adskillelse mellem ”det specifikke” og ”det generelle”.

Hvis analysens fokus fx er sygeplejersker, dvs. en gruppe mennesker, så vil mi-kro-niveauet være den enkelte sygeplejerske og makro-niveauet være sygeplejer-

2 Kendes også som Plan, Do, Study, Act, PDSA (Deming 1986)

Page 25: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

25

Evalueringsbegreber og metoder

skerne samlet set. Dog kan analyse-enheden også være fx en samarbejdsrelation eller enheder i sundhedssektoren frem for mennesker. Hvis analyse-enheden er en samarbejdsrelation, så ville meso- og makroniveau betegne de samlede samarbejdsrelationer. Mikro-niveau betegner således den mindste enhed for evalueringens fokus. Niveauerne kan bruges til at illustrere, at man kan være in-teresseret i, både hvad der sker på mikro-, meso- og makroniveau. Typisk vil man være mest interesseret i at drage konklusioner på meso- eller makroniveau, hvor man har brug for at samle oplysninger for mange individer på mikroniveau for at muliggøre dette. Niveauerne kan også bruges til at illustrere, at der foregår andre mekanismer på mikro-niveau end på meso- og makro- niveau.

For en kursusdeltagelse vil der på mikroniveau være personlige forhold, der spiller ind på læringen, fx den personlige oplevelse, trivsel, humør og eksiste-rende viden. Meso-niveauet kan så betegne, hvad der sker på enhedsniveau, fx ressourcer, kultur, arbejdspres, og makroniveauet kan illustrere, at der også på hospitals- eller regionsniveau er forhold, som har betydning for læringen, fx over-ordnede politiske retningslinjer og ressourcer. Niveauerne kan dermed illustrere, at læringen afhænger af forhold på forskellige niveauer. Kvalitative analyser har ofte analytisk fokus på mikro- og mesoniveau, hvor kvantitative analyser typisk har analytisk fokus på meso- og makroniveau. Læs mere i Andersen & Kaspersen 2004 og Hansen & Andersen 2000.

Page 26: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

26

Evalueringsbegreber og metoder

EvidenshierarkiEvidenshierarkiet bruges ofte som begreb for, hvilke typer af evalueringsdesigns, der bedst er i stand til at identificere effekter. Evidenshierarkiet (se tabel 3) er ikke et generelt hierarki for alle typer evaluering. Såfremt det ikke er effektmå-ling, man beskæftiger sig med, så vil evidenshierarkiet være misvisende, dvs. at man i andre sammenhænge ikke kan antage, at systematisk review eller rando-miseret kontrolleret forsøg vil være den bedste tilgang (Evans 2002). Tabel 4 for-klarer, hvorfor evidenshierarkiet har denne rækkefølge. Systematiske reviews har både 1) høj ekstern validitet, 2) kan være baseret på randomisering, 3) egner sig til isolering af kausal effekt og 4) kan være baseret på sammenligning før og efter indsats for både test og kontrolgruppe. Det randomiserede, kontrollerede forsøg har høj intern validitet, men kan have begrænset ekstern validitet, hvis totalpo-pulationen er markant større end den gruppe, som er udtrukket til forsøget.

Tabel 3: Evidenshierarki

Design Forklaring

1 Systematisk review

Et systematisk review er en samlet analyse af flere studier inden for et emne, dvs en type metaunder- søgelse. Hvis der fx eksisterer adskillige effektmålin-ger af samme type uddannelse, kan disse samles i et systematisk review, hvor man statistisk vurderer effekten på tværs af forskningen.

2Randomiseret,kontrolleret forsøg

Et randomiseret kontrolleret forsøg betragtes ofte som effektmålingens ”gold standard”, dvs. den optimale metode

3 Kvasi-eksperimenter

Kvasi-eksperimenter er evalueringsdesigns, hvor man ikke kan antage tilfældig tildeling som i det rando- miserede forsøg, men hvor man forsøger at tage højde for selektion med statistiske værktøjer. Der eksisterer et bredt udvalg af designs inden for det kvasi- eksperimentelle, bl.a. instrument-metode, tvillinge- studier og naturlige eksperimenter.

4 Deskriptive studierDeskriptive studier tegner et øjebliksbillede, hvor pkt. 1, 2 og 3 er inferentiel statistik, dvs. hvor man ser på dynamikker mellem faktorer.

5 Case-studierCase-studier fokuserer på det unikke tilfælde, hvor man ikke drager sammenligninger.

Tabel 4: Evalueringstypers kendetegn

Høj eksternvaliditet

Randomisering Statistiskisolering afeffekt

Sm.ligningpre-posttest-kontrol

Review X X* X X

Rct X X X

Kvasi-eksp. X X

Deskriptivt X**

Case

* Reviews er sjældent alene samlinger af randomiserede, kontrollerede forsøg (RCT), men i stedet sam-linger af RCT og kvasi-eksperimenter, hvorved man kan diskutere, om de generelt bør rangere højere i evidenshierarkiet end RCT.

** Deskriptive studier indeholder ofte ikke sammenligning mellem pre- og postmåling samt testog kon-trol, selvom de kan gøre det. Hvis man har brugt ressourcer på pre- og postmåling, og opdeling i test- og kontrol, vil man typisk også bruge ressourcer på statistiske modeller, hvor man tager højde for selektion. Læs mere om evidenshierarkiet i Evans 2002 og Jacobsen et al 2012.

Page 27: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

27

Evalueringsbegreber og metoder

F Factorial designEt factorial design består af flere randomiserede forsøg med flere indsatser i for-skellige doser, så man har mulighed for at se, om større dosis giver større effekt, fx om et kursus på to uger giver dobbelt så stor effekt som et kursus på en uge. Læs mere i Penn State Methodology Center (2016).

FaktoranalyseFaktoranalyse anvendes til at identificere eller bekræfte en ”latent faktor”, dvs. et teoretisk fænomen, som ikke kan måles direkte. Faktoranalyse er centralt for udvikling af standardiserede spørgeskemaer til at måle læring, fx sygeplejerskers læring i smertevurdering eller eksistensen af psykiatriske diagnoser. Her forekom-mer det rimeligt at antage, at ”læring” er noget man kan have i større eller mindre grad, men at det samtidig er noget, som ikke kan måles direkte.

Til sammenligning kan en persons vægt i kg måles forholdsvis nemt, hvis man har en vægt. En person kan fx veje 80 kg, og hvis personen stiller sig op på vægten, vil vægten vise 80 kg, såfremt den er præcis. Tilsvarende forholder det sig ikke med læring. Vi kan fornemme, at læring eksisterer, men den har ikke en direkte målbar værdi på en skala. Vi kan ikke direkte måle, at en person med lav læring fx har ”niveau 20” og en person med høj læring har ”niveau 80”. Det man i stedet kan gøre, er at måle på de mange forhold, som man antager faktoren består af. Viden om smertevurdering kan bestå af en lang række forhold, fx at vide hvilke typer smertebehandling der gives til hvilke typer patienter; om analgetika kan anvendes til patienter med tidligere stofmisbrug; hvorvidt og hvordan forældres observation kan indgå i vurdering af børns smerter; at man har kendskab til, hvor lang tid der går fra at morfin gives med drop, til den maksimale effekt opnås og en lang række andre forhold (KASRP 2012). Her kan faktoranalyse anvendes til at identificere en underliggende faktor, når denne latente faktor består af en lang række konkrete, målbare aspekter.

Hvis man ønsker at udvikle et spørgeskema, som kan bruges til at teste en given viden om et emne, så vil faktoranalyse ofte indgå som en del af processen. Læs mere om faktoranalyse i DeCoster 1998.

FalsifikationFalsifikation blev opstillet af Karl Popper (1959) som et krav til hypoteser og empiriske tests. Som eksempel kan tages følgende hypotese, som opfylder kravet om falsifikation via empirisk test:

”Der er mere end tre hospitaler i Region Hovedstaden.”

Ved efterfølgende at tælle antallet af hospitaler i Region Hovedstaden bekræftes hypotesen, men hypotesen ville afkræftes eller falsificeres, hvis der var tre eller færre hospitaler. Falsifikation handler altså ikke om, hvorvidt noget er sandt eller ej, men hvorvidt empiriske data kan danne grundlag for at be- eller afkræfte en teori. Popper brugte som eksempler på hypoteser, der ikke kan falsificeres, og som derfor er pseudovidenskabelige, såsom Karl Marx teori om arbejderklassens latente interesse og Sigmund Freuds psykoanalyse (Mathison 2005).

Page 28: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

28

Evalueringsbegreber og metoder

Falsk negative og falsk positive observationerEn test, som adskiller personer i to grupper, fx kursister, som har bestået og kursister, som ikke har bestået, vil have nogle værdier over og under et givent cut off, dvs. et kriterie for beståelse af testen. Værdierne over cut off kaldes ”positive” og værdier under kaldes ”negative”. Nogle af disse ”positive” og ”negative” kan være ”falske”, dvs. at testen har givet et misvisende billede. De tilfælde, hvor testen giver et misvisende billede, kaldes ”falsk positive” og ”falsk negative”. Hvis testen skal illustrere en given læring, så kan nogle personer få ”positive” værdier, på trods af, at de ikke besidder den givne viden, eller ”negative” værdier, på trods af at de besidder den givne viden, simpelthen fordi testen ikke er præcis. Sådan vil det i princippet altid være. Man kan ikke som udgangspunkt antage, at en test præcist er i stand til at adskille personer med en læring fra de personer, som ikke har denne læring.

Selvom man ikke kan sikre, at der ikke opstår tilfælde af ”falsk positive” og ”falsk negative”, kan man dog gøre meget for at minimere antallet. En test med lav validitet, dvs. gyldighed vil have mange falsk positive og falsk negative, og en test med høj validitet vil have betydeligt færre. I en test kan man også være interesse-ret i at sikre, at der i særlig grad ikke er falske udfald til den ene side. Det kan fx være afgørende, at læger besidder en given læring, fordi man uden læring, risike-rer dødsfald. Her vil man lægge en ”buffer” ind i sit cut off, så man altså flytter cut off for så vidt muligt at sikre, at der ikke er nogen falsk positive, vel vidende, at der så vil være mange falsk negative, altså mange personer, som ikke består, selvom de besidder den givne viden.

Forestil dig fx en test bestående af kun ét spørgsmål, hvor man bliver bedt om at svare på, om man har en lægefaglig specialisering, og svarmulighederne er ”ja” eller ”nej”. Hvis alle personer, som har en lægefaglig specialisering har svaret ”ja”, og hvis alle personer, som ikke har en lægefaglig specialisering har svaret ”nej”, så er der ingen falsk negative eller falsk positive. Hvis nogle respondenter har svaret forkert, vil der være falsk negative eller falsk positive.

Falske effekterMan behøver ikke at have beskæftiget sig med effektmåling og evaluering for at have stødt på begrebet ”placebo”. Placebo er, kort fortalt en effekt, som er affødt af oplevelsen af at have været behandlet. Det er altså en synlig målbar effekt, men det er ikke effekten af det, man er interesseret i at måle effekten af. Hvis en placebo-effekt er til stede, og man ikke har taget højde for den, opnår man derfor et fejl-estimat. Placebo-effekter kendes mest fra medicinske forsøg, hvor mange studier har vist, at personer, som modtager en pille, som alene indeholder kalk eller sukker, oplever en effekt. Princippet gælder ikke kun for medicinske forsøg, men kan direkte overføres til enhver anden form for effektmåling, som involverer mennesker. De individer som deltager i forsøget kan tro, at de er blevet udsat for noget virkningsfuldt og vil ofte beskrive, hvordan de efter medicinen har mindre hovedpine, færre smerter, mere energi, eller hvad det nu end er, man måler på. Pointen her er naturligvis ikke, at kalk- og sukkerpiller kan kurere hvad som helst, men at menneskers oplevelse har tendens til at blive påvirket af det man tror, der sker. Hvis man tror, man har modtaget smertebehandling, så er man tilbøjelig til at opleve færre smerter.

Et andet lignende fænomen inden for effektmåling er Hawthorne-effekter, som er den effekt, deltagere i forsøg oplever, når der er observatører, som betragter delta-geren. Fænomenet er opkaldt efter en fabrik, hvor der blev gennemført en række

Page 29: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

29

Evalueringsbegreber og metoder

forsøg for at se, hvilken arbejdsform, der var mest effektiv. Resultatet var, at der var en effekt uanset om de ændrede arbejdsforholdene eller ej, fordi fabriksarbej-derne generelt ændrede adfærd af at blive vurderet og observeret.

Man kan måske være fristet til at stille det spørgsmål, om ikke det er lige meget, hvorfor noget virker, hvis bare det virker, og en kalk- eller sukkerpille kan vel derfor være lige så god, som en pille der indeholder et aktivt stof ? Over tid vil Placebo- og Hawthorne-effekter dog aftage for den enkelte person. Kalkpillens ”effekt” bliver ikke ved med at fremtræde. Hvis man anvender et evalueringsde-sign, hvor dataindsamlingen forventes at påvirke deltagerne, er det derfor vigtigt at tage højde for Placebo- og Hawthorne-effekt, i det omfang det er muligt, først og fremmest ved at anvende en kontrolgruppe. Med undervisningsindsatser kan man fx henvise kontrolgruppen til et undervisningsforløb af en anden type, som ikke eller i mindre grad antages at have betydning for udfaldet, så både test- og kontrolgruppe oplever at være udsat for en indsats.

FeasibilitySe implementering og disseminering

FejlledFejlleddet er den del af en statistisk regressionsmodel, som ikke forklares af modellen. Fejlleddet kan bestå af både systematisk og usystematisk støj, hvor systematisk støj kan resultere i bias, dvs. fejl.

Feltobservation og deltagerobservationSe også kvalitative metoder og analysetilgange

Feltobservation er ligesom interviews, fokusgrupper og gruppeinterviews, også en kvalitativ evalueringsmetode. Med feltobservation er det observatørens blik på en praksis, som nedfældes med feltnoter og derved bliver til analyserbare data. En variant af observationsstudier er deltagerobservation. Med deltagerobservation deltager man i den aktivitet, man undersøger, dvs. at man fx vil deltage som kur-sist på lige fod med øvrige kursister, hvis man ønsker at undersøge et kursus på baggrund af deltagerobservation. Feltobservation adskiller sig fra andre tilgange ved, at man på den måde også må forvente at influere på forskningsobjektet. Øvrige kursister vil fx nemt blive påvirket af observationen. I nogle undersøgel-ser kan dette være problematisk og i andre undersøgelser mindre problematisk. Feltobservation kan fx være et nyttigt bidrag, hvis man ønsker at opnå viden om, hvordan en kursist anvender den opnåede viden efter deres deltagelse i et kursus. Her kræver observationen både metodiske og stærke sundhedsfaglige kompeten-cer inden for den kliniske kompetence, man skal observere eksistensen af. Ved kliniske simulationer såsom simulation af klinikeres samarbejde ved en patients hjertestop er feltobservation fx et centralt værktøj til at opnå viden om, hvordan de involverede samarbejde omkring den akutte situation. Se mere om feltobserva-tion i Ritchie et al 2014, Sanjek 1990 og Spradley 1980.

Fixed og random effectsFixed og random effects modeller anvendes i metastudier til at estimere en effekt baseret på kombinationen af flere studier. Valget mellem fixed og random effects

Page 30: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

30

Evalueringsbegreber og metoder

tilgang bør i udgangspunktet hvile på, om populationen har lav eller høj heteroge-nitet, dvs. forskellighed. Hvis det kan være svært at afgøre graden af heterogenitet, kan en Durbin–Wu–Hausman test afgøre, hvilken af de to tilgange, man bør væl-ge. Heterogeniteten kan fx være baseret på, at forskelligartede effekter må forven-tes for forskellige aldersgrupper, lande, faggrupper eller andet. Ved høj heteroge-nitet vælges som udgangspunkt en random effect model, og ved lav heterogenitet vælges en fixed effect model3 . Et metastudie kan i nogle tilfælde også være baseret på en blanding af de to tilgange, hvilket kaldes en mixed-effect tilgang. Kendetegn ved fixed og random effects modeller er illustreret i tabel 6 nedenfor.

Fixed og random effects, mikroøkonometriInden for mikro-økonometri kan man anvende fixed og random effects modeller når man har paneldata, dvs. tværsnit-undersøgelser over tid. I begge modeller findes der en uobserveret tilfældig komponent, der er individspecifik og konstant over tid. Et klassisk eksempel er en undersøgelse af sammenhængen mellem niveauet af uddannelse og lønninger. Her kan intelligens være den uobserverede individspecifikke komponent, der er konstant over tid. Intelligens vil sandsynlig-vis være korreleret med uddannelse og løn. Det har den konsekvens, at uddannel-se bliver endogen, og dermed fejlestimeret i modellen.

Har man derimod observationer over tid for de samme individer, kan man tage højde for denne intelligens, selvom den egentlig er uobserveret. Antagelserne om den individ-specifikke komponent (i eksemplet intelligens) afgør så, om det er en fixed effects model eller en random effects model der kan anvendes. I en fixed effects model er den individuelle specifikke tidsinvariante komponent korreleret med de andre forklarende variable, dvs. i vores eksempel vil intelligens være korreleret med uddannelsesniveauet. Under antagelserne om striks eksogenitet4 samt at der i modellen ikke er forklarende variable der er konstante over tid, kan effekten af eksempelvis uddannelse på løn estimereres ved hjælp af en fixed effects model. Selve estimationen udføres ved, at man vha. differens fjerner den individspecifikke komponent, med andre ord fratrækker man gennemsnittet over tid for alle individer. Da den individspecifikke komponent er konstant over tid vil den helt forsvinde, og man kan udføre en almindelig OLS-regression på de modifiserede data.

I en random effects model er middelværdien af den individ-specifikke kompo-nent uafhængig af de forklarende variable. Derudover antages også som ovenfor

Tabel 5: Fixed og random effects modeller

Fixed effect model Random effects model

Her antages underliggende sand værdi på tværs af subsamples. Differencer mellem estimater antages at skyldes tilfældighed, dvs. at effekten antages at være fikseret.

Underliggende sand værdi i hvert subsample antages, fx forventningen om, at der findes en sand score for forskellige aldersgrupper. Effekten antages at kunne variere mellem disse grupper.

Tager ikke højde for variation på tværs af subsamples

Tager højde for variation på tværs af subsamples

Passende tilgang ved lav heterogenitet Passende tilgang ved høj heterogenitet

Resulterer i smalt konfidensinterval Resulterer i bredt konfidensinterval

Middelværdi estimeres pba. sample størrelse

Middelværdi estimeres pba. samplestør-relse og

Effekt-test (afhængigt af outcome): Mantel-Haenszel, Peto-exact, inverse variance vægtet

Effekt-test: DerSimonian & Laird

3 Bemærk at random i forbindelse med ’random effects’ ikke skal forstås som fuldstændig tilfældig på samme måde som når man taler om randomiserede, kontrollerede forsøg, men blot at effekten kan variere afhængigt af subsample.

4 Eksogenitet betyder, at de forklarende variable er ukorrelerede med det uobserverede fejlled i alle tidsperioder, når man kontrollerer for den uobserverede individspecifikke effekt.

Page 31: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

31

Evalueringsbegreber og metoder

striks exogenitet. I det at den individspecifikke komponent er uafhængig af de forklarende variable over tid kan almindelig OLS anvendes. Denne metode vil dog ikke være efficient, idet der er seriekorrelation imellem de uobserverede fejlled over tid, derfor estimeres modellen i stedet ved generalized least squares (GLS).

For at opsummere er random effects en model, hvor den uobserverede individ- specifikke komponent ikke er relateret til de andre forklarende variable og derfor ”random”, mens den i en fixed effects model er fastholdt, dvs. ”fixed” over tid, men samvarierende med de andre forklarende variable.

Man kan ved hjælp af en Hausman test, teste om fixed eller random effects er den mest hensigtmæssige model (bemærk at antagelser om homogenitet etc. skal være opfyldt for at testen er korrekt). Fordelen ved random effects sammenlignet med fixed effects er at det her er muligt at estimere effekten af tidsinvariante variable såsom køn etc. Hvis en random effects model er den mest hensigtsmæssige vil den generelt have lavere varians sammenlignet med en fixed effects model.

FokusgruppeSe interviews, fokusgrupper og gruppeinterviews

ForandringsteoriEn teori for hvordan en forandring afstedkommes, ofte i forbindelse med en given indsats. Teorien kan opstilles grafisk som en forandringsmodel som et procesdiagram med input, aktiviteter og resultater.

ForforståelseInden for hermeneutikken, dvs. videnskab med et fortolkende udgangspunkt, ta-ler man om forforståelse som den forståelse man har forud for at man går i gang med at undersøge et emne. Udgangspunktet er, at enhver evaluator vil have en forforståelse af emnet, som påvirker, hvordan man griber analysen an, og at man som analytiker bør være sig denne forforståelse bevidst.

Frekventiel statistikSe deskriptiv og inferentiel statistik

FremskrivningsanalyseI udgangspunktet er analyser af den sociale verden baseret på det der er sket, frem for hvad der vil ske. Dog kan det nogle gange være relevant at stille progno-ser for fremtiden. Prognoser vil altid være behæftet med usikkerhed, fordi vi aldrig ved på forhånd, hvad fremtiden vil bringe. Man kan fx være interesseret i at estimere, hvor mange studenter, som indskrives på en uddannelse om fem år, og hvor mange, som afhængigt af indskrivningen af studenter senere vil få brug for at gennemføre kliniske forløb i Region Hovedstaden. Dette kan fx basere sig på viden om, hvor mange personer der er i de årgange, hvor en andel forventes at søge ind på uddannelser på et givent tidspunkt. Jo længere fremskrivning, jo større er usikkerheden som regel.

Page 32: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

32

Evalueringsbegreber og metoder

G

FænomenologiSe kvalitative metoder og analysetilgange

FølgeforskningFølgeforskning er forskning, som følger et afgrænset initiativ, en indsats eller en praksis, og minder på den måde meget om evaluering, som ofte har fokus på det nære og specifikke frem for det mere generelle, som kendetegner grundforskning. Forskellen fra evaluering er, at der er tale om et forskningsfinansieret studie.

GennemsnitSe centrale værdier

Going native’Going native’, altså at man så at sige indlemmes hos de indfødte, er et begreb, som primært finder anvendelse inden for kvalitativ analyse (Reilly 2009). Begre-bet har sin oprindelse i antropologiske studier, hvor man betegner en tendens til, at ens perspektiv bliver ukritisk over for det felt man studerer via feltstudier, hvor man indgår i en tæt relation med feltets aktører, og overtager perspektiver og værdier fra feltet. Som udgangspunkt bliver det betragtet som problematisk, og derfor noget man skal forsøge at undgå, fordi det strider mod armslængde-princippet. Observatøren bør som udgangspunkt kunne forholde sig kritisk til emnet og både se positive og negative aspekter, frem for blot at lade sig overtale af et felts perspektiver. Tendensen ses fx i sammenhænge, hvor de mennesker man observerer er ens egne kolleger, familie eller venner, eller nogen man har beskæftiget sig med længe. Det er værd at være opmærksom på dette fænomen i forbindelse med gennemførelse af evalueringer, hvor evaluatoren er en del af det miljø man foretager analyse af, fx via interviews eller feltstudie blandt klinikere som er evaluatorens kolleger. For at understøtte armslængdeprincippet kan man lade en ekstern konsulent foretage evalueringen.

Aktionsmetode kan ses som en evalueringstilgang, hvor der er overlap mellem evaluator og evalueringsfelt, hvor man evaluerer egen praksis. Derfor bliver evaluatorer, som anvender aktionsmetode nogle gange kritiseret for at være ’gone native’, selvom der også er videnskabsteoretiske positioner, hvor der argumente-res for, at dette kan være nødvendigt for vidensproduktionen.

GrafSe grafisk datapræsentation

Grafiske datapræsentation, diagrammer og graferDer eksisterer mange muligheder for at præsentere data. En god fingerregel er, at enkelhed fremmer forståelsen, dvs. at man for eksempel skal være klar over, at flotte grafiske præsentationsformer med 3D-søjler og skyggeeffekter kan gøre det uklart, hvordan de præsenterede data fordeler sig. Formålet med grafisk datapræ-

Page 33: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

33

Evalueringsbegreber og metoder

sentation er at synliggøre mønstre og strukturer i data, som er svære at fornemme i tabeller, så tydelighed bør vægtes højere end æstetik.

Med et søjlediagram kan man nemt se hvilken søjle, der er højest, hvor det kan være sværere at se, hvis data kun præsenteres i en tabel. Omvendt egner tabeller sig bedre, hvis det er de præcise talværdier, som er væsentlige. Nedenfor i tabel 5 er de mest basale diagramtyper nævnt. For hver diagramtype er beskrevet, hvilke variabeltyper man kan anvende og et eksempel på anvendelse.

GruppeinterviewSe interviews, fokusgrupper og gruppeinterviews

Tabel 6: Diagramtyper

Diagramtype Datatype Eksempel

Søjle/stolpe/pindediagram

Diskret variabel, dvs. nominal eller ordinal

Deltagelsesprocent for fire kurser, hvor hvert kursus repræsenteres af en søjle.

Tragtdiagram Diskret variabel, dvs. nominal eller ordinal

Samme datatyper som ved søjlediagram, men data præsenteres på lodret midter-akse frem for en vandret bundlinje, ordnet med højeste hyppighed øverst.

Kolonnediagram (søjlediagram vendt 90 grader)

Diskret variabel, Dvs. nominal eller ordinal

Samme datatyper som ved søjlediagram.

Lagkage/ cirkeldiagram

Diskret variabel, dvs. nominal eller ordinal

Samme datatyper som ved søjlediagram. Egner sig bedst til fordelinger med få kate-gorier, så man undgår dele, som er for små til at man fornemmer andelen.

Histogram Kontinuert variabel, dvs. interval eller ratio

Et histogram ligner et søjlediagram, men er kendetegnet ved, at søjlerne repræsenterer intervaller frem for kategorier. Et histogram kan principielt bruges til samme data som en graf, men egner sig bedre til data med færre datapunkter, fx fordeling over måne-der i et år, dvs. 12 datapunkter.

Graf Kontinuert variabel, dvs. interval eller ratio

Bruges ofte til fx fordeling over tid, såsom deltagelsesprocent over tid for et e- læringskursus, som kursister kan tage på tidspunkter de selv vælger.

Sprednings- diagram

Kontinuert variabel, dvs. interval eller ratio (to variable)

anskueliggøre samvariationen mellem to variable, fx hvor mange års arbejdserfaring en kursist har og kursistens testscore. Nogle gange indlægger man en regres-sionslinje i et spredningsdiagram for at synliggøre samvariation.

Solsikkediagram To diskrete variable eller en diskret variabel og en kontinuert variabel

Et solsikkediagram ligner et sprednings- diagram, men er beregnet til data, hvor mange observationer ligger oven i hinan-den. Her kan flere observationer i samme punkt illustreres ved at punktet har flere krydser gennem punktet.

Page 34: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

34

Evalueringsbegreber og metoder

H

I

HarmoniseringEnsretning af spørgsmål i spørgeskemaer til forskellige grupper med henblik på at opnå sammenlignelighed. Bemærk her, at andre forhold også har betydning for sammenlignelighed, såsom kontekst og modus (fx adspørgsel på papir eller elektronisk).

Heteroskedasticitet og homoskedasticitetHetero- og homoskedasticitet er begreber som anvendes i forbindelse med regres-sioner. Begreberne betegner hvorvidt spredningen af fejlleddene omkring en re-gressionslinje er ens for alle værdier af x eller ej. Hvis spredningen ikke afhænger af værdier af x, så kaldes den homoskedastisk. Hvis spredningen er forskellig for de værdier x kan antage, kaldes spredningen heteroskedastisk. Lineær regressi-onsanalyse beror på en antagelse om homoskedasticitet.

HypoteseEn hypotese er en påstand, som kan testes empirisk. I opstillingen af en hypotese er det mindre vigtigt, om man forud for testen tror på hypotesen eller ej. Det er langt mere vigtigt, at den efterfølgende dataindsamling og analyse gør det muligt at af- eller bekræfte hypotesen. Hypotesen kan fx tage udgangspunkt i lærings-mål. En hypotese kan fx lyde: H

1: ”Det samlede antal af genindlæggelser i Region

Hovedstaden er nedbragt med mindst 2 % i år 2014 i forhold til år 2013”. Dette udsagn kan testes empirisk ved at sammenligne data om antal genindlæggelser fra år 2013 og 2014. Det er vigtigt, at hypotesen formuleres, så den er tydelig og kan afprøves.

Typisk skelner man mellem nulhypotese og alternativ-hypotese, hvor nulhypo-tesen betyder, at der ikke kan observeres en signifikant, målbar forskel eller for-andring. Alternativ-hypotesen er omvendt, at der kan observeres en signifikant, målbar forskel eller forandring. Bemærk her, at det kan være vigtigt at teste, hvor sikker en hypotese er. Man kan fx pga. usikre data nå den konklusion, at der på baggrund af de indsamlede data lader til at være sket en forandring på trods af, at der reelt ikke er sket en reel forandring. Hvis man således fejlagtigt forkaster nulhypotesen, kaldes det ”type I fejl”. Tilsvarende kan man nå den konklusion, at der ikke er sket en forandring på trods af, at en forandring reelt er sket, hvilket kaldes ”type II-fejl”. Læs mere om hypoteser i Jacobsen et al 2012.

IdealtypeMax Weber argumentede for, at videnskabens metoder generelt ikke kan afdæk-ke virkeligheden fuldstændigt, men at man via teorier frembringer idealtyper, dvs. ufuldstændige billeder på virkeligheden (Weber 1949).

Impact evalueringSe også implementering

Ved impact evaluering forstås evalueringer, hvor man ser på, hvordan ny politik har betydning for en praksis, fx en uddannelsesreforms forandring af hvordan sundhedsuddannelser gennemføres og hvilke ændringer, det fører til.

Page 35: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

35

Evalueringsbegreber og metoder

Implementering og dissemineringVed implementering forstås udførelse af en strategisk praksis og ved dissemine-ring forstås udbredelse. Implementering er et begreb, som derfor ofte forbindes med gennemførelse af en konkret praksis, såsom et kursus i håndhygiejne, hvor disseminering mere finder anvendelse i forbindelse med, at man har en strategi om at styrke håndhygiejnen uden konkrete indsatser.

Hvis man måler på en ny indsats, så skal man optimalt set også sikre, at indhol-det er det man forventer. Ofte kan kursus- og uddannelsesbeskrivelser på papir, afvige betydeligt fra den konkrete praksis. Implementeringsanalyse forud for gennemførsel af effektmåling kan sikre, at indsatsen har det rette indhold. Imple-menteringsmåling kan foregå på både kvalitative og kvantitative præmisser. Læs mere i fx Contandriopoulos et al 2010, Durlak 1998, Fixsen et al 2005, Graham et al 2010, Klein et al 1996, Nutley 2007, Oliver et al 2013, Nutley et al 2003 og Stirman et al 2011. Eksempler på implementeringsbegreber er illustreret i tabel 7 nedenfor.

Tabel 7: Implementeringsbegreber

Begreb Beskrivelse Eksempel

Appropriateness, kompatibilitet, tilpasning

Hvorvidt en interven-tion passer ind i en ny kontekst og hvilke tilpasninger der er nødvendige

Kan et kursus som hidtil har været henvendt sygeplejersker også målrettes bioanalytikere?

Diffusion Udbredelse af en ide Samme datatyper som ved søjlediagram, Hvordan en given politik i Region Hoved-stadens tages i anvendelse, fx åbenheds-politik

Feasibility Lønsomhed Vil ressourcerne brugt på et kursus til klinikere betyde færre ressourcer brugt på genindlæggelser?

Kontekstualitet Hvilken betydning konteksten har for implementeringen af en ny intervention

Hvilken betydning har det, at et kursus gennemføres i psykiatrien?.

Implementering Igangsættelse af ny praksis

Bliver kurset igangsat som det er tiltænkt ud fra en kursusbeskrivelse?

Transfer, replicering

Overførsel af interven- tion til ny kontekst

Implementeres Sundhedsplatformen anderledes i Region Sjælland end i Region Hovedstaden?

Opskalering Hvad der sker i forbin-delse med at interven- tionen udvides

Foregår undervisningen ensartet på tværs af hold, når der kommer flere hold med forskellige undervisere?

Sustainability Hvordan afholdelsen af interventionen foregår over tid

Fastholdes undervisningskvaliteten efter henholdsvis to og fire år?

Page 36: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

36

Evalueringsbegreber og metoder

Omfattende forskning har vist, at kursus- og uddannelsesbeskrivelser på papir kan afvige betydeligt fra den konkrete praksis. Implementeringsanalyse forud for gennemførsel af effektmåling kan sikre, at indsatsen har det rette indhold, og at den er iværksat som forventet. En simpel opstilling af hvad succesfuld implemen-tering kræver finder man hos Knoster et al 2000 (se figur 8 nedenfor). Selvom det måske for nogle kan fremstå indlysende, så eksisterer der mange initiativer, hvor der ikke har været en tydelig vision, de krævede kompetencer, tilstrækkeligt incitament hos involverede personer (fx undervisere og kursister), ressourcerne til at gennemføre og en nøje plan for, hvordan det skal foregå. Læs mere i Durlak 1998, Fixsen et al 2005, Klein et al 1996 og Nutley et al 2003.

Kilde: Knoster et al 2000

ImputeringImputering betyder i ordets forstand ”at tilskrive”. I kvantitative evalueringer an-vendes begrebet i forbindelse med at tilføje manglende data, dvs. at evaluatoren indsætter værdier de steder, hvor respondenten ikke har besvaret et spørgeskema, hvis datagrundlaget er en spørgeskemaundersøgelse. Som udgangspunkt vil det i mange sammenhænge stærkt frarådes, at man gør dette, men i nogle sammen-hænge kan det have en berettigelse. Tilgangen er induktiv, fordi man forsøger at tolke ud over det datagrundlag, man reelt har.

Vision Kompetencer Incitament Ressourcer Plan Forandring

Kompetencer Incitament Ressourcer Plan Forvirring

Vision Incitament Ressourcer Plan Angst

Vision Kompetencer Ressourcer Plan Modstand

Vision Kompetencer Incitament Plan Frustration

Vision Kompetencer Incitament Ressourcer Trædemølle

+ + + + =

+ + + =

+ + + =

+ + + =

+ + + =

+ + + =

Figur 8: Betingelser for succesfuld implementering

Page 37: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

37

Evalueringsbegreber og metoder

I forbindelse med randomiserede studier, hvor fejlleddet antages at være nor-malfordelt, kan man tilskrive karakteristika de steder, hvor der mangler data. I eksemplet nedenfor i tabel 8 repræsenterer variabel 1 de indsamlede data og variabel 2 er imputeret. Som det ses, svarer variabel 2 til variabel 1, bortset fra at variabel 2 besidder observationer de steder, hvor variabel 1 ellers mangler oplysninger. Imputeringen foretages på baggrund af statistik beregning. Som man bemærker i eksemplet er der blevet tilføjet et ”1” for respondent nummer 3 og et ”0” for respondent nummer 5.

Imputering vil som udgangspunkt altid bidrage med bias til data, og man bør vise tydeligt hvad man har gjort, hvis man anvender denne tilgang. Imputering bliver anvendt ud fra det skøn, at den valgte metode kun i minimalt omfang giver bias, og at imputeringen til gengæld bringer evalueringen hen, hvor den statistiske analyse kan gennemføres eller kan opnå signifikante resultater. Læs mere i Blend & Marwala 2016.

Indsats, interventionEn indsats eller intervention kan fx være en uddannelse eller et kursus. En ind-sats er det, som man inden for effektmåling kalder det, som testgruppen udsættes for, og som man efterfølgende måler udfaldet af, sammenlignet med en kontrol-gruppe, som modtager en anden indsats eller ingen indsats. Læs mere i Nielsen et al. 2008 og Maldonado & Greenland 2002.

Informant, interviewpersonBegreberne informant og interviewperson bruges inden for kvalitative evaluerin-ger til at betegne den person, som i et interview fortæller om et givent emne.

InstrumentInden for evaluering er der forskellige evaluerings-relaterede fagområder, som har hver deres forståelse af begrebet ”instrument”. I nærværende sammenhæng finder vi det mest hensigtsmæssigt at fokusere på, hvordan begrebet instru-ment anvendes inden for økonometri og statistik. Her forstås et instrument, som et værktøj, som gør det muligt at estimere et kausalt forhold. Dette kaldes også ”instrument-metode”. Inden for statskundskab og implementering forstås instrument som noget der kan være med til at påvirke implementeringen af en praksis, fx øget løn. Endelig er instrument blandt psykometrikere synonym for et standardiseret, valideret spørgeskema.

Tabel 8: eksempel på imputering

Respondent nr. Var1 Imputation Var2 (var1 imputeret)

1 1 0 1

2 0 0 0

3 - 1 1

4 1 0 1

5 - 1 0

6 0 0 0

7 1 0 1

Page 38: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

38

Evalueringsbegreber og metoder

Økonometrisk instrument

Instrumentmetode bliver typisk betragtet som den bedste metode til at estimere kausale forhold, i sammenhænge hvor randomiserede, kontrollerede forsøg ikke er mulige, dvs. hvor man som evaluator ikke har mulighed for at opdele tilfældigt til en test- og kontrolgruppe. Instrumentet beskriver en variabel, som opdeler gruppen tilfældigt i personer, som modtager intervention fra personer, som ikke modtager intervention. Når instrumentmetode betragtes som det bedste alter-nativ til randomiserede, kontrollerede forsøg, beror det på, at det er den metode, som bedst kan sikre minimal bias på effektmålingens estimat. En instrumentva-riabel er en variabel, som kan anvendes i en regressionsmodel. Instrumentvaria-blen skal være korreleret, dvs. samvariere, med den afhængige variabel, når man betinger på øvrige relevante kovariate variable3. Instrumentvariablen må ikke være korreleret med fejlleddet.

Et fiktivt eksempel på en instrumentvariabel til at estimere et kausalforhold kan være, at man på et givent tidspunkt reformerer en sundhedsuddannelse, og hvor man gerne vil vide, om reformen giver fagligt dygtigere uddannede, fx målt på, om der i det sundhedsfaglige arbejde sjældnere opstår komplikationer i patient-forløb. Udvidelsen af et uddannelsesforløb kunne være en plausibel forklaring på, at patienter opnår bedre behandling, og derved sjældnere får komplikationer i behandlingen. Her vil et randomiseret kontrolleret forsøg ikke være en mulig tilgang til at måle effekten af uddannelsen, da man ikke kan udvælge tilfældigt, hvem der skal have den reformerede uddannelse og hvem der skal have den ikke-reformerede uddannelse. Her vil analysen være begrænset af, at nogle stu-derende har valgt at uddanne sig før reformen, og nogle har valgt at uddanne sig efter reformen. Derfor kan instrumentmetode være et meningsfuldt alternativ til det randomiserede, kontrollerede forsøg.

I praksis vil valg af instrumentmetode også afhænge af, om man har tilgængelige data på relevante kovariate og stikprøvens størrelse, hvor små stikprøver giver høj risiko for insignifikante resultater. Hvis man har data på alle relevante kovariate, kan propensity score matching være et alternativ til instrumentmetode. Se mere om instrumentmetode i Altonji et al 2005, Cook & Thomas 2006 og Puhani & Weber 2005.

InterviewpersonSe informant

Interviews, fokusgrupper og gruppeinterviewsInterviews og fokusgrupper har grundlæggende det fælles træk, at udgangspunk-tet er at indsamle data på baggrund af ”åbne udsagn”, dvs. at der her er tale om en kvalitativ evalueringsmetode. Interviews og fokusgrupper vil ikke være egnet til at vurdere effekten af et kursus, men kan fx være egnet til at opnå viden om processer, dynamikker og oplevelser. Disse tilgange er velegnede til at opnå viden om et emne, som er meget ukendt, og dårligt egnede til at opnå viden om omfanget af et emne. Med disse tilgange forsøger man ikke at opnå repræsenta-tivitet, men vil i stedet være fokuseret på fx mulige forklaringer på et fænomen. Man ville fx ikke anvende fokusgrupper eller interviews til at vise, i hvor høj grad kursister oplevede, at et kursus var godt. Dette vil langt bedre kunne måles med spørgeskemadata. Spørgeskemadata og andre kvantitative tilgange kommer til gengæld til kort, hvis formålet er at afdække hvorfor kursusdeltagere synes, at et kursus er godt. Hvis man gerne vil have et nuanceret indblik i kursisters fort-

Page 39: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

39

Evalueringsbegreber og metoder

ællinger om deres uddannelsesforløb, og hvad de oplevede brugbart og mindre brugbart, kan interviews og fokusgrupper være hensigtsmæssige tilgange.

Hvor man med interviews kun interviewer én person ad gangen, foregår en fokusgruppe som en dynamik, hvor man forsøger at benytte den værdi der skabes af samtalen mellem flere interviewpersoner. Fokusgrupper er i forhold til adskilte interviews mindre egnede, hvis man ønsker at belyse udsagnenes forskellighed, idet deltagere i en fokusgruppe nogle gange forsøger at opnå en fælles konsen-sus, hvorved nuancerne og de svære, tabuiserede temaer kan forsvinde, fx hvis fokusgruppen både består af ledere og menige medarbejdere. Man kan ikke forvente, at alle deltagere i en fokusgruppe finder det lige nemt at fremføre alle sine argumenter.

Med interviews opnår man en mere intim interviewsituation, som kan være en fordel, hvis man vurderer, at relevante bidrag til interviewet ikke vil komme til-strækkeligt til syne med en fokusgruppe. Interviews foregår ofte ansigt til ansigt, men kan også foregå via telefon eller webcam, hvilket kan have ressourcemæssige fordele. Hvor fokusgruppe-interviews har fokus på dynamikken mellem inter-viewpersonerne i gruppen, har gruppeinterviews fokus på ’det fælles svar’ som gruppen giver. Se mere om interviews og fokusgrupper i Fog 2004, Kvale 1997 og Ritchie et al 2014.

IntuitionIntuition er inden for evaluering noget, som af nogle evaluatorer, herunder inden for det kvalitative område, anses som et vigtigt værktøj. På den anden side be-tragter andre evaluatorer intuition som en usystematisk måde at konkludere på, som er løsrevet fra empirisk analyse. Inden for uddannelsesområdet kan det fx intuitivt give mening, at evaluering af læring kan være baseret på spørgeskemada-ta med selvvurdering fra kursister og studerende, men meget forskning har vist, at den lærende har meget begrænsede forudsætninger for at vurdere egen læring. Mennesker har en tendens til at se mønstre og forstå verden gennem de mønstre man ser. Dette er på den ene side afgørende for at vi kan gebærde os i samfundet, og at vi forsøger at skabe mening. Omvendt betyder det også, at vi nogle gange ser sammenhænge, som ikke er der.

Tyler Vigen har udgivet en bog med utallige eksempler på samvariationer, som skyldes ren tilfældighed (Vigen 2015). Her kan man blandt andet se, hvordan der er en nøje samvariation mellem antallet af doktorgrader i sociologi og antallet af non-kommercielle opsendelser af raketter til rummet over flere år. Pointen med at Vigen bygger en hel bog op omkring at illustrere alle disse samvariationer er, at de mønstre vi ser, ikke nødvendigvis udtrykker sande sammenhænge. Dette fremstår åbenlyst, når man sammenholder doktorgrader og opsendelser af raket-ter. Men måske fremstår det mindre åbenlyst, når man sammenholder forhold, hvor man intuitivt kunne formode en sammenhæng, såsom tilfredshed med et kursus, og hvorvidt man har lært noget, men her ved vi fra omfattende forskning, at disse to forhold ikke nødvendigvis hænger sammen (Uttl et al 2017). Man kan dermed ikke nødvendigvis antage, at kursister har opnået læring baseret på at de i en efterfølgende tilfredshedsmåling har vurderet, at kurset var brugbart. Derfor kræver evaluering af kurser og uddannelser forsigtighed omkring valg af metoder. Uden anvendelse af de rette evalueringsmetoder kan vi nemt narres til at se sam-menhænge, hvor der ikke er nogen.

Page 40: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

40

Evalueringsbegreber og metoder

KItem Response TheorySe under validitet inden for skalavalidering

KausalitetSe også korrelation

Kausalitet betyder, at noget medfører noget andet. Hvis A medfører B, siger man, at der er et kausalforhold mellem A og B, typisk illustreret ved A ✓ B.Et kausalforhold kan også være gensidigt, dvs. at der sker en påvirkning fra A til B, men samtidig også en påvirkning fra B til A. Fx kan der på en arbejdsplads være et dobbeltkausalt forhold mellem arbejdspres og sygefravær. Jo højere arbejdspres, jo højere sygefravær, men det højere sygefravær gør også, at arbejds-presset bliver højere.Der kan også være multiple kausaliteter på spil i en kausalrelation. Det kan fx være, at det både gælder, at A ✓ B, og at C ✓ B, dvs. at to faktorer påvirker B. Fx kan omfanget af sygefravær være påvirket af både forhold i hjemmet (A) og på arbejdspladsen (B).

Et tredje scenarie er, at A ✓ B ✓ C, dvs. at A påvirker C via B. Man ville i så fald sige, at B er moderator for A, fordi C kun bliver påvirket af A gennem B. Hvis A fx var at man er tilknyttet et arbejdsmiljø med høj smittefare og C er sygefravær, så kunne B være at man oplever et højt arbejdspres. Hvis man oplever et højt ar-bejdspres, kan smittefaren øges, fordi immunforsvaret kan forringes pga. stress. I så fald er relationen mellem arbejdsmiljø med smittefare og sygefravær medieret af højt arbejdspres.

I virkelighedens verden kan det være utrolig svært at adskille kausalforhold fra hinanden, fordi de virker samtidigt og ad flere veje. Det er rigtig svært at skabe situationer, hvor man kan isolere et kausalforhold og måle betydningen. I evalu-eringssammenhæng er den optimale form i forhold til at isolere et kausalforhold et randomiseret kontrolleret forsøg. Andre evalueringsdesigns til at identificere kausalforhold vil som udgangspunkt altid være mere biased, dvs. skævvredne. Når vi fx måler læring efter et kursus, så er det ikke sikkert, at målingen alene er udtryk for, at læringen er blevet skabt på baggrund af det pågældende kursus, dvs. vi kan ikke antage, at A kursus ✓ B læring. Den målte læring kan blandt andet skyldes deltagernes forhåndskendskab, særlig prædisponering for at opnå læringen, særlige evner for den pågældende gruppe, målefejl og tilfældighed. Den måling man foretager vil være et sammensurium af alle disse forhold, uden man ved hvor meget, der er det ene eller det andet. Derfor er det nødvendigt at anvende stringente metoder til effektmåling, fx randomiserede kontrollerede forsøg, hvis man skal estimere kausale effekter. Se mere om kausalitet i Agresti & Finlay 2007, Maldonado & Greenland 2002 og diskussion af kausalitetsbegrebet i Dahler-Larsen, P. (2013).

Kausal effekt og subjektiv oplevelseNår vi i daglig tale anvender ordet ”effekt”, forstår vi normalt, at noget er affødt af noget andet. Lad os tage et eksempel: ”Jeg så, at Lone blev ramt af en bil og fik hjernerystelse, fordi hun gik over vejen mens der kørte biler. Lone havde sagt, at hun ville gå over i kiosken på den anden side af vejen for at købe is.”.

I eksemplet kan man analytisk skelne mellem 1) en hændelse 2) præmis, 3) et resultat og 4) en hensigt. Hændelsen er, at Lone gik over vejen. Præmissen er, at der kørte biler, og resultatet ved at gå over vejen, mens der kørte biler var, at Lone

Page 41: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

41

Evalueringsbegreber og metoder

blev ramt og fik hjernerystelse. Hensigten var at købe is, men udfaldet blev et andet. Man kan på baggrund af eksemplet fortolke et kausalforhold. Gennem ob-servation kan man være nået til den konklusion, at Lone fik hjernerystelse, fordi hun blev ramt af en bil. I eksemplet er det også en sandsynlig forklaring. Dog skal eksemplet også tjene til at illustrere, at vi aldrig med sikkerhed kan vide, at vi har observeret et sandt kausalforhold.

Vi kan med andre ord ikke vide med sikkerhed, om Lone fik hjernerystelse, fordi hun blev kørt ned. Det kunne fx være tilfældet, at der var flere samtidige faktorer, som var medvirkende til udfaldet, og på trods af, at Lone udtrykte en intention, kan vi principielt ikke vide, om hun talte sandt. Måske kunne det være en med-virkende faktor til at Lone blev kørt ned, at hun nyligt har fået nye briller, at Lone har haft en lang og stressende arbejdsdag, at hun var beruset, at bilens bremser var slidte, at solen skinnede bilisten i øjnene osv. Formålet er her at illustrere, at effekten ikke kan identificeres direkte af det man observerer, og at effekten kan være forårsaget af flere sidestillede faktorer.

Effektmåling handler dybest set om at sandsynliggøre, at man har identificeret et kausalforhold, og typisk vil det handle om at identificere, hvor stærk relatio-nen er. Man kan fx være interesseret i at se på, om et kursus i håndhygiejne har betydning for, hvor mange personer, der vasker hænder efter toiletbesøg. Bemærk her, at vi er sprunget fra individ-niveau i eksemplet med Lone til gruppe-niveau i kursus-eksemplet. Inden for effektmåling, som involverer mennesker, har man sjældent en forventning om evigt-gyldige sande kausalforhold. Man forventer fx ikke, at et håndhygiejnekursus for en person afføder, at denne person, som er blevet opkvalificeret i håndhygiejne, altid i fremtiden vil vaske hænder efter toiletbesøg. Men en forøgelse af andelen af personer, som vasker hænder, efter de har deltaget i kurset, kan vise, at kurset har ”en effekt”. Blot virker det ikke lige meget eller på samme måde for alle, som deltager og effekten vil typisk aftage over tid.

Et grundlæggende problem indenfor effektmålingen er, at vi dybest set aldrig ved, hvad der var sket, hvis den faktor vi ønsker at måle effekten af, ikke havde været til stede. Vi ved ikke, om Lone alligevel var kommet til skade, hvis én af de nævn-te faktorer ikke havde været til stede. Vi ved tilsvarende ikke, principielt set, om en kursist, fx via råd fra kolleger, alligevel havde opnået læringen uden at deltage i kurset. Vi kan ikke spole tilbage i tiden og ændre virkeligheden og herefter se, hvad der var sket, hvis personen ikke havde fået kurset. Effektmåling beror derfor på den grundantagelse, at vi med forskellige tilgange kan tilnærme os den kontra-faktiske situation. Dvs. den fiktive tilstand for individet, hvis indsatsen ikke var sket. Under emnerne ”randomiseret kontrolleret forsøg” og ”kvasieksperimenter” kan du læse mere om tilgange til at opnå indsigt i den kontrafaktiske situation.

Key performance indicatorBegrebet key performance indicators (KPI) kommer fra LEAN (industriel ledelses-filosofi) og dækker over simple kvantitative mål, som udvælges som indikatorer for ydelse. Anvendelsen af KPI kan have bivirkninger, ved at medarbejdere i mindre grad fokuserer på det, der ikke måles på, og ved at anvende mål, som ikke direkte er udtryk for ydelse kan i nogle tilfælde have utilsigtede konsekvenser ved at medarbejdere fjerner fokus på det de ikke bliver målt på og ved at anvende mål, som ikke direkte er udtryk for ydelse. I udvælgelsen af indikatorer bør man derfor forsøge at begrænse disse utilsigtede konsekvenser.

Page 42: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

42

Evalueringsbegreber og metoder

KildekritikKildekritik er kritisk refleksion over kilder til viden, og kan være relevant i for-bindelse med enhver form for dataindsamling, men finder særligt anvendelse i forbindelse med litteraturstudier, hvor man vurderer kildetype, kildens afsender, tidspunkt for nedskrivning, kildens modtager, formål og synsvinkel/tendens.

Kirkpatricks trappemodelDon Kirkpatrick har udviklet en model, som kan illustrere forskellige niveauer af evaluering inden for læring. Formålet er at synliggøre en form for kausalrække i læring. Kirkpatrick tager udgangspunkt i følgende niveauer:

ReaktionDeltagernes reaktion på træningen.

LæringDeltagernes opnåelse af den ønskede viden, færdigheder, tilgang og tiltro baseret på deres deltagelse i træningen.AdfærdDeltagernes anvendelse af det de har lært, når de er tilbage på arbejdet.

ResultatI hvilken grad læringen afføder det ønskede udfald.

Disse trin er illustreret som niveauerne B, C, D og E i figur 5. Vi har valgt at udvi-de Kirkpatricks model, så den også omfatter evaluering af implementering. Dette er illustreret med den røde boks med stiplet linje i modellen. Figur 9 nedenfor illustrerer flowet for kursusafholdelsen og de tilsvarende muligheder for evalue-ring. De blå bokse illustrerer praksis, og de røde illustrerer evalueringstrin.

Hvis man ser på de blå bokse, så vil praksis for undervisning som udgangspunkt være, at man starter med at fastsætte et kursus (1) med en klar beskrivelse af læringsmål. Når man har tilrettelagt et kursus gennemfører man efterfølgende undervisningen (2). Med evaluering af implementering (A) kan man se på, om un-dervisningspraksis er i tråd med de fastlagte læringsmål og den læringsform, der er fastlagt. Udformningen af læringsmål er sjældent tilstrækkeligt for at sikre, at undervisningen foregår korrekt (Durlak 1998, Durlak & Dupre 2008). Evaluering af implementering kan foregå kvalitativt og kvantitativt.

Når undervisningsaktiviteten er gennemført kan man også blive klogere på, hvordan deltagerne reagerer på undervisningen (B), dvs. det man typisk forstår ved simpel tilfredshedsmåling. Dette foregår typisk med kvantitativ evaluering. Man kan også teste, om deltagerne har lært noget ved at gennemføre læringstests, hvilket kan foregå både kvalitativt og kvantitativt (C). Endelig kan man, når deltagerne kommer tilbage til deres hverdagspraksis (3), se på, om man forandrer adfærd (D). Evaluering af adfærd foregår typisk kvalitativt. Endelig kan man se på, om den forandrede adfærd afføder nye resultater (E) af arbejdet, fx at der sker færre genindlæggelser og komplikationer hos patienter, og dette foregår typisk kvantitativt. B betragtes som et forholdsvis simpelt evalueringsniveau, hvor A, C, D og E betragtes som mere komplekse evalueringsniveauer. Man vil sjældent evaluere på alle de angivne niveauer. I stedet udvælger man de niveauer, hvor man forventer at opnå mest værdifuld viden.

Page 43: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

43

Evalueringsbegreber og metoder

Klynge-evalueringEn tilgang til evaluering, hvor man forsøger at udnytte, at der eksisterer flere nyligt igangsatte eller nært forestående initiativer af tilstrækkelig sammenlig-nelighed til at evaluatorer fra hvert initiativ indgår i et evalueringsnetværk, så man løbende diskuterer evalueringsprocessen og lærer af hinandens erfaringer (Mathison 2005).

KolonnediagramSe grafisk datapræsentation

Komparative studier(se også univariat og bivariat analyse samt kvalitative metoder og analysetilgange)At gennemføre komparative evalueringer handler i al sin enkelthed om, at evalueringen har et element af sammenligning. Det kan fx være at se på, om trivselsniveauet er højere blandt SOSU-assistenter end blandt sygeplejersker. I komparative evalueringer skal man som udgangspunkt sikre, at begge grupper, fx SOSU-assistenter og sygeplejersker, er blevet spurgt på samme måde og under samme præmisser, dvs. at de fx har fået samme spørgeskema. At to grupper ikke er blevet spurgt på samme måde kan fx handle om, at spørgsmålene er blevet formuleret forskelligt for de to grupper, eller at spørgsmålene ikke er kommet i samme rækkefølge. At præmissen har været forskellig kan fx handle om, at den ene gruppe er blevet spurgt i forbindelse med et kursus, og den anden gruppe er blevet spurgt på en almindelig arbejdsdag. Hvis form og præmis ikke har været ens, så må det komparative element ses med det forbehold, at sammenlignelig-heden kan være mangelfuld. I effektmålinger skal man som udgangspunkt have en sammenligningsgruppe, ofte kaldet ”kontrolgruppe”, som gør det muligt at gøre antagelser om en kontrafaktisk tilstand, dvs. hvad udfaldet ville have været, hvis ikke indsatsen, fx et kursus, havde fundet sted. Effektmåling kan dermed ses som en særlig type af komparative studier. For nærmere indføring i komparative studier se Jacobsen et al 2012 og Ritchie et al 2014.

A: implementering

B: reaktion1: Kursus

C: læring2: Undervisning

D: adfærd3: Praksis

E: resultat

Figur 9. Udvidet kirkpatrick-model

Page 44: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

44

Evalueringsbegreber og metoder

KompatibilitetSe implementering og disseminering

Konceptuel grafisk kortlægningKonceptuel grafisk kortlægning kan i evalueringsprojekter fx bruges som et værktøj til at kortlægge idé-generering/brainstorm, hypoteser om kausalitet og konceptuelle/teoretiske nøgletermer (Mathison 2005).

KonfidensintervalEt konfidensinterval illustrerer for en variabels beregnede middelværdi, et interval hvor det er sandsynligt, at den reelle middelværdi ligger. Intervallet forudsætter et signifikansniveau, typisk fastsat til 95%, dvs. at det er 95% sikkert, at den reelle fordeling ligger inden for det angivne interval. Hvis man fx beregner en middelværdi baseret på aldersfordelingen i en gruppe, baseret på en stikprøve, så er det pga. bortfaldet ikke sikkert, at den beregnede værdi også er lig med den reelle værdi for den samlede population, som stikprøven skal repræsentere. Hvis man kan antage, at bortfaldet er tilfældigt, kan man dog sandsynliggøre, at den beregnede værdi ligger tæt på den reelle. Her kan konfidensintervallet fortælle, om det er sandsynligt at den reelle fordeling ligger inden for konfidensinterval-let. I figur 10 nedenfor er konfidensintervallet for en normalfordelt distribution angivet.

Konfidensinterval

Estimat (kendt)

DEN SANDE VÆRDI(UKENDT)

Figur 10: illustration af konfidensinterval

Konfirmatorisk analyseSe kvalitative metoder og analysetilgange

Konsekventiel validitetNogle evalueringsrapporter bliver læst af ganske få, andre af mange. Konsekventiel validitet handler om at forholde sig til de konsekvenser, som resultatet af en evalue-ring kan få, fx for grupper af samfundet, som omtales i rapporten (Mathison 2005).

Page 45: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

45

Evalueringsbegreber og metoder

KontekstualitetSe implementering og disseminering

Kontrafaktisk tilstandEn grundantagelse for effektmåling er, at en effekt af en indsats kan måles i for-hold til, hvad der var sket, hvis indsatsen ikke havde været der. I virkelighedens verden kan vi ikke gå tilbage i tiden og ændre præmisserne, så vi får mulighed for at se udfaldet på to forskellige præmisser. Derfor er man nødt til kunstigt at sandsynliggøre at man har genskabt noget, som svarer til den kontrafaktiske tilstand. Kontrolgruppen i en effektmåling repræsenterer den kontrafaktiske til-stand, dvs. den alternative hændelse. Man kan fx sammenholde de personer, som har modtaget et kursus med personer, som ikke har modtaget et kursus, hvis man med rimelighed kan antage, at de to grupper ligner hinanden. Dermed kan man antage, at forskellen mellem den faktiske hændelse repræsenteret ved testgrup-pen og den kontrafaktiske gruppe repræsenteret ved kontrolgruppen, er effekten af det givne kursus. Læs mere i Morgan & Winship 2007.

KontrolgruppeSe testgruppe og kontrolgruppe

KorrelationSe også kausalitet

Korrelation er statistisk samvariation. Det kan fx være, at antallet af kirurgiske operationsfejl er korreleret med hvornår på dagen operationen foregår, så der sker flere operationsfejl på de operationer, som foregår om natten end i dagsti-merne. Dette ville umiddelbart forekomme som en plausibel forklaring på at kirurgisk operation om natten medfører flere fejl, fordi kirurgerne måske er mere trætte. Korrelation er dog langt fra ensbetydende med, at der eksisterer et kausalforhold. Hvis man konstaterer en samvariation mellem operationsfejl og klokkeslet, så er det ikke i sig selv garanti for, at klokkeslettet forklarer operati-onsfejl. Det kunne også skyldes, at der er en forventning om, at nyuddannede kirurger tager mange aftenvagter, og at de nyuddannede laver flere fejl pga. et mindre erfaringsgrundlag. Et ofte anvendt eksempel som kan illustrere forskellen mellem korrelation og kausalitet er, at antallet af storke i Danmark over en årræk-ke samvarierer med antallet af børn for de samme år. De år, hvor der er mange storke, er der også mange børn. Her kunne man måske fristes til at konkludere, at det er storken, som kommer med børnene, og at dette forklarer samvariationen, men det forekommer åbenlyst, at dette ikke er tilfældet. Der er en samvariati-on, men sammenhængen er formentlig spuriøs, dvs. tilfældig. Korrelation er et kriterie for kausalitet. For at kausalitet kan være en mulighed, skal en korrelation være til stede, såfremt sammenhængen er lineær, men det omvendte er ikke tilfældet. Man kan ikke antage et kausalforhold, hvis en form for samvariation ikke er til stede, givet at forholdet er lineært. Eksemplet med storken kan ses som eksempel på dette, hvor der er en korrelation, men ikke et kausalt forhold. Læs mere i Morgan & Winship 2007 og statnoter.dk.

Page 46: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

46

Evalueringsbegreber og metoder

KorrespondanceanalyseMed korrespondanceanalyse kan man afdække afdække dimensioner, som forde-ler individer. Som udgangspunkt forsøger man at opnå fordeling på to dimen-sioner, hvorved man grafisk kan synliggøre grupperinger i et koordinatsystem. Analysen kan fx bruges til at synliggøre segmenters kendetegn.

Kriterier for synliggørelse af et kausalforholdDer eksisterer fire grundlæggende kriterier for synliggørelse af et kausalforhold. Alle forholdene, undtagen pkt. 4 er absolutte, dvs. at hvis forholdet ikke er til stede, så kan identificeringen af en kausal effekt ikke antages. I forhold til pkt. 4 kan man i nogle tilfælde acceptere kausalforhold, selvom der ikke kan identifice-res en meningsfuld forklaring på kausalforholdet. Eksempelvis kan der inden for hjerneforskning være begrænset indsigt i præcist hvorfor et medikament påvirker psyken.

1. En uafhængig variabel skal ligge forud for udfaldsvariabel i tid. Hvis man for-venter at et kursus har betydning for læring, så skal måling af læring foretages efter kurset.

2. De to forhold skal samvariere, men bemærk her, at samvariation kan se ud på mange måder og samvariation alene ikke er ensbetydende med en kausal sammenhæng (se under samvariation).

3. Der må ikke være confounders, dvs forstyrrende faktorer i relationen mellem A og B. Ofte er den bedste metode til at undgå confounders randomiserede, kontrollerede forsøg.

4. Kausalitetsforholdet skal hvile på en meningsfuld forklaring. Selvom studier fx har vist, at antal storke pr. år samvarierer med antal fødsler, så er forklarin-gen om, at det er storke som bringer børn til verden, rent mytologisk.

Kritisk hændelse, vendepunktEvalueringer kan være fokuserede omkring kritiske hændelser eller vendepunk-ter, dvs. tidspunkter, hvor mennesker radikalt ændrer adfærd eller forståelse af et emne ændres på baggrund af ny erkendelse.

Kumulerede dataSammenregnede data, såsom en fordeling i en krydstabel beregnet på baggrund af en spørgeskemaundersøgelse. Kumulerede data udtrykker et samlet billede, såsom en fordeling eller middelværdier, og viser således ikke de bagvedliggende data for hvert enkelt individ.

Kvalitativ og kvantitativ tilgangInden for evaluering skelner man mellem kvalitative og kvantitative metoder. Kvalitative og kvantitative data har meget væsensforskellig karakter, og analyser på kvalitative data er derfor også meget forskellige fra analyser på kvantitative data. Der kan sågar være stor forskel på, hvordan man mener, at data kan fortol-kes. Evaluatorer inden for det kvalitative område arbejder ofte ud fra konstruk-tivistiske/hermeneutiske tilgange, dvs. at man i dataindsamling og analyse har opmærksomheden rettet mod, at data generelt kan fortolkes på mange måder.

Page 47: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

47

Evalueringsbegreber og metoder

Evaluatorer inden for det kvantitative område arbejder ofte ud fra positivistiske tilgange, hvor man har opmærksomheden rettet mod at nå frem til det mest sande billede. Nogle evalueringer indeholder både kvalitative og kvantitative metoder, og kaldes i så fald mixed methods-evaluering.

Kvantitative tilgange beror simpelt sagt på at arbejde med tal og statistik. En kvantitativ analyse af trafikuheld kan fx bero på at indsamle data om antallet af trafikuheld, som på en given vejstrækning er 34 uheld pr. år. Når man betragter data kvantitativt, så tæller hver enkelt hændelse for det samme. Hvert trafikuheld tæller altså for én hændelse, når man når frem til, at det samlede antal er 34 pr. år.

En kvalitativ analyse af trafikuheld kunne tilsvarende bero på at vurdere bebo-ernes oplevelse af at bo ved en stærkt trafikeret vej. Hvis man interviewede 10 personer, ville det ikke tilsvarende give mening at lægge hver hændelse sammen, og sige at resultatet var ”10”. Her må man kvalitativt vurdere den samlede for-tælling fra beboerne gennem en analyse, som fx kan vise, at beboerne er stærkt bekymrede, er usikre på, hvad der kan gøres ved problemet osv, og nogle udsagn vil være mere interessante og sigende end andre. I kvalitativ metode tæller hvert individ derfor ikke lige meget.

Eksemplerne skal illustrere, hvordan der er evalueringstilgange, hvor det er berigende for evalueringen at tage det udgangspunkt, at der kan være mange fortolkninger, og andre tilgange, hvor det er mere berigende for evalueringen at finde frem til en forholdsvis nøgtern sandhed.

Resultatevaluering vil typisk fordre kvantitative tilgange, fordi man typisk er interesseret i at kende et omfang af noget. Man kan fx være interesseret i at finde ud af, hvor meget man mindsker antallet af genindlæggelser hos patienter ved at personale med patientkontakt får et kursus i håndhygiejne. Et kvantitativt studie kunne fx have som resultat, at antallet af genindlæggelser blev reduceret med 20 % efter indførelsen af kursus i håndhygiejne. Kvalitative tilgange kan her bidrage til at vise, hvorfor der sker en given forandring. Gennem interviews med kursi-ster, undervisere eller andre interessenter, kan man få indblik i oplevelserne af at deltage i kurset. Begge tilgange kan derfor udgøre værdifulde bidrag til evaluering af en given praksis. Læs mere i Hansen & Andersen 2000 og Ritchie et al 2013.

Kvalitative metoder og analysetilgangeListen er ikke udtømmende, men har fokus på de kvalitative metoder og analyse-tilgange, som finder størst anvendelse på evalueringsområdet. Listen er opstillet med en kort kolonne med forklaringstekst og kolonner, hvor det fremgår, om der er tale om en særlig metode og/eller et særligt analyseperspektiv. Når man fx gør brug af diskursanalyse, er der både tale om, at man anvender en særlig metode samt et særligt analyseperspektiv. Diskursanalytisk metode handler fx om at fin-de nodalpunkter, ækvivalens- og differenskæder m.m. i en tekst, hvor analyseper-spektivet er epistemologisk frem for ontologisk, dvs. at analysen har fokus på et synspunkt, som kommer til syne via fortolkning af teksten. Du kan læse mere om metoderne i bl.a. Andersen 2004, Hastrup 2003 og Ritchie et al 2003. En række metoder er illustreret i tabel 9 på næste side.

Page 48: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

48

Evalueringsbegreber og metoder

Tabel 9: Kvalitative metoder og analysetilgange

Metode Forklaring Særlig metode

Særligt analyse- perspektiv

Aktionsforskning/aktionsmetode

Dem man indsamler data om, har medind-flydelse på evalueringstilgang, herunder analyse

X X

Case-studie Fokus ligger på det unikke eksempel. Fx kan man udvælge et særligt kursus med en forventning om, at analyse af kurset også kan fortælle noget om andre kurser. Der skelnes mellem positivistisk og konstruktivi-stisk metode.

X

Deltagerobser-vation

Her indgår evaluatoren i den kontekst man ønsker at undersøge, fx ved at deltage på det kursus, man evaluerer.

X

Diskursanalyse Der er fokus på at afdække en fælles sproglig diskurs, fx afdækningen af klinikeres fælles forståelse af kompetenceudvikling.

X X

Fænomenologi Der er fokus på at afdække et fænomen, fx hvordan sygeplejersker arbejder med stresshåndtering.

X X

Grounded theory Induktiv tilgang, dvs. man forsøger at udvikle teori baseret på empiri. Inden for grounded theory taler man om at ”lade data tale for sig selv” frem for at styre analysen af teori eller hypoteser. Evaluering ligger generelt mere inden for det deduktive område.

X X

Hypotesedrevet/ konfirmatorisk analyse

En tilgang hvor man forsøger at afdække, om et teoretisk afsæt kan be- eller afkræf-tes gennem empiri, fx en teori om hvad kur-sister oplever som bidrag til styrket læring.

X

Komparativ analyse

Indeholder et sammenlignende aspekt, fx to kurser eller to grupper af kursister.

X

Longitudinel analyse

Data indsamles flere gange over tid. X

Narrativ analyse Fokus ligger på en eller flere udvalgte per-soners fortælling, fx en erfaringsfortælling fra en person, som har været underviser i mange år.

X X

Positivistisk analyse

Fokus ligger på observationer frem for perspektiver.

X X

Teoridrevet analyse

Undersøgelsesobjektet betragtes med et teoretisk afsæt, men ikke for at be- eller afkræfte teorien som ved konfirmatorisk analyse, men i stedet for at nuancere og synliggøre aspekter.

Teoridrevet analyse af kurser og uddan- nelser kan fx være baseret på uddannelses-forskning, pædagogik/didaktik, implemen-teringsteori eller emnespecifik teori indenfor undervisningsemnet.

X X

Page 49: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

49

Evalueringsbegreber og metoder

KvalitetskriterierEnhver evaluering har en række kvalitetskriterier, som kan gradbøjes i det uende-lige. Kvalitetskriterierne skal afvejes i forhold til de ressourcer, der er til rådighed eller de ressourcer, som det giver mening at anvende i forhold til evalueringens værdi. Derfor forklares her en række kvalitetskriterier, som man skal være op-mærksom på forud for en evaluering.

AnvendelighedEn evaluering kan være nok så præcis, men hvis ikke resultatet giver oplysninger, som gør det muligt at skabe et beslutningsgrundlag, så er evalueringen mindre værdifuld. Derfor er det uhyre vigtigt at gøre sig klart forud for en evaluering, hvad det er man ønsker at opnå svar på.

ValiditetValiditet handler om troværdighed eller gyldighed i forhold til om man måler det, som man antager at måle. Hvis man fx har en gammeldags fjederpåvirket ba-devægt, så er det muligt, at badevægten typisk lander omkring ”60 kg” på skalaen for en person, som reelt vejer 80 kg. Hvis det er tilfældet ville man sige, at bade-vægtens måling har lav validitet, fordi den gennemsnitligt viser en forkert værdi. Hvis man derimod generelt kan stole på de målinger, som badevægten viser, så ville man sige, at den har høj validitet. At sikre validitet i en måling er meget vigtigt, og i tilfældet med badevægten kunne det fx være at teste, om de resultater som badevægten viser, er stærkt korreleret med resultatet på en badevægt, som vi ved er præcis.

Validitet, intern og eksternNår man skal vurdere resultaterne af en evaluering, skelner man mellem ekstern og intern validitet. Ekstern validitet har at gøre med, hvor sandsynligt det er, at de givne resultater også gælder for den øvrige del af populationen, hvis dem man har indsamlet data for, er en stikprøve. Den interne validitet betegner validiteten for den udtrukne stikprøve og den eksterne validitet betegner, hvorvidt resultaterne for stikprøven også repræsenterer den population stikprøven er udtrukket fra.

Et aspekt af den kvantitative del kan bero på at teste, om fordelingen internt sva-rer til fordelingen i den øvrige population. Hvis man fx har oplysninger om køn og alder for stikprøven og den øvrige population, har man mulighed for at se, om der er skævheder mellem stikprøve og population. Den kvalitative del beror på at foretage en mere samlet vurdering af, om resultaterne kan forventes at repræsen-tere hele populationen. Evalueringer baseret på store spørgeskemaundersøgelser (n>1000) og/eller registerdata regnes typisk for at have stor ekstern validitet.

Intern validitet har at gøre med, hvor sandsynligt det er, at de givne resultater gælder for netop den stikprøve man har med at gøre. Hvis respondenterne fx kan have forstået spørgsmålene i et spørgeskema på flere måder, kan det være usikkert, hvordan man skal fortolke resultaterne, og i så fald vil man tale om lavere intern validitet. Et aspekt af den interne validitet kan testes med bortfalds-analyse, hvor man ser på, om der er skævheder mellem den stikprøve, der blev spurgt, og den andel som svarede. Intern validitet testes dog også med langt mere omfattende og komplekse metoder. Et andet aspekt af intern validitet er at teste resultaternes signifikans.

Hvis et datasæt indeholder bias i forhold til bortfald eller i forhold til den samlede population, kan datasættet vægtes. Dvs. at man statistisk tager højde for skævheden, og dermed minimerer den systematiske bias. For nærmere indfø-ring i validitets-begrebet se bl.a. Hansen & Hjorth Andersen 2000. For nærmere indføring i begreberne ekstern og intern validitet se Rothwell 2005. Tjekliste til minimering af bias kan findes i ROBINS-I 2016.

Page 50: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

50

Evalueringsbegreber og metoder

ReliabilitetValiditet ses ofte diskuteret i sammenhæng med reliabilitet, som handler om usikkerhed i målingens udsving. Reliabiliteten er afhængig af stikprøvestørrel-sen, dvs. at usikkerheden kan være forholdsvis stor, hvis stikprøvestørrelsen er lav. Hvis vi skal illustrere reliabilitet med før nævnte eksempel med en badevægt (se side 43), så ville en lav reliabilitet betyde, at der er store udsving mellem hver måling man foretager, dvs. at præcisionen er lavere. Hvis personen X stiller sig skiftevis på to badevægte 10 gange på hver vægt, og hver gang noterer resultatet, så kunne resultatet være følgende:

Tabel 10: reliabilitet illustreret med badevægt

Badevægt 1 Badevægt 2

Måling 1 71 kg 79 kg

Måling 2 89 kg 81 kg

Måling 3 86 kg 82 kg

Måling 4 71 kg 78 kg

Måling 5 85 kg 81 kg

Måling 6 84 kg 84 kg

Måling 7 76 kg 76 kg

Måling 8 90 kg 82 kg

Måling 9 75 kg 79 kg

Måling 10 73 kg 78 kg

Middelværdi 80 kg 80 kg

Varians 56,7 5,8

Eksemplet skal illustrere, at personens vægt er uændret, men at måleredskabets måling alligevel kan have en tendens til at variere. Som man ser i tabellen har målingerne for de to badevægte resulteret i samme middelværdi på 80 kg. Udsvingene på badevægt 1 er højere end for badevægt 2. Der er større afvigelser fra middelværdien for badevægt 1, end tilfældet er for badevægt 2. Dette ses ved den højere varians. Her ville man sige, at reliabiliteten er lavere for badevægt 1, end den er for badevægt 2. Derfor ville man foretrække badevægt 2, som er mere præcis i sin måling.

Hvis man ud fra eksemplet vidste, at badevægt 1 i gennemsnit ramte tættere på den rigtige værdi, end badevægt 2 gjorde, dvs. hvis badevægt 2 i gennemsnit landede omkring 90 kg for en person på 80 kg, så ville man dog foretrække at bruge badevægt 1, på trods af de kraftige udsving, hvis formålet var at beregne personens vægt. Her ville det stadig være muligt at opnå et korrekt estimat med badevægt 1, hvis man blot foretog flere målinger. Dette ville ikke være muligt med badevægt 2, som ville give indtryk af, at personen vejede 90 kg. Derfor er høj validitet som udgangspunkt vigtigere end høj reliabilitet. Tilsvarende forholder det sig med evaluering generelt, hvor man ofte vil have adskillige målinger, fordi der indgår mange individer. Læs mere i Agresti & Finlay 2007.

SignifikansSignifikans er en statistisk vurdering af, om et resultat er sikkert, fx om det er sandsynligt at fordelingen i en spørgeskemabaseret stikprøve er forskellig fra fordelingen i den samlede population eller om resultatet kan skyldes en tilfældig-hed. Hvis resultaterne af en analyse er insignifikante, så vil man normalt erklære dem ugyldige. Typisk arbejder man med et signifikansniveau på ρ=0,05 eller lavere (græsk symbol, ”rho”). Et signifikansniveau på ρ=0,05 vil for en given stati-stisk fordeling i en stikprøve fx betyde, at der er mindre end 5 % sandsynlighed for, at fordelingen er en anden i den samlede population. Et signifikansniveau på ρ=0,005 betragtes som højsignifikant. Læs mere i Agresti & Finlay 2007.

Page 51: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

51

Evalueringsbegreber og metoder

RessourcerKvaliteten af enhver form for evaluering må bero på en afvejning af ressourcer i forhold til det afkast, evalueringen forventes at afstedkomme. Her vil der altid være tale om et skøn, men ressourcen bør selvsagt ikke overstige det afkast, som man forventer, at evalueringen kan afstedkomme. Man bør både overveje, hvil-ken ressource evalueringen i sig selv koster, og hvilken ressource det vil kræve af respondenter og interviewpersoner i kraft af tabt arbejdstid. Evalueringen kan ses som en investering, hvor man som udgangspunkt forventer at afkast overstiger indskud, selvom afkastet selvsagt ikke behøver at være økonomisk.

Generelt anbefaler vi elektronisk spørgeskema frem for papirudgaver, blandt andet fordi elektronisk spørgeskema er langt mindre ressourcekrævende, og fordi nogle tekniske egenskaber giver mere valide data. Man kan også overveje, om evalueringen er mulig på baggrund af registerdata, så det ikke er nødvendigt at indsamle spørgeskemadata, og hvis man ønsker at indsamle spørgeskemadata, bør man overveje, om det er tilstrækkeligt at spørge en tilfældigt udvalgt stikprø-ve, frem for hele populationen, ligesom man bør overveje hvor mange spørgsmål, der er tilstrækkeligt.

KvasieksperimenterKvasieksperimenter er kendetegnet ved forsøg på at tilnærme sig den grundpræ-mis, som kendetegner det randomiserede kontrollerede forsøg. Et kvasieksperi-ment er en tilgang, hvor tildeling mellem test- og kontrolgruppe antages at være tilfældig, hvor sand eksperimentel metode med randomiserede, kontrollerede forsøg bygger på, at tildeling er reelt tilfældig. Instrument-metode, tvillinge-stu-dier og naturlige eksperimenter er eksempler på kvasieksperimentelle metoder. Når tildeling mellem test- og kontrolgruppe kan antages at være tilfældig, kan de to grupper antages at være sammenlignelige, så kontrolgruppen kan udgøre en kontrafaktisk tilstand. Læs mere i Agresti & Finlay 1997, Angrist & Pischke 2009, Cook 2007, Dougherty 2007, Heckman 1998, Hox 1995, Munk 2008 og Puhani & Weber 2005.

Lagkage/cirkeldiagramSe grafisk datapræsentation

Latent variabelNogle fænomener er nemme og nogle fænomener er svære at måle på. Et fæno-men som er forholdsvis nemt at måle på er fx en persons højde. Her kan man godt stille bare et enkelt spørgsmål, såsom ”Hvad er din højde målt i centimeter” og forvente, at de data man indsamler, nogenlunde rimeligt svarer til den sande værdi, altså hvor mange centimeter høj hver person er. Hvis en person fx har skrevet ”176 cm”, så virker det rimeligt at antage, at samme person også er 176 cm høj.

Der er dog mange fænomener i den sociale verden, som kan være svære at måle direkte, i modsætning til noget konkret såsom en persons højde. Mange fæno-mener har ikke en naturlig tilsvarende talværdi. Præcist sådan forholder det sig fx med et fænomen som ”kompetence”. Vi har intuitivt en fornemmelse af, at et kompetenceniveau kan være ”højt” eller ”lavt”, men det kan være svært at forkla-re, hvad der skal til, for at en persons kompetenceniveau er højt. Hvis en skala angiver kompetenceniveau, og en persons kompetenceniveau er angivet med niveauet ”4”, er det mere abstrakt end personhøjden 176 cm.

L

Page 52: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

52

Evalueringsbegreber og metoder

Man kan sige, at læring, såsom at vide meget om sygeplejerskefaget, ikke kan må-les direkte, fordi fænomenet består af mange delaspekter, fx psykologi, patient-pleje, kliniske metoder, sygdomslære, medicinering osv, og en lang række under-temaer. Derfor må man også tage udgangspunkt i, at man stiller flere spørgsmål, hvor hvert enkelt spørgsmål indfanger et delaspekt af et emne. Når man har at gøre med fænomener, som ikke kan måles direkte, så kalder man det en ”latent faktor”, dvs. at faktoren så at sige ”gemmer sig” i en kombination af flere variable. Se mere om latente variable i Agresti & Finlay 2007 og Bollen 2002.

LitteraturstudierEt litteraturstudie, også kaldet desk research, går ud på at afdække, hvad man ved inden for et givent emne. Et litteraturstudie kan fx være baseret på et eller flere af følgende formål illustreret i tabel 11:

Tabel 11: Eksempler på formål med litteraturstudier

Formål Eksempel

Hvad er effekten af et kursus? Kan evaluering af tilsvarende kurser fra andre regioner give en ide om den forven-tede effekt?

Hvilken viden er der om emnet i dansk og international kontekst?

Hvad ved vi om hvordan man arbejder med at vurdere ernæringstilstand i andre skandinaviske lande? Kan dette give os inspiration til, hvordan en kursusaktivitet skal udformes?

Hvordan skal interventionen, dvs. kurset eller uddannelsen udføres, hvis den skal være baseret på eksisterende dansk og international forskning, dvs. være evidens-baseret?

Hvad ved vi om best practice inden for vurdering af en patients ernæringstilstand?

Hvad bør vi måle på? Hvilke variable eller instrumenter har man målt uddannelsesaktiviteten på i andre undersøgelser?

Hvordan er emnet tidligere blevet under-søgt?

Hvis der tidligere kun er gennemført kvalita-tive undersøgelser af en type uddannelse, giver det så anledning til at måle effekten?

Hvilke metodiske udfordringer kan vi forvente at møde, når vi igangsætter evalueringen af kurset?

Kan eksisterende uddannelsesaktiviteter baseret på træning ved sengeleje forudsige, hvilke udfordringer der vil være ved et nyt kursus baseret på træning ved sengeleje?

Longitudinel analyseSe kvalitative metoder og analysetilgange

Longitudinale data, kohorter, paneldata og tidsseriedataNår man har at gøre med data, som har mere end ét nedslag i tid, fx uddannel-sesniveau pr. 1. januar 2013 og 1. januar 2014, kalder man det longitudinale data. Inden for longitudinale data skelner man blandt andet mellem paneldata

Page 53: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

53

Evalueringsbegreber og metoder

og tidsseriedata. Paneldata gør det muligt at følge personer over tid, hvilket ikke tilsvarende er tilfældet for tidsseriedata. I kohorte-studier følger man en kohorte, dvs. en gruppe, som er udtrukket på baggrund af fælles karakteristika, fx samme fødselsår eller samme ansættelsestidspunkt. Hvis man har paneldata, hvor man ser på uddannelsesniveau i 2013 og 2014, så vil man for hver person have data for personens uddannelsesniveau i både 2013 og 2014. Hvis man anvender tidsserie-data, vil man have et uddannelsesniveau for en række personer i 2013 og 2014, men uden at alle individer fra 2013 nødvendigvis også indgår i målingen for 2014. Dette kan fx være fordi man har anvendt spørgeskemadata indsamlet via pop-up på en hjemmeside og ikke har bedt om CPR-nummer, navn eller BAM-ID, så man har en række anonyme besvarelser. Hvis man anvender tidsseriedata frem for lon-gitudinale data, er der derfor en potentiel risiko for, at den udvikling man ser fra første til anden måling skyldes, at det er en anden gruppe man måler på, frem for at det er fordi gruppen har udviklet sig. I effektmålingssammenhænge foretræk-ker man derfor longitudinale data frem for tidsseriedata. Læs mere i Agresti & Finlay 1997, Beck & Katz 1995, Dougherty 2007 og Angrist & Pischke 2009.

Læringskurve og glemmekurveEn læringskurve betegner den udvikling over tid hvormed læring opnås, hvis man måler læring som en mængde afhængig af træning over tid. Ideen om læring forstået som en kurvelineær udvikling er udviklet og empirisk efterprøvet af psy-kologen Hermann Ebbinghaus (1885). Ebbinghaus forskning viser, at hvis man øver et bestemt emne kontinuerligt over tid, så vil en persons viden om emnet stige indtil et givent maksimum inden for emnet, dvs. der hvor man har opnået den maksimale viden. Her vil læringskurven kunne modelleres matematisk, dvs. at kurven kan være fx eksponentiel eller sigmoid (s-formet). Denne forståelse kan fx bruges i forbindelse med læring som kursister oplever svær, fx hvis emnet er uden for kursisternes primære fagområde, hvorved kontinuert øvelse kan være nødvendig. Tilsvarende har Ebbinghaus også beskæftiget sig med at afdække glemmekurver, dvs. aftagelsen af viden over tid efter man har opnået viden. Forskningen illustrerer hvordan mennesker ikke blot lagrer viden i hjernen til et givent tidspunkt, hvor vi har brug for den, men at viden glemmes over tid. For nogle læringsaktiviteter kan det derfor være relevant at evaluere på fastholdelsen af læringen, simpelthen ved at anvende flere målinger af læring over tid, hvis det er vigtigt at kursister fastholder læringen. Forskning viser også, at fastholdelse af læring over tid kan styrkes ved opfølgende kurser (Hattie 2010).

Løbende dataindsamling og løbende afrapporteringEn afrapportering af data kan foregå på basis af løbende dataindsamling, og afrapporteringen kan tilsvarende ske løbende. Hvis man evaluerer noget, som foregår løbende, fx et kursus i Kursusportalen, som bliver udbudt over mange år, er det almindeligt at man analyserer data deskriptivt, dvs. at man forholdsvis nøgternt afrapporterer data og beskriver hvad data viser. Løbende dataindsamling med løbende afrapportering er sjældent baseret på dybdegående analyser og har typisk mere til hensigt at give et overfladisk indblik. Denne type afrapporteringer kan ikke betragtes som effektmåling, da der ikke indgår vurdering.

Page 54: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

54

Evalueringsbegreber og metoder

M Machine learningMachine learning dækker over en lang række statistiske metoder, som blandt andet kan have relevans i forhold til evaluering. En lineær regressionsmodels residual fit, hvor en computer beregner hvilken linje, der bedst beskriver sam-menhængen mellem to variable, kan betragtes som forholdsvis simpel machine learning. Ofte forstår man dog ved machine learning modeller så komplekse, at det er svært at redegøre for, præcist hvordan beregningen af et resultat foregår.

MatriceEn matrice er en tabel af elementer, dvs. tal eller tekst. Kvantitative analyser be-ror som udgangspunkt på data opstillet i en matrice, dvs. en tabel med en række karakteristika for hvert individ. De fleste matricer indeholder to dimensioner: individ og karakteriatika. Matricer til paneldata indeholder tre dimensioner: individ, karakteristika og tid. Karakteristika kan fx omfatte køn, alder, faggruppe og respondentens kommentarer til et åbent spørgsmål. Hvis matricen indeholder oprindelige data fra en spørgeskemaundersøgelse eller et udtræk af registerdata, kaldes disse data ”rådata”. Kumulerede data, fx en tabel over fordeling af faggrup-per, kan beregnes på baggrund af matricens data.

Eksempel på matrice med rådata:

Respondent Spg 1: Arbejder du med evaluering?

Inger Ja

Theresa Ja

Vera Nej

Dorte Ja

Niels Nej

Emilie Nej

Ja Nej

Svarfordeling, spg 1 3 3

MatrixsamplingVed evalueringsprojekter hvor hvert individ skal levere store mængder data, fx ved at svare på et meget stort antal spørgsmål, kan et alternativ være matrix sampling, hvor forskellige undergrupper efter tilfældig tildeling besvarer udvalg-te spørgsmål. Metoden skal anvendes med varsomhed, idet den kan introducere rækkefølgebias.

MedianSe centrale værdier

Page 55: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

55

Evalueringsbegreber og metoder

MekanismerVed identifikation af mekanismer har man fokus på, hvordan en forandring sker, frem for hvor meget forandring der sker. Denne tilgang fordrer typisk indsamling af kvalitativ empiri, fx via interviews og feltobservation, både hos deltagere, un-dervisere og andre involverede. Sammen med denne evalueringstilgang kan man have en effekt måling, som fortæller hvad effekten af et kursus er, hvor identifi-kation af mekanismer forklarer, hvorfor man ser en effekt. Effektmålingen kan fx identificere, at der sker 5 % færre utilsigtede hændelser efter en opkvalificering af personalet. Identifikation af mekanismer vil i så fald kunne fortælle noget om de mekanismer i kursusdeltagelsen, som får forandringen til at ske. Hvis formålet fx er at uddanne i livreddende førstehjælp, så kan man med observation og interviews se, hvor kursisterne har svært ved at foretage manøvrerne korrekt og derved identificere de mekanismer, der fører til, at man lærer eller ikke lærer kompetencen korrekt.

Når man skal se på processerne i en opbygning af viden, fordrer det i høj grad kvalitative perspektiver, såsom feltobservation. CAMES Herlev anvender ofte observationsstudier, når læringsprocessen i et simuleret operationsforløb skal vurderes. Hvorvidt en person er i stand til at anvende en kompetence kan siges at være det sidste og mest komplekse niveau på Kirkpatricks evalueringstrappe (se under Kirkpatricks trappemodel). Læs mere i Buch-Hansen & Nielsen 2008.

MeningskategoriseringI et kvalitativt tekstmateriale kan meningskategorisering anvendes til at skabe overblik ved at man gennemgår materialet og sætter symboler, fx ”+” og ”-” hvis man skal identificere, hvor der tales for og imod et emne, eller man kan sætte tal, hvor hvert tal repræsenterer et emne (Kvale 1994).

MeningskondenseringMeningskondensering dækker over det analytiske arbejde, der ligger i at reducere et kvalitativt tekstmateriale fra interviews til en underliggende mening. Formålet er at reducere tekstmængden for at skabe overblik (Kvale 1994).

Metastudier og systematiske reviewsEt metastudie har til hensigt at samle viden på tværs af flere undersøgelser, dvs. at metastudier er studier af primærstudier, hvor primærstudier er studier, som præsenterer nye resultater. Hvis tre forskellige primærstudier fx konkluderer en effekt af en særlig type hjerteoperation målt ved sandsynligheden for overlevelse, så kan et metastudie være baseret på estimering af effekten, som hviler på den viden, som er opnået i de tre primærstudier. Metastudier og reviews adskiller sig dermed fra primærstudier ved at de ikke præsenterer ny viden, men i stedet samler eksisterende viden.

Systematiske reviews er en særlig type metastudie, som har til formål at samle flere effektmålinger. Denne type undersøgelse betragtes derfor som en tilgang med høj ekstern validitet. Trods randomiserede kontrollerede forsøg har høj in-tern validitet, betragtes de også som en tilgang med lavere ekstern validitet, fordi de gennemføres med forholdsvis små populationer. Når man samler viden på tværs af flere effektmålinger baseret på randomiserede kontrollerede forsøg, kan man derfor sikre både høj intern og ekstern validitet. Det systematiske reviews

Page 56: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

56

Evalueringsbegreber og metoder

svaghed ligger primært i, om de omfattede studier repræsenterer den samlede viden. Metastudier kan derfor skævvrides af publicerings-bias, fordi effektmålin-ger med insignifikante resultater fx ikke altid publiceres. Læs mere i Centre for Reviews and Dissemination 2009 og Petticrew et al. 2006.

MetodepluralismeSe også evidenshierarki

Ved metodepluralisme forstås en tilgang til evaluering, hvor man vælger metode afhængigt af hvad man ønsker at undersøge, fordi udgangspunktet er, at alle metoder har deres styrker og svagheder.

MetodeudviklingMetodeudvikling handler om at udvikle en metode til at afdække et evaluerings-spørgsmål. Begrebet finder primært anvendelse inden for kvalitativ evaluering.

MiddelværdiSe centrale værdier

MinimiseringMinimisering er en tilgang til opdeling i grupper, fx test- og kontrolgruppe, hvor man forsøger at sikre ligelig fordeling i forhold til en række variable, fx køn og al-der, så test- og kontrolgruppe får samme fordeling af køn og alder. Randomisering med stratificeret sampling bør anvendes frem for minimisering, idet minimise-ring ikke sikrer en sand statistisk ensartethed mellem grupperne.

Mixed methodsMixed methods evaluering er kendetegnet ved, at man anvender flere metoder. Typisk er mixed methods tilgange kendetegnet ved at omfatte en kombination af kvalitativ og kvantitativ metode. Kombinationen af kvalitativ og kvantitativ metode kan fx handle om, at man både får beskrevet effekten af en uddannel-se med kvantitativ metode og samtidig kursisternes oplevelser af virksomme mekanismer, dvs. hvad der gav læring, afdækket med kvalitativ metode. Dette er et konvergent parallel-design, hvor antagelsen er, at metoderne bidrager til et fælles stærkere perspektiv. Mixed methods kan også være baseret på sekventielt design, dvs. at metoderne kommer efter hinanden, fordi resultatet af en metode har betydning for udformningen af den efterfølgende metode. Sekventielt design kan blandt andet bruges til, at man først med kvalitativ metode afdækker hvilke temaer, der er relevante for kursisterne at evaluere på, og efterfølgende anvender den kvalitativt baserede viden til at afdække omfang af disse temaer med en kvantitativ evaluering.

ModusSe centrale værdier

Page 57: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

57

Evalueringsbegreber og metoder

Multicenter evalueringI en multicenter evalueringstudie indgår flere organisatorisk eller geografisk adskilte lokationer, fx uddannelsessteder, i en samlet vurdering af fx effekten af en uddannelse, som udbydes alle disse steder.

MultikollinearitetMultikollinearitet er et begreb, der knytter sig til arbejdet med regressionsanaly-se. Stor korrelation mellem de enkelte forklarende variable i regressionsmodellen betyder at modellens forklaringskraft fejlestimeres, og derfor bør man kontrolle-re sammenhængen mellem de enkelte forklarende variable, når man opstiller en regressionsmodel. Dette fænomen betegnes multikollinearitet (Belsley 1991).

Multilevel-modellerDenne tilgang egner sig specielt til identifikation af effekter på makro-niveau/strukturelt niveau, fx om institutions-specifikke forhold har betydning, om der er målbare effektforskelle mellem hospitaler m.m. Metoden kræver data på individniveau og strukturelt niveau. Man kan fx være interesseret i at se på, om omfanget af infektioner varierer mellem hospitaler på baggrund af en antagelse om, at nogle hospitaler har brugt særligt mange ressourcer på at skabe en kultur omkring håndhygiejne. Her kan multilevel-modeller anvendes til at identificere, om der er strukturelle forskelle mellem hospitalerne.

Multitrait multimethod analyseMultitrait multimethod analyse (MMA) anvendes inden for psykometriske tests som udtryk for construct validitet (Campbell & Fiske 1959). Ved MMA testes to kundskaber, hvor begge kundskaber testes med to metoder, såsom sproglige og matematiske kundskaber testet med henholdsvis multiple choice spørgsmål og åbne spørgsmål. Efterfølgende testes korrelation mellem kundskaber og metode, hvor høj validitet tilskrives, hvis korrelation mellem kundskaber er høj og korre-lation mellem metoder er lav.

MørketalMørketal er ukendte tal. Mørketal kan fx skyldes at respondenter ikke er villige til at berette om fænomenet de bliver spurgt til, eller at respondenter er svære at opnå kontakt til. Hvis man fx skal estimere omfanget af stofmisbrug i Danmark må man forvente mørketal, fordi man ikke kan forvente, at alle stofmisbrugere nøje redegør for omfanget af stofbrug. I sundhedssektoren kan der tilsvarende være mørketal i estimeringen af utilsigtede hændelser.

NarrativNarrativer er en central del af mange kvalitative analyser. Narrativet udgør en fortælling, som en eller flere informant giver, fx fortællingen om vedkommendes arbejde, et sted eller en hændelse. Narrativet er ikke et eviggyldigt vidne om in-formantens generelle synspunkt, men kan afhænge af kontekst og tid. Inden for nogle typer af kvalitative analyser får narrativet en central rolle, fx i forbindelse med livshistorier, case-metode og use-cases.

N

Page 58: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

58

Evalueringsbegreber og metoder

Narrativ analyseSe kvalitative metoder og analysetilgange

Naturlige eksperimenterHer udnytter man, at en ekstern faktor har påvirket, at to grupper får forskellig treatment. Naturlige eksperimenter minder om kontrollerede forsøg, men er ba-seret på, at interventionen er sket uden at man som evaluator har haft indflydelse på det. En grundantagelse for det naturlige eksperiment er, at selektion mellem test- og kontrolgruppe er tilfældig.

NetværksanalyseHvor kvantitative analyser typisk beskæftiger sig med et individ- og et struktur/makro-niveau, har netværksanalyser fokus på bindeleddene mellem individerne frem for individerne selv. Analysetypen kræver, at man har data som fortæller om forbindelser, fx hvem der har deltaget på kursus sammen, så man kan synliggøre et netværk. Læs mere i Freeman 2004 og Otte & Rousseau 2002.

NormalfordelingEn normalfordeling er en klokkeformet kurve, som fordeler sig symmetrisk på hver side af toppunktet. Normalfordelingen har altid et areal med værdien 1 under kurven. Toppunktet angiver fordelingens middelværdi. Ved høj varians har kurven et højt toppunkt og ved lav varians ligger toppunktet lavere. Nogle statistiske tests hviler på den antagelse, at fejlleddet er normalfordelt, og derfor er normalfordelingen væsentlig for statistisk baseret evaluering, da den så at sige modellerer usikkerheden ved statistiske resultater. En normalfordeling er illustre-ret i figur 10 nedenfor.

Toppunkt

Figur 11: normalfordeling

ObservationsstudierVed observationsstudier forstås evalueringstilgange, hvor evaluatoren ikke har indflydelse på de personer, der observeres. Observationsstudier er dermed mod-sætning til interventionsstudier som fx randomiserede, kontrollerede forsøg, hvor evaluatoren opdeler i en test- og kontrolgruppe med henblik på, at deltagerne skal udføre en praksis afhængigt af, hvilken gruppe de er i. Læs mere om distink-tionen mellem interventionsstudier og observationsstudier i Gerber 2003.

O

Page 59: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

59

Evalueringsbegreber og metoder

Oplevelser versus fakta/”fakta”Se socialkonstruktivisme

Når man gennemfører evaluering, skal man være opmærksom på, at der kan være enorm forskel på, hvad verden er, og hvordan vi oplever verden. Et banalt eksem-pel er følgende udtalelse:

”Vore dages ungdom elsker luksus. Den har dårlige manerer, foragter autoritet, har ingen respekt for ældre mennesker og snakker når den skulle arbejde. De unge rejser sig ikke længere op, når ældre kommer ind i et værelse. Den modsiger sine forældre, skryder i selskaber, sluger desserten ved spisebordet, lægger benene over kors og tyranniserer lærerne”.Udtalelsen har tilsyneladende til hensigt at beskrive, hvad der kendetegner ”vore dages ungdom”, og umiddelbart kan beskrivelsen måske vække genkendelse hos den ældre generation, men citatet skulle efter sigende stamme fra Sokrates, som levede ca. 469 – 399 før vor tidsregning. Når man sammenholder udtalelsen med afsenderen og ens egen oplevelse af nutiden, vil man hurtigt få den tanke, at udsagnet måske alligevel ikke nødvendigvis betegner en sandhed. Konteksten afslører, at synspunktet måske blot er et synspunkt, og illustrerer dermed, at der er forskel på hvad verden er og hvordan vi oplever den. Måske har ungdommen enten altid været lidt ”uregerlige”, frem for at det blot er noget, der kendetegner lige netop denne generation, eller måske er det bare ofte tilfældet, at man som voksen oplever de unge som uregerlige. På den måde fortæller udsagnet måske knap så meget om ungdomsgenerationen og mere om oplevelsen, og illustrerer derved, at vores umiddelbare betragtninger ikke nødvendigvis dækker over objek-tive sandheder.

Tilsvarende forholder det sig, når man gennemfører evaluering. Her skal man være meget opmærksom på, at det at en kursist har sat kryds ved at det pågælden-de kursus var ”godt” eller ”dårligt”, ikke nødvendigvis betyder, at det pågældende kursus var ”godt” eller ”dårligt”, og således er det solidt videnskabeligt underbyg-get, at der ikke er sammenhæng mellem studerendes oplevede undervisnings-kvalitet og deres læring (Uttl et al 2017). Vurderingen er udtryk for et bestemt perspektiv. Ikke desto mindre kan oplevelsen være af stor betydning, uanset at oplevelsen ikke nødvendigvis fortæller, hvordan noget er. Kvalitative undersø-gelser tager ofte mere udgangspunkt i subjektet og oplevelsen, hvor kvantitative undersøgelser mere tager udgangspunkt i det objektive/det konkrete. Begge dele skal betragtes med forbehold, og begge tilgange har fordele og ulemper i forhold til undersøgelsesspørgsmål.

For nærmere indførelse i forståelsen af oplevelse versus fakta læs fx om positivis-me og konstruktivisme i Andersen 2004, Hansen & Andersen 2000 og Jacobsen et al. 2012.

OpskaleringSe implementering og disseminering

OutlierEn outlier er en talværdi, som afviger væsentligt fra fordelingen i øvrigt, og som man af den grund kan overveje at tage ud, fordi værdien antages at være en fejl i data. Hvis man har en variabel, som beskriver respondentens fødselsår, og en respondent har angivet værdien ”500”, så kan det fx forekomme rimeligt at antage, at værdien er en outlier. Outliers kan identificeres enten som logiske

Page 60: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

60

Evalueringsbegreber og metoder

betragtninger, såsom at der næppe er respondenter født i år 500, eller de kan identificeres statistisk fx ved at definere outliers som alle værdier som er mere end to standardafvigelser fra fordelingens middelværdi.

Over- og underestimeringI en analyse kan et resultat over- eller underestimeres, dvs. at resultatet fejlesti-meres enten for højt eller for lavt. Ved overestimering forstås, at det resultat man er nået frem til ligger højere end den sande værdi. Man kan fx pga. usikkerhed i de anvendte data nå frem til, at effekten af et kursus er d = 0,2 (et statistisk ef-fektmål), hvor den reelle effekt er 0,1, dvs. stadig en positiv effekt, blot lavere end estimeret. I så fald er der tale om en overestimeret effekt, og tilsvarende omvendt med underestimering, hvis estimatet er lavere end den sande værdi. Man kan skelne mellem kendt og ukendt fejlestimat, hvor et kendt fejlestimat fx kan skyl-des, at man har kendskab til fejl i data. For eksempel vil tilfældig støj/usikkerhed i målingen typisk føre til underestimering af en effekt.

ParadataParadata er data i en spørgeskemaundersøgelse, som beskriver hvordan data blev indsamlet, fx dato, tidspunkt, modus (fx papir eller elektronisk), svartid, antal henvendelser m.m. Metadata omfatter data der beskriver respondenterne (navn, mail, alder, køn m.m.) samt paradata, dvs. at metadata er alle de informationer fra spørgeskemaundersøgelsen, som ikke er respondenternes svar.

ParaevalueringBegrebet paraevaluering er et begreb, som introduceres af denne bogs forfatter. Det er inspireret af begrebet paraetnografi (Kongsgaard & Rod 2018) som igen er inspireret af begrebet paramedicin. Paramedicin5 beskriver medicinsk arbejde udført af nogen, som har en basal uddannelse i medicin, men som ikke på samme måde som en læge, har en længere specialiseret uddannelse. Paraevaluering skal ikke forstås som en formaliseret adskillelse fra professionel evaluering, men mere et begreb, som hjælper til at fornemme, at evaluering foregår på flere niveauer. Paraevaluatoren har kompetencerne til at gennemføre basale, simple evaluerin-ger, såsom en simpel deskriptiv spørgeskemaundersøgelse eller et fokusgruppein-terview med semistruktureret interviewguide og meningskondenserende analyse. Paraevaluatoren mestrer samtidig fornemmelsen for, hvornår det er nødvendigt at inddrage den professionelle evaluator med en uddannelse (såsom samfundsvi-denskabelig). Pointen med at introducere begrebet er, at evaluering efterhånden ofte gennemføres af evaluatorer uden stort kendskab til evaluering, hvor det derfor er vigtigt at kunne fornemme, hvornår der er behov for at inddrage en professionel evaluator.

Parametriske og nonparametriske modellerVed parametrisk statistik forstås ofte interval og ratiofordelinger, som kan antage en middelværdi og varians modsat nominale og ordinale fordelinger, som kaldes nonparametriske. Ved parametriske modeller forstås ofte modeller baseret på a priori modelstruktur, såsom antagelsen af en normalfordeling med en given middelværdi og varians. Ved nonparametriske modeller forstås det modsatte, dvs.

P

5 Para er et præfiks som kommer af græsk og kan oversættes til alternativ eller supplement.

Page 61: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

61

Evalueringsbegreber og metoder

fordelinger, som findes a posteriori med modelfit. Et eksempel på en parametrisk model er fx en simpel lineær regressionsmodel og machine learning modeller så-som bayesianske additive regression trees er nonparametriske. Begreberne para-metrisk og nonparametrisk ses dog af og til anvendt med varierende definitioner.

PilotundersøgelseHvis man anvender evaluering baseret på spørgeskemadata, vil man som udgangspunkt starte med en pilotundersøgelse, dvs. en generalprøve i mindre målestok. I pilotundersøgelsen kan man fx bede respondenterne om at angive, hvordan de forstod spørgsmålene. Ved at gennemføre et pilot-studie bliver man klogere på, hvad man kan forvente at finde i det efterfølgende større studie, og man bliver klogere på, om design, spørgsmålsformuleringer m.m. er hensigts-mæssigt, før man gennemfører evalueringen i fuld målestok. Læs mere i Thabane et al. 2009.

Population, totalpopulation og stikprøvePopulationen betegner den samlede mængde af individer, som man i en given evaluering beskæftiger sig med. Man kan enten beskæftige sig med en stikprøve, dvs. et udtræk af populationen, eller totalpopulationen, dvs. inddrage data for alle personer. Totalpopulationen kan fx være ”alle personer, som i år 2015 er ansat som sygeplejersker i Region H”. Nogle gange vil man udvælge en mindre andel af populationen som stikprøve, når man evaluerer. I stikprøven indsamler man data, fx spørgeskemadata, og såfremt stikprøven er repræsentativ, kan man efterfølgende antage, at data for stikprøven repræsenterer den samlede popula-tion. Se mere om population, stikprøve og repræsentativitet i Hansen & Hjorth Andersen 2000.

Positivistisk analyseSe kvalitative metoder og analysetilgange

Pre-post studierVed pre-post evaluering forstås målinger, hvor man foretager før- og eftermåling for hvert individ for at sikre, at man måler en relativ udvikling. Hvis man fx alene foretager en eftermåling af læring, så ved man ikke, om personen besad samme læring før gennemførsel af uddannelsen. Pre-post måling sikrer ikke identifikati-on af kausal effekt. Læs mere i Beck & Katz 1995 og Harris et al 2006.

ProcesevalueringProcesevaluering er et design med fokus på processen, fx læringsprocessen i et kursusforløb. Tilgangen kan fordre, at man inddrager både kvalitative og kvanti-tative data. Fokus er på i hvilke processer der sker forandringer, frem for effekt-målinger, hvor man ser på i hvilket omfang der er sket en forandring. Procese-valuering kan delvist minde om at afdække mekanismer (se ovenfor), men har ofte været baseret på både kvantitative og kvalitative data. Læs mere i Danmarks Evalueringsinstitut 2009 og Ritchie et al. 2015 og Keane 2009.

Page 62: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

62

Evalueringsbegreber og metoder

Prospektiv vs retrospektiv dataindsamlingSom udgangspunkt er det mest hensigtsmæssigt at træffe beslutning om evalue-ring før en given praksis igangsættes. Hvis man først træffer beslutningen efter en given praksis, såsom et kursus i i kursussystemet Kursusportalen, så er det ikke sikkert, at man har mulighed for at indsamle de data, som er nødvendige for at gennemføre god evaluering. Det vil fx være svært at finde ud af, hvilket vidensni-veau kursisterne havde før deltagelsen, hvis man først beslutter evaluering efter kursets afslutning.

Prospektiv vs retrospektiv dataindsamling handler om, hvorvidt man indsamler data fremadrettet eller bagudrettet. Med bagudrettet (retrospektiv) dataind-samling vil man være begrænset til at anvende i forvejen eksisterende data. Retrospektive dataindsamlinger er derfor typisk baseret på registerdata, som indsamles løbende eller på udtræk fra eksisterende spørgeskemaundersøgelser. Med retrospektiv dataindsamling kan det lade sig gøre at gå så langt tilbage som de tilgængelige data tillader. Dette kan sagtens være flere år, mens man med nye spørgeskemaer, man konstruerer til evalueringen, ikke kan forvente, at respon-denten kan svare på forhold, som går flere år tilbage. De kliniske databaser og registre hos Danmarks Statistik er eksempler på registerdata.

Med prospektiv evaluering indsamles data efter igangsættelse af evalueringen, fx med udsendelse af spørgeskema eller gennemførelse af interviews. Prospektiv dataindsamling kan også være nødvendig, hvis man har planlagt et kursus, hvor man endnu ikke kender kursisterne, og disse vil komme til løbende, fx hvis kur-set er henvendt alle nyansatte. Prospektiv evaluering har sin styrke i, at man ikke er begrænset til at analysere inden for de temaer, der findes data for. Hvorvidt man bør anvende prospektiv eller retrospektiv dataindsamling beror derfor på en afvejning af fordele og ulemper ved disse metoder. Læs mere i Euser et al 2009.

Propensity score matchingPropensity score matching er en komparativ metode, hvor man statistisk forsøger at opnå sammenlignelige grupper baseret på udtræk fra grupper som ellers ikke er sammenlignelige. Indenfor effektmåling er en grundlæggende forudsætning, at man har mulighed for at måle på en testgruppe og en sammenlignelig kontrol-gruppe (Rosenbaum & Rubin 1983). Ved propensity score matching (PSM) tildeles hvert individ en propensity score, dvs. et tal beregnet som en prediktor for testens udfald. Efterfølgende udvælger man til test- og kontrolgruppe alene de individer, som ligner andre individer. Ved ”1 til 1 match” er det fx baseret på, at en person har nøjagtig samme uddannelse, alder, køn m.m. som et andet individ. Når man efterfølgende sammenligner test- og kontrolgruppe er det antagelsen, at man til-nærmelsesvist har sammenlignelige grupper. Metoden kan delvist, men ikke helt, fjerne confounders, dvs. variable, som kan skævvride målingen, og PSM betragtes derfor ikke som en stærk estimator af kausale sammenhænge, trods PSM giver et stærkere estimat end rent deskriptiv sammenligning. Muligheden for at matche vil afhænge væsentligt af, om man har data for relevante confounders.

ProtokolEn protokol er en redegørelse for forskningsdesign, som offentliggøres forud for evaluering, som skal synliggøre for andre, hvad formålet med evalueringen er. Læs mere i CONSORT 2010. Anvendelse af protokol er ikke et krav ved evaluering som det er ved klinisk forskning.

Page 63: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

63

Evalueringsbegreber og metoder

ProxyEn proxy er et mål, som tilnærmelsesvist kan tages som udtryk for noget andet. Proxyen anvendes som erstatning for oplysninger, som man har dårlig adgang til. Hvis man fx er interesseret i at måle stress-niveau, som kan være svært at måle direkte med høj validitet, anvender man fx ofte spyt-prøver. På baggrund af spyt-prøven kan man måle kortisol-niveauet, hvor et højt niveau fortæller, at personen er stresset, og et lavt niveau fortæller, at personen er mindre stresset. Mængden af kortisol i blodet er ikke det samme som mængden af kroppens stress, men fortæller noget om stressniveauet, fordi stress påvirker mængden af kortisol. Selvom stress og kortisol ikke er det samme, så er kortisol nemmere at måle end stress i sig selv, og kortisol kan derfor anvendes som en proxy for stress. Læs mere i Dougherty 2007.

PrædiktionSe også ekstern og intern validitet

Effektmåling og statistik handler i bred udstrækning om forudsigelse. Resultater-ne af en evaluering anvendes ofte til at sige, at resultaterne med en vis sandsyn-lighed også gælder den øvrige population, fx SOSU-assistenter på andre årgange, i andre regioner osv. Læs mere i Agresti & Finlay 2007.

PseudonymiseringI en spørgeskemaundersøgelse kan parametre, som identificerer respondenten, såsom CPR-nr. og navn, erstattes med en anonym kode, et juridisk og etisk hen-syn, hvor respondentens navn fx ikke er relevant for analysen. I et andet særskilt data-ark står den anonyme kode sammen med CPR-nr og navn, så kun evaluato-ren ved hvilke personer, der har givet hvilke svar. Dette kaldes pseudonymisering i modsætning til anonymisering, hvor hverken evaluator eller nogen andre kan se, hvem der har givet hvilke svar. Ved pseudonymisering forstås i denne sam-menhæng, at enkelte direkte identificerende parametre erstattes med pseudony-mer, dvs. koder, som vil være unikke identifikatorer. For eksempel kan person-nummer erstattes af en kode, som kan genfindes på en separat liste, hvor man kan se koblingen mellem personnummeret og koden. Pseudonymisering gør det modsat anonymiserede oplysninger muligt stadig at kunne koble oplysningerne med andre oplysninger om personen, f.eks. opfølgningsdata eller oplysninger fra nationale registre i forbindelse med forskning. Pseudonymiserede oplysninger er i modsætning til anonymiserede oplysninger omfattet af Persondataloven. Du kan læse mere herom på https://www.datatilsynet.dk/offentlig/anonymisering/.

P-værdiEn p-værdi (fra engelsk, p for probability) er udtryk for sandsynligheden for et givent resultat. p-værdien beregnes forskelligt, afhængigt af hvilken test sandsyn-ligheden beregnes for. Hvis p-værdien er inden for signifikansniveauets acceptere-de område, siges resultatet af testen at være ”signifikant”. Afhængigt af hvad man tester, skal p-værdien være enten over eller under signifikansniveauet. Se mere om p-værdier i Agresti & Finlay 2007.

Page 64: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

64

Evalueringsbegreber og metoder

R Random effectsSe fixed og random effects

RandomiseringRandomisering betyder, at tildeling til test- og kontrolgruppe sker tilfældigt, hvilket tilnærmelsesvist svarer til at hver potentiel deltager får et lod, hvor lodderne lægges i en pose, rystes, og hvor nogle lodder herefter udtrækkes. Ved tilfældig tildeling hvor 200 personer opdeles i to grupper med 100 personer i hver gruppe, vil grupperne med stor sandsynlighed have stort set ens fordeling af alder, kompetence, anciennitet, køn m.m. Man vil med stor rimelighed kunne antage, at de to grupper i gennemsnit ligner hinanden på både kendte og ukendte faktorer. Når man efterfølgende tester forskellen i viden mellem de to grupper, kan man med stor rimelighed antage, at vidensforskellen skyldes uddannelsen og ikke andre faktorer. Jo mere forskellige de to grupper er, jo mindre rimelig er denne antagelse. I evalueringssammenhænge sker randomisering optimalt set på computerbaseret beregning. Eksemplet i tabel 12 illustrerer hvordan en gruppe bestående af otte personer er blevet tildelt enten test eller kontrolgruppe på baggrund af randomisering. Læs mere i Nielsen et al. 2008 og Maldonado & Greenland 2002.

Tabel 12: eksempel på randomisering

Testgruppe Kontrolgruppe

Person 1 X

Person 2 X

Person 3 X

Person 4 X

Person 5 X

Person 6 X

Person 7 X

Person 8 X

Randomiseret kontrolleret forsøg, RCTDet randomiserede kontrollerede forsøg er kendetegnet ved at tildeling mellem test og kontrolgruppe sker efter et tilfældighedsprincip, svarende til at trække lod om, hvem der skal være i testgruppe, og hvem der skal være i kontrolgruppe, fx hvem der skal deltage i et givent kursus, og hvem der ikke skal. Forudsat at der ikke sker et skævt bortfald, og at grupperne er tilstrækkeligt store til at resultater-ne er signifikante, kan effekten udsiges med stor sikkerhed. Denne type evalue-ringsdesign kan af en række årsager være ressourcekrævende at gennemføre.

En variant af randomiseret kontrolleret forsøg kan være at dele op i to grupper, så hold 1 får det pågældende kursus først, og hold 2 får det samme kursus lidt senere, hvilket kaldes et venteliste-design. RCT-designs omfatter blandt andet almindelig lodtrækning, venteliste, løbende rekruttering, cross-over, cluster-ran-domisering (grupper), factorial design, blok-randomisering og stepped wedge (ved implementering af ny indsats).

Page 65: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

65

Evalueringsbegreber og metoder

RegisterdataRegisterdata er kendetegnet ved data, som typisk registreres ”globalt”, dvs. for samtlige medarbejdere i Region Hovedstaden, hvis emnet er medarbejdere i Regi-on Hovedstaden. Det kan fx være data, som beskriver løn, sygefravær, kursusdel-tagelse, alder, køn m.v., og i modsætning til spørgeskemaundersøgelser registreres data ikke af analyseindividet selv. Kursusportalen indeholder fx både register-data, som beskriver stamdata for medarbejdere i Regionen og spørgeskemadata, som indsamles af kursusledere.

Registerdata har ofte det kendetegn, at de ikke primært er indsamlet med henblik på analyse, men med henblik på fx administration og akkreditering. Registerdata for Region Hovedstaden indsamles blandt andet via Kursusportalen, af Center for Økonomi og af Silkeborg Data og Danmarks Statistik har mange registerdata på fx sundheds- og uddannelsesområdet, såsom Landspatientregisteret og Lægemid-deldatabasen. Se bl.a. Gørtz 2011 for nærmere indføring i mulighederne for at anvende registerdata i evaluering.

RegressionsanalyseSe også korrelation

En regression udtrykker betinget korrelation, dvs. samvariation, mellem flere variable: en afhængig variabel og et antal uafhængige variable af lineær karakter. Regression minder dermed om korrelation, men er lidt mere avanceret. Man kan fx være interesseret i at se på en variabel som udtrykker hvor mange dage med-arbejdere samlet set har været på kursus i løbet af deres arbejdstid. Her kan man forestille sig, at dette samvarierer fx med anciennitet og hvor meget uddannelse man har, hvor medarbejdere med højere enciennitet og med mere uddannelse måske har været på flere kurser.

Der findes mange typer af regressionsmodeller, herunder Ordinary Least Square multipel lineær regression, som er den mest almindelige analysemodel, samt logistisk regression, Cox-regression, two-step least square m.m. For hver type er der en række muligheder for at teste regressionsmodellen. For regressionsmo-dellen beregnes en forklaringskraft, r2, som fortæller, hvor meget af variationen regressionsmodellen samlet set forklarer. Hvis man tilføjer en variabel til en regressionsmodel, kan man bruge det til at se, hvor meget ekstra forklaringskraft variablen bidrager med, dvs. hvor meget r2 forøges, når variablen tilføjes. Hvis man beregner standardiserede beta-estimater for regressionsmodellen, får man et udtryk for, hvor meget hver af variablene bidrager med til modellen.

Man kan fx bruge regressionsmodellen til at konstatere, at variablen x har størst betydning for om man gennemfører kurset Y. En vigtig tilføjelse omkring regressi-onsmodeller er, at det kræver forholdsvis avancerede regressionsmodeller baseret på indgående teoretisk viden om kausalitet inden for det emne, man undersøger, hvis man med regressionsmodeller skal identificere kausalforhold.

Læs mere i Agresti & Finlay 2007 for nærmere indføring i begrebet prædiktion.

Regression discontinuity designVed regression discontinuity design tager man udgangspunkt i den antagelse, at effekten af en intervention kan forventes at komme til udtryk som en diskonti-nuitet i en regressionsmodel (se figur X nedenfor). Man sammenholder test- og kontrolgruppe i en regressionsmodel, hvor det er en score, som bestemmer

Page 66: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

66

Evalueringsbegreber og metoder

interventionen (Angrist & Pischke 2008). Med andre ord har man en tærskelvær-di, som bestemmer, hvem der skal tildeles henholdsvis test- og kontrolgruppe. Tærskelværdien kan fx være vægten på et spædbarn, som afgør, om forældrene tildeles et støtteprogram, såfremt barnet vejer mindre end 1500 g.

Når man på x-aksen er tæt på området for cut-off6 , så er antagelsen, at det i nogen grad er tilfældigt, om man modtager indsatsen eller om man ikke gør. Dermed har man en situation, som tilnærmelsesvis ligner et randomiseret kontrolleret forsøg. Man tester denne antagelse ved at sammenligne test- og kontrolgruppen på andre faktorer, fx ved at se på, om de to grupper har forskellig aldersspredning, og hvis man finder signifikante forskelle, så kan en kausal effekt ikke antages.

Regressionsmodellen viser førmålingen som en uafhængig variabel på x-aksen og eftermålingen som afhængig variabel på y-aksen. Det vil altså sige, at x- og y-akse er samme forhold, blot med måling på forskellige tidspunkter. Dette er illustreret i figur 12 nedenfor, hvor den grønne linje illustrerer fordelingen for kontrolgrup-pen, og den røde linje illustrerer fordelingen for testgruppen. Den lodrette linje mellem den grønne og den lilla linje illustrerer skæringspunktet mellem test- og kontrolgruppe. Såfremt hældningskoefficienten er den samme for de to grupper, kan modellen antages at være udtryk for effekten for hele populationen, og så-fremt dette ikke er tilfældet, gælder effekten alene for skæringspunktets område.

Pre-test

Område tæt på skæringspunktet

Effekt-estimat

Post-test

Figur 12: Regression discontinuity design

Regressionsmodel, multipel regressionsmodelEn regressionsmodel kan anvendes til at synliggøre hvor meget variation af data fra en række variable, der forklares af de pågældende data. Variablene kan fx beskrive alder, køn, års uddannelse, anciennitet, faggruppe m.m. for en række personer. Regressionsmodellen kan også fortælle, hvor meget hver enkelt variabel bidrager til modellen, dvs. at modellen fx kan bruges til at estimere, om alder har større betydning end køn for den samlede forklaringskraft. Under særlige forud-sætninger anvendes regressionsmodeller også til at estimere kausale forhold.

6 Cut-off er punktet, der adskiller de to grupper.

Page 67: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

67

Evalueringsbegreber og metoder

ReliabilitetSe validitet inden for skalavalidering samt kvalitetskriterier

Repeated measures ANOVARepeated measures ANOVA er en variansanalyse hvor man måler på et outcome tre eller flere gange og antager, at der er afhængighed mellem målingerne. Hvis man fx måler et læringsniveau for en given læring på flere udvalgte tidspunkter for de samme medarbejderne i en klinik, så kan repeated measures ANOVA teste, om der er signifikante differencer mellem målingerne.

RepliceringSe implementering og disseminering

RepræsentativitetInden for kvantitative evalueringer taler man om at sikre repræsentativitet i målingen, hvor en fordeling eller et estimat fundet for en stikprøve bør svare til den fordeling eller det estimat man ville finde, hvis man havde spurgt alle, frem for blot en stikprøve. Repræsentativiteten sikres ved at stikprøven udtrækkes tilfældigt og ved at data eventuelt vægtes i forhold til bortfald.

RespondentgrupperI en spørgeskemaundersøgelse er respondenten den person, som man udsender spørgeskemaet til. I forhold til vurdering af en kursists viden vil det oplagte valg typisk være at spørge den samme kursist, som har gennemført et kursus eller kursets undervisere. Uanset hvilke respondentgrupper man inddrager, skal man være opmærksom på, at de spørgsmål man stiller, skal være realistiske at besvare for denne gruppe. Man må fx forvente en betydelig bias, hvis man beder en medarbejder om at vurdere sin egen kompetence, fordi man ikke kan forvente at respondenten kan vurdere dette fuldstændig objektivt. Som udgangspunkt vil det styrke datakvaliteten, at man anvender flere respondentgrupper, så information fra én respondentgruppe kan be- eller afkræftes ved en anden. Man kan fx både spørge kursister, undervisere og ledere.

Resultatmålinger og virkningsmålingerInden for evalueringsterminologi bliver der talt om mange målingstyper, som involverer et forløb. Det kan gøre det meget forvirrende, hvis man ikke kender terminologien, at forstå begreberne. Simple før- og eftermålinger, som gør det muligt at identificere en forandring, kaldes typisk resultat- eller virkningsevalu-ering. Det hænder også, at disse før- og eftermålinger bliver kaldt effektmåling, selvom dette kan forekomme misvisende, fordi denne type måling som udgangs-punkt er for simpel til at man kan udelukke betydelig bias i målingen. Før- og eftermåling, fx foretaget via spørgeskemaprogrammet SurveyXact, kan ikke i sig selv sikre, at man har identificeret en effekt. Derfor anbefaler vi, at målinger kun omtales som effektmåling, såfremt målingen tager højde for confounders, dvs. faktorer som kan påvirke effekten. På grund af den noget heterogene terminologi er det ofte tilfældet, at man kalder det kausal effektmåling, når man har anvendt

Page 68: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

68

Evalueringsbegreber og metoder

et undersøgelsesdesign, hvor man med en høj grad af sikkerhed kan identificere en sand kausal effekt. Dette kan gøres med et randomiseret design eller alter-nativt med et kvasieksperimentelt design. Læs mere i KREVI 2010, Nielsen et al 2007 og Dahler-Larsen 2014.

RådataOprindelige data fra fx en spørgeskemaundersøgelse eller et udtræk af registerdata.

Sammenhænge mellem stokastiske variableSamvariation mellem to stokastiske variable, dvs. interval eller skalavariable, kan se ud på mange måder. Nedenfor i figur 13 er angivet nogle eksempler. Over hvert eksempel er angivet, hvilken korrelationskoefficient samvariationen resulterer i.

Figur 13: Samvariation mellem stokastiske variable

Kilde: Wikipedia 2017, https://en.wikipedia.org/wiki/Correlation_and_dependence

En sammenhæng mellem to variable kan beskrives som en linje, hvis der er tale om at begge variable er stokastiske, dvs. variable som kan beskrives med talm fx beløb målt i kroner, højde og antal års skolegang (se tabel 11 nedenfor). Her kunne den ene variabel fx være en investering i uddannelse målt i kroner og den afhængige variabel kunne være afkast ved reduceret patientbehandling, også målt i kroner. En non-stokastisk variabel er fx uddannelser, hvor udfaldsrummet ikke er tal, men i stedet sygeplejerske, læge og øvrige uddannelser, beskrevet ved U={sygeplejerske, læge, øvrige uddannelser}.

Det kan være en fordel at kunne beskrive relationen mellem to variable matema-tisk, dvs. at en formel fortæller værdien for variablen y, hvis man kender værdien for variablen x. Hvis man igen tager udgangspunkt i eksemplet, så giver formlen mulighed for at estimere afkastet, hvis man kender investeringen, og det kan være en stor fordel, hvis investeringen, fx prisen på uddannelse, er stor.

Hvis man i et statistikprogram, såsom SAS, SPSS, STATA eller R, beder om et spredningsdiagram, så kan man se, om sammenhængen mellem to variable lader til at have et mønster, fx en lineær eller kurvelineær sammenhæng. Hvis der lader til at være en sammenhæng, så kan sammenhængen estimeres med en regressi-onslinje.

S

Page 69: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

69

Evalueringsbegreber og metoder

En sammenhæng mellem to stokastiske variable kan være monoton eller non-mo-noton. Hvis forholdet mellem to variable er monotont, så vil forholdet enten være 1) positivt, 2) negativt eller 3) neutralt. For positive og negative lineære sammen-hænge kan en lige linje beskrive sammenhængen, dvs. y = αx + β. En monoton, lineær sammenhæng er i matematisk forstand den simpleste måde at beskrive sammenhængen mellem to variable. α angiver hældningskoefficienten og β angiver skæringspunktet med y-aksen. Ovenfor viser de midterste samvariationer eksempler på sammenhænge, som en lineær korrelation vil beskrive neutralt, dvs. give værdien nul. Den nederste fordeling i midten, som er U-formet illustre-rer, hvordan dette ikke nødvendigvis betyder, at der ikke er en sammenhæng, men at sammenhængen blot ikke nødvendigvis er lineær.

Hvis forholdet mellem to variable er positivt, så vil der ske en stigning for variablen beskrevet på y-aksen, når der sker en stigning for variablen beskrevet på x-aksen. Tilsvarende er forholdet negativt, hvis der sker et fald for variablen beskrevet på y-aksen, når der samtidig sker en stigning for variablen beskrevet på x-aksen. Hvis man igen tager udgangspunkt i eksemplet, så betyder en positiv sammenhæng, at der sker et positivt afkast, når man investerer, hvis sammen-hængen er kausal.

En sammenhæng mellem to variable kan også være non-monotont, dvs. at linjen ikke er stigende eller faldende i hele udfaldsrummet. En lineær, non-monoton udvikling ses sjældent, hvor en kurvelineær, non-monoton udvikling fx kan være beskrevet ved en parabel eller en normalfordelingskurve. En parabel kan matematisk beskrives ved y = αx2 + βx + c, dvs. at der kommer et eksponentielt led på formlen. Hvis sammenhængen fra eksemplet havde en parabel-formet sammenhæng kunne det fx være tilfældet at afkastet ville stige sammen med investeringen indtil et vist punkt, hvor investering over en vis mængde ville give et negativt afkast.

En non-lineær og non-monoton udvikling har som sådan ikke et mønster, som kan beskrives matematisk. En non-lineær og non-monoton udvikling ser man fx ved målinger over tid, hvor udviklingen går uforudsigeligt op og ned. En non-line-ær, non-monoton udvikling kunne fx beskrive årstal ud af x-aksen og antal kursi-ster der har været på et kursus på y-aksen. Her kan man meningsfuldt forvente, at udviklingen bevæger sig op og ned, og at en regressionslinje ikke kan forventes at forudsige udviklingen.

Det er vigtigt her at påpege, at en given lineær sammenhæng mellem to variable ikke nødvendigvis beskriver en direkte kausal sammenhæng, men blot en samva-riation.

Lineær Kurvelineær Non-lineær

Monoton Posi�v

Nega�v Posi�v Nega�v Posi�v Nega�v

Non-monoton

Tabel 13: Monotone og non-monotone sammenhænge mellem variable

Page 70: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

70

Evalueringsbegreber og metoder

ScratchnotesDe indledende noter, fx på papirblok eller telefon, som man tager mens man gen-nemfører feltobservation. Scratchnotes uddybes, snarest muligt efter observatio-nens gennemførelse, for at observationerne stadig så vidt muligt fremstår klart i erindringen. Pointen ved scratchnotes er, at de er korte, sådan at de så vidt muligt ikke tager fokus fra selve observationen. Samtidig bør udførelsen af noter foregå uden at de personer, som er i fokus for observationen, bemærker det, fordi dette nemt kan påvirke personernes adfærd.

SelektionSe også randomisering og bias

I stort set alle afkroge af samfundet sker der selektion. Det er fx ikke tilfældigt, hvem der vælger at tage en sundhedsuddannelse, det er ikke tilfældigt hvem der dropper ud af sundhedsuddannelsen, og det er ikke tilfældigt, hvem der får gode bedømmelser af deres uddannelsesforløb. Samfundet er fuld af strukturelle, systematiske forskelle mellem grupper af mennesker. Hvis man ønsker at sam-menligne alle dem, der deltog i et kursus med dem, som ikke deltog, så kan man ikke nødvendigvis antage, at disse grupper er ens og dermed sammenlignelige. De forskelle som eksisterede mellem deltagere og ikke-deltagere forud for deltagel-sen, kan være med til at forklare resultatet af deltagelsen i kurset. Hvis en gruppe personer med alkoholmisbrug tilmelder sig et afvænningsprogram, så kan det fx være, at de har det til fælles, at de ønsker at komme ud af alkoholmisbruget, og at dette ikke i samme grad gælder de personer, som ikke tilmelder sig. Det betyder, at det kan være motivationen og ikke afvænningsprogrammet, som betyder, at man ser færre med et fortsat alkoholmisbrug efter afvænningsprogrammet. Graden af motivation udgør en forskel mellem deltagerne i afvænningsprogram-met og de personer, som ikke deltog, dvs. at der er en selektion, som kan forklare udfaldet.

Der findes mange former for selektion, som kan have betydning for udfaldet i en måling. I det nævnte tilfælde kan det komme til at se ud som om at afvænnings-programmet virker, selvom det i virkeligheden var motivationen, som var den reelle forklaring. Tilsvarende kan deltagelse i kurser og uddannelse være påvirket af selektion. For at sikre sammenlignelighed er det derfor utrolig vigtigt, at man med statistiske værktøjer gør test- og kontrolgruppe sammenlignelige.

Man skelner typisk mellem selvselektion og ekstern selektion. Selvselektion er knyttet til individet, fx personens motivation og egen vilje og præferencer. Eks-tern selektion omfatter alt, hvad der er uden for individets eget råderum, fx at en leder har udvalgt de personer, som har mest behov for et kursus, eller strukturelle forhold i samfundet, hvor man fx ser en kønsmæssig selektion på arbejdsmarke-det i forhold til, hvor mange mænd og kvinder der vælger forskellige uddannelser i sundhedsvæsenet.

Se Agresti & Finlay 2007 for nærmere indføring i begrebet selektion.

SensitivitetEn kvantitativ analyse kan indeholde en sensitivitetsanalyse, som er baseret på at estimere sandsynligheden for et andet resultat.

Page 71: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

71

Evalueringsbegreber og metoder

SignifikansniveauSe også kvalitetskriterier

Et signifikansniveau er en vedtaget standard for, hvornår et resultat siges at være sikkert. Typisk arbejder man med signifikansniveauer på 95% eller 99%.

Socialkonstruktivistisk kritik af effekt og kausalitetSocialkonstruktivisme opstod som en videnskabsteoretisk kritik af forskning med et positivistisk afsæt. Socialkonstruktivismen er først og fremmest en kritik af den positivistiske opfattelse, at observation, sansning af verden, er en direkte ad-gang til, hvad verden er. På sundhedsområdet står positivismen forholdsvis stærkt inden for lægelig uddannelse, hvor socialkonstruktivismen står lidt stærkere i sygeplejefaget.

Socialkonstruktivismen tager udgangspunkt i, at verden består af ”konstruktio-ner”. Det vil sige, at ”et bord” eller ”en person med ADHD” fx ikke latent besidder den egenskab, som tilsvarer beskrivelsen. At Pluto skiftede tilstand fra ”planet” til ”dværgplanet” ændrer ikke Pluto. Alt i vores verden er i en socialkonstruktivists øjne i stedet baseret på konventioner og antagelser om verden. Selvom verden måske nok eksisterer, har vi med konstruktivistiske briller ikke adgang til at beskrive den objektivt. Opfattelsen blandt socialkonstruktivisterne er, at det er en urimelig reduktion af verden, hvis man blindt accepterer konventionerne, sådan som socialkonstruktivister vil mene, at positivister gør. En socialkonstruktivist ville typisk finde det mere interessant at beskæftige sig med, hvordan konventio-nen om, at nogle mennesker kan klassificeres som ”en person med ADHD”, end at acceptere konventionen.

Nærværende beskrivelse sigter efter at illustrere fordele og ulemper ved social-konstruktivistiske analyser. Udgangspunktet er at videnskabsteoretiske perspekti-ver vælges afhængigt af hvad der gavner analysen.

Statistiske analyser beror ofte på nødvendige reduktioner af den sociale verden, for overhovedet at være mulige. Hvis man skal tælle antallet af personer med diagnosen ADHD, er man nødt til at antage, at diagnosen er en meningsfuld beskrivelse af personen, og at beskrivelsen er tilstrækkeligt ensartet for hvert in-divid til, at man kan sige, at et antal personer har diagnosen. Statistiske analyser beskyldes nogle gange for at forsimple menneskelig adfærd til målbare variable, såsom køn, alder, uddannelse og stillingsbetegnelse. Kritikken kan nogle gange være berettiget, og andre gange måske mindre rimelig.

Mennesker agerer ikke mekanisk, og derfor kan menneskers adfærd ikke forudses med samme sikkerhed som man kan forudse adfærden for fysiske objekter, som ikke er levende. Hvis man fra en afsats skubber en sten ud over kanten, vil stenen med temmelig stor sandsynlighed falde mod jorden. Utallige andre eksempler har vist, at det er det, der sker, når man skubber en sten ud over en kant. Hvis man forsøger at gøre det samme med et dyr eller et menneske, vil dyret eller mennesket formentlig stritte imod, fordi dyret og mennesket besidder en vilje, herunder en vilje til at overleve. Mennesket vil måske endda ikke nøjes med at stritte imod, men vil også spørge, hvorfor man forsøger at skubbe vedkommende ud over kanten. Således adskiller mennesker sig fra ikke-levende objekter ved at have en vilje og en evne til at reflektere over og reagere på sin omverden. Dette gør menneskets adfærd betydeligt mere kompleks end objektets, og menne-skers adfærd er derfor sværere at forudsige. Derfor vil analyser, som omhandler

Page 72: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

72

Evalueringsbegreber og metoder

mennesker i princippet være behæftet med større usikkerhed, end analyser som omhandler ikke-levende objekter. Dette falsificerer ikke i sig selv analyser, som omhandler mennesker. Det betyder blot, at analyser som omhandler mennesker, skal ses med større forbehold end analyser, som omhandler ikke-levende objekter. Socialkonstruktivistens argument er, at man i analyser af menneskers adfærd bør være meget opmærksom på, at vores adfærd er styret af mange sideløben-de ønsker, drivkræfter og bevæggrunde, og at ethvert individs adfærd derfor er forholdsvis unik og mindre forudsigelig. Tabel 12 nedenfor illustrerer, hvordan forklaringsprincipperne for ting og mennesker er væsensforskellige. Formålet er at vise, at der i socialkonstruktivistisk perspektiv for mennesker er flere kræfter på spil end kausale mekanismer alene (Moses & Knutsen 2012). Til gengæld kri-tiseres socialkonstruktivismen fra et positivistisk synspunkt for at have for stort fokus på individet/subjektet. Fra et positivistisk synspunkt mister man overblik-ket, hvis man har for meget fokus på individet. Læs mere i Jacobsen et al 2012.

Tabel 14: forklaringsprincipper hos mennesker og objekter

Egenskab Forklaringsprincip

Objekter Masse og bevægelse Kausalitet

Mennesker Masse og bevægelse +liv og ræsonnement

Kausalitet + beslutning + interesse + mening + regler + institutionelle forhold + vaneX

SolsikkediagramSe grafisk datapræsentation

Spatial analyseSpatial analyse dækker over analyser af rumlighed eller afstande, såsom geografi-ske afstande. Hvis man fx ønsker at afdække, om afstanden fra medarbejderes bo-lig til et kursuscenter har betydning for deltagelsen, så kan det bero på en spatial analyse. Geografisk analyse beror ofte på grafiske repræsentationer, også kaldet geomapping, såsom choropleth kort, hvor et landkort inddeles i kommuner eller regioner farvet efter fordeling.

Spredning, varians og standardafvigelseEn værdi, som kan være mindst lige så vigtig som middelværdien for et givent antal udfald, er spredningen. Spredningen angives som standardafvigelse eller varians, og udtrykker, hvor meget udfaldene varierer fra middelværdien7. Antag fx at du ønsker at se på antal kursusdage pr. kursist, og middelværdien er på X dage pr. år. Hvis variansen er høj, betyder det, at der er store udsving, dvs. at der kan være mange tilfælde, hvor kursister har mange kursusdage og mange, som har få kursusdage. Hvis variansen er lav, så har alle kursister nogenlunde lige mange kursusdage. Hvis variansen er 0, så har alle personer nøjagtig samme antal kursusdage. Se Agresti & Finlay 2007 og Malchow-Møller og Würtz 2003 for nærmere indføring i begrebet spredning.

7 Standardafvigelsen er blot kvadratroden af variansen. Begge begreber udtrykker dermed spredningen, lidt på samme måde som at både kilometer i timen og miles i timen udtrykker hastighed

Page 73: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

73

Evalueringsbegreber og metoder

SpredningsdiagramSe grafisk datapræsentation

SpørgeskemadataSpørgeskemadata er enhver form for data, hvor man beder en respondent om at besvare et spørgeskema, som kan foregå elektronisk eller pr. papirbrev. Vi anbe-faler, at man som udgangspunkt anvender elektronisk forespørgsel, dvs. software beregnet til spørgeskemaundersøgelser, såsom SurveyXact. Her har man et meget bredt mulighedsrum for at stille spørgsmål. Ved spørgeskemadata skal man også være klar over, at datakvaliteten kan variere på baggrund af respondentens:

• Viden om emnet• Forståelse af spørgsmålet• Interesse i at svare sandt• Vilje til at besvare spørgsmålet

Eftersom spørgeskemadata indsamles på baggrund af udsagn fra personer, egner de sig godt til at opnå indblik i personens vurderinger, holdninger og oplevelser. Det er betydeligt mere udfordrende at anvende spørgeskemadata til at måle objektive fakta, hændelser, tilstande og handlinger. Hvis man beder en respon-dent om at svare på, hvad respondenten gør, hvordan respondenten arbejder, så vil man oftest i stedet opnå data, som er respondentens vurdering af, hvordan denne arbejder, deltog i et kursus osv. Derfor skal spørgeskemadata som anvendes til at få indblik i ”objektive fakta” betragtes med betydelige forbehold, blandt andet fordi man ikke kan tage for givet, at alle respondenter husker korrekt eller er tilbøjelige til at give et ærligt svar. Hvis man ønsker indblik i fakta, hændelser, tilstande og handlinger af høj kvalitet, er andre tilgange derfor mere egnede, såsom observation og registerdata.

SpørgsmålsbankEn evaluering kan baseres på spørgsmål hentet i en spørgsmålsbank, dvs. at man tager udgangspunkt i en større samling af prædefinerede spørgsmål, frem for at man selv formulerer spørgsmål. Fordelen er dels, at spørgsmålenes formulering er kvalitetssikret. Dernæst kan der også være en fordel i, at generiske spørgsmål i en vis grad tillader sammenligning. Dog skal sammenligningen tages med forbe-hold, hvis man ønsker at sammenligne kurser, hvor samme spørgsmål er anvendt.

Page 74: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

74

Evalueringsbegreber og metoder

Spørgsmålstyper i et spørgeskemaI en evaluering er det utrolig vigtigt, at man indsamler data i en form, som tillader efterfølgende analyse. Når man designer en spørgeskemaundersøgelse bør man derfor tage hensyn til, hvilke analyser man efterfølgende har tænkt sig at gennemføre ud fra de indsamlede data. Derfor forklares her kort forskellige skalatyper, som kan anvendes i spørgeskemaer med forskellige svarformer. I surveyprogrammet SurveyXact er der fx forskellige muligheder for at anvende de nævnte svarformer. Forskellige spørgsmålstyper er illustreret i tabel 14 nedenfor.

Tabel 14: svarform i spørgeskemaerSvarform Forklaring

Likert-skala

Skalatype, hvor svarkategorierne udgør en graduering i et begrænset udfaldsrum, typisk omkring fem muligheder, hvor man svarer på baggrund af ”grad af enighed”, ”grad af kendskab” eller ”hvor ofte”. Typiske eksempler er ”meget enig”, ”nogenlunde enig”, ”hverken enig eller uenig”, ”nogenlunde uenig” og ”meget uenig”.

Likert-skalaer er meget udbredt på evalueringsområdet. Her skal man væreopmærksom på, at der vil være tale om subjektive vurderinger fra respon-denten. Det at en respondent svarer ”meget enig”, når vedkommende bliver spurgt, om et givent kursus var godt, kan betyde noget helt andet for en anden respondent, som har svaret det samme.

Af samme grund skal man være klar over, at man ikke bør beregne middel-værdi (simpelt gennemsnit) på data fra Likert-skalaer. Hvis ”meget enig” svarer til 1 og ”meget uenig” svarer til 5, og svarfordelingen ligger koncen-treret omkring ”hverken enig eller uenig”. Så kan man ikke antage, at svarets middelværdi er 3. Dog er det almindeligt at gøre dette, hvis der er tale om et standardiseret, valideret spørgeskema, hvor en middelværdi beregnes på tværs af mange spørgsmål.

Endelig skal man være klar over, at der vil være en designmæssig vurdering i, om man skal have et lige eller et ulige antal svarmuligheder, dvs. om der skal være et neutralt midtpunkt, fx ”hverken enig eller uenig”.

Semantiskedifferentialeskalaer

Semantiske differentiale skalaer har egenskaber, som minder om Likert- skalaer, men som har den fordel, at det er muligt at beregne en middelvær-di. Her er der tale om en trinløs skala med yderpunkter, fx ”meget enig” og ”meget uenig”. Omvendt kan man foretrække Likert-skalaer, hvis det ikke er nødvendigt at beregne middelværdier, da Likert-skalaens værdier kan fremstå nemmere at fortolke for afrapporteringens læser.

Multiplechoice

Multiple choice betyder, at man har flere valgmuligheder, og at man skal vælge én ud af disse.

Multipleresponse

Multiple response betyder, at man har flere valgmuligheder, og at man kan vælge flere ud af disse.

Singlechoice

Single choice er binære, dvs. at man vælger én ud af to mulige, fx ”ja” eller ”nej”. Bemærk, at variablen ikke reelt er binær, hvis man kan svare ”ja” eller ”nej” eller undlade at svare, da der så er tre mulige udfald.

Batterier

Et batteri er en række spørgsmål med samme svarskala, fx fem spørgsmål, som alle besvares med samme Likert-skala. Vær opmærksom på, at batte-rier med mange spørgsmål kan resultere i, at respondenten svarer upræcist på de sidste spørgsmål.

Tekst-strenge

Tekst-strenge anvendes fx til at uddybe et forudgående spørgsmål med afgrænsede svarmuligheder. Vær opmærksom på, at det kan kræve et bety-deligt arbejde med data-rensning, hvis man skal analysere tekst-strenge.

PrioritetHer bliver respondenten bedt om at prioritere. Dette kan fx være i forbindelse med at man skal redegøre for den korrekte rækkefølge for en arbejds- procedure, så man angiver i hvilken rækkefølge en række trin skal ske.

SorteringHer bliver respondenten bedt om at sortere nogle svar i nogle kasser. Det kan fx være, at respondenten bliver bedt om at sortere hvilke opgaver der ligger inden for respondentens arbejdsområde og hvilke, der ikke gør.

Page 75: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

75

Evalueringsbegreber og metoder

StamdataSe også præpopulerede data

Baggrundsdata, fx respondenters køn, alder og uddannelse.

StandardfejlStandardfejlen for en fordeling udtrykker, hvor meget spredning en fordeling har fra en regressionslinje (se også konfidensinterval).

Sti-analyse/path-analyseMed sti-analyse arbejder man med at synliggøre, hvordan individer bevæger sig gennem forløb, og hvordan individerne er påvirkede af faktorer gennem forløbet. I sti-analyser opstiller man sti-modeller, som redegør for moderatorer og media-torer, som påvirker individerne. I sti-modellen kan det fx illustreres, hvordan et givent kursus påvirker fastholdelsen af medarbejdere. I eksemplet nedenfor er vist en sti-model, hvor forholdet mellem X (ansættelse) og Y (fastholdelse efter to år) påvirkes af moderatoren M (kursus). Hvis relationen mellem X og Y alene foregår via M, kalder man det en mediator. I eksemplet med kurset ville det være hvis alle ansatte gennemgår kurset. I så fald udgår stien ”b”. Økonomer arbejder ofte med sti-modeller. Modellerne kan være mere avancerede end den forholdsvis simple model i figur 14 nedenfor.

StikprøveEn stikprøve er et udtræk af en population. Populationen kan fx være samtlige nyuddannede sygeplejersker i Region H, og en stikprøve vil være en andel af disse. Stikprøven kan antages at være repræsentativ, såfremt følgende punkter overholdes:

1. Er udvalgt tilfældigt2. Der er data for alle individer eller der tages højde for bortfald3. Stikprøven er tilstrækkelig stor.

Det kræver statistisk beregning at vurdere, hvornår en stikprøve er repræsentativ. Se Malchow-Møller og Würtz 2003 for nærmere indføring i begrebet stikprøve.

M

X Y

a b

b

Figur 14: eksempel på sti-analyse

Page 76: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

76

Evalueringsbegreber og metoder

Strata, stratificeringVed stratificering opdeles en population i subpopulationer også kaldet strata, som er gensidigt udelukkende, såsom et særskilt stratum for ansatte på hvert hospital. Randomisering med stratificering sker for at sikre, at test- og kontrolgruppe ligner hinanden på udvalgte kriterier, fx køn og alder eller andre variable, som formodes at kunne have betydning for det effektforhold og som man eventuelt ønsker at lave heterogenitetsanalyser for. Ønsker man for eksempel af undersøge effekten af en intervention for mænd og kvinder separat, er det nødvendigt, at der er tilstrækkeligt med mænd og kvinder i både test- og kontrolgruppen. Stratifice-ring er fortrinsvis vigtigt ved brug af mindre samples.

SuggestionSuggestion vil sige, at man som interviewer eller som afsender af et spørgeskema manipulerer et bestemt svar frem hos informanten (interview) eller responden-ten (spørgeskema), fx med formuleringer såsom ”Synes du ikke også, at det er problematisk, at…”, eller ved at udelade svarmuligheder i et spørgeskema. Dette betragtes selvsagt som en uetisk tilgang til evaluering, og derfor noget som evalu-atorer skal holde sig fra.

Summativ og formativ evalueringSummativ og formativ evaluering er begreber som særligt ses inden for uddannel-sesevaluering, hvor summativ evaluering er retrospektiv og formativ evaluering er prospektiv. Ved summativ evaluering forstås evaluering som har til hensigt at samle op på status, fx ved at kursistens eller den studerendes læring testes ved eksamen. Ved formativ evaluering er hensigten derimod at guide den lærende. Ved formativ evaluering forsøger man fx at afklare, hvor kursisten har huller i sin viden, og at få kursisten til at reflektere over, hvad der skal til for at opnå læringsmål.

Survey/spørgeskemaundersøgelseSpørgeskemaer er en af de mest almindelige former for dataindsamling inden for uddannelsesevaluering. Spørgeskemaer er baseret på, at alle respondenter får samme spørgsmål med de samme svarmuligheder, i modsætning til kvali-tative tilgange med interviews m.m., hvor spørgsmålene er åbne og forskellige. Spørgeskemaer er med andre ord baseret på den antagelse, at man meningsfuldt kan stille samme spørgsmål med et afgrænset antal svarmuligheder til hver per-son. Dette gør det muligt at kvantificere besvarelserne, fordi man kan gøre gøre besvarelserne op i fx andele og middelværdier. Spørgeskemaer egner sig derfor ikke til at danne et nuanceret indblik om personer, men til at danne overblik over få udvalgte nøgleindikatorer. Udformning bør foregå i samarbejde med en evalue-ringsekspert. Se mere om spørgeskemaer i Hansen & Hjorth Andersen 2000.

SustainabilitySe implementering og disseminering

Page 77: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

77

Evalueringsbegreber og metoder

SymbolerNedenfor i tabel 15 er beskrevet nogle af de symboler, man ofte anvender inden for statistiske analyser.

Tabel 15: Symboler anvendt i statistiske analyser

Symbol Navn Forklaring

Græske bogstaver

α Alpha Koefficientestimat for en regressions intercept, dvs. skæring på y-aksen.

Koefficient for reliabilitet (Cronbach).

β Beta Sandsynligheden for at afvise en sand nulhypotese i en statistisk test.

Beta-hat En estimator er en estimation af værdien for popu- lations parametre. ^ angiver at parameteren er estimeret. bør ses i sammenhæng med estimatets signifikans.

Beta Beta anvendes i regressionsmodeller. Ved lineære regressionsmodeller fortæller populationsparameteren

, hvor stor ændringen er på den afhængige variabel, når man bevæger sig ud af xi-aksen, fx hvor meget løn afhænger af anciennitet.

Δ Delta Difference mellem værdier. ”Δx”, hvor x kan være 4 og 7 betyder Δ x=3.

ε Epsilon Fejlleddet i en regressionsmodel.

µ My Gennemsnit for en fordeling.

ρ Rho Korrelations koefficient for populationen.

σ2 Sigma i anden Varians for en fordeling baseret på den fulde population.

s / σ  ̂ s / sigma-hat En fordelings standardafvigelse (baseret på popu- lationen).

χ2 Chi i anden Signifikanstest, hvor man tester uafhængighed mellem to fordelinger, fx om svarfordelingen for læger og syge-plejersker er signifikant forskellige.

Romerske bogstaver

a Y-intercept Skæringen med y-aksen for en regressionslinje.

b Hældnings- koefficient

Hældningen for en regressionslinje.

f(x) Funktion af x

H0 vs. H1 Nulhypotese vs. Alternativ hypotese

Hvis nulhypotesen ikke kan forkastes, tages det som udtryk for, at testen ikke viser en signifikant difference, fx en signifikant effekt, fordi forskellen mellem to samples er for lille eller at datamængden er for lille.

n Stikprøve størrelse Antal elementer i en stikprøve fra en population.

N Populations størrelse

Antal elementer i en population.

N(μ,σ²) Normalfordeling En klokkeformet kurve som fejlleddet i en statistisk model ofte antages at følge.

p Sandsynligheds-værdi

Lader os teste en hypotese ved, hvilket som helst signifikans niveau, p, mellem 0 og 1 vi vælger. Derfor for, hvilken som helst p-værdi for null hypotesen der er strengt mindre end den valgte p-værdi vil null hypo- tesen blive forkastet.

Page 78: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

78

Evalueringsbegreber og metoder

T

SynteseVed syntese forstås den proces, hvor man analyserer data og opnår indsigt i helhe-den. Begrebet finder primært anvendelse inden for kvalitativ evaluering.

Søjle/stolpe/pindediagramSe grafisk datapræsentation

Teoridrevet analyseSe kvalitative metoder og analysetilgange

Testgruppe og kontrolgruppeAverage Treatment Effect (ATE)

ATE er den gennemsnitlige effekt af en intervention på et tilfældigt udtrukket individ fra den population man estimerer effekten for. ATE er baseret på sam-menligning mellem test- og kontrolgruppe, hvor alle individer, som indgår i test-gruppen, er udsat for en given indsats, og hvor alle i kontrolgruppen er dem, som ikke har modtaget indsats. ATE er det optimale setup for estimering af en kausal effekt, fordi man analyserer på forskellen mellem to ens grupper, dvs. at det er den optimale forudsætning for at kontrolgruppen kan afspejle den kontrafakti-ske tilstand. I en række situationer vil denne tilgang ikke være mulig, og derfor vil man være nødsaget til at vælge en anden tilgang. I randomiserede, kontrollere-de forsøg vil alternativet være ITT, hvis nogle deltagere i forsøget gør noget andet end hvad man har henvist dem til. Det er centralt i randomiserede, kontrollerede forsøg at man så vidt muligt sikrer, at deltagerne følger den tildeling, man har givet dem. Hvis interventionen er et kursus kan det fx handle om, at man kun kan tilmelde sig kurset, hvis man indgår i testgruppen, at man bruger kræfter

Tabel 15: Symboler anvendt i statistiske analyser

Symbol Navn Forklaring

Romerske bogstaver

R² R i anden Udtrykker, hvor meget af variationen i data, der kan forklares af modellen i en regressionsmodel. 0 er mini-mum, dvs. ingen sammenhæng, og 1 er maximum.

� Stikprøves standardafvigelse

Stikprøvens standardafvigelse, dvs. et udtryk for hvor meget stikprøven afviger fra middelværdien.

�2 Stikprøves varians Stikprøvens varians, dvs. et udtryk for hvor meget stikprøven afviger fra middelværdien.

Se( ) Standard error Den estimerede standardafvigelse for beta-hat.

x Uafhængig variabel Uafhængig variabel i en regression.

y Afhængig variabel Afhængig variabel i en regression.

Ȳ̅ Y med streg over Estimat af en middelværdi.

Matematiske symboler

∑ Sum Summen for et givent udtryk.

∞ Uendelighedstegn En fordeling uden øvre grænse.

Page 79: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

79

Evalueringsbegreber og metoder

undervejs på at sikre fastholdelse på kurset, og at man begrænser incitamenter til at deltagere skifter gruppe.

Average Treatment Effect of the Treated (ATET)

Sammenligning mellem test- og kontrolgruppe, hvor alene de individer, som er henvist til en indsats, indgår i testgruppen, dvs. at ATET estimeres som forskel-len mellem udfaldet for dem, som har modtaget indsats modregnet udfaldet for dem, som ikke har modtaget den. Hvis der er frivillig tilmelding til et kursus for stofmisbrugere i at undgå tilbagefald til stofmisbrug, så vil deltagerne formentlig være mere motiverede til at undgå tilbagefald end ikke-deltagere, og dermed er test- og kontrolgruppe ikke ens. Mange andre, både synlige og usynlige forskelle kan eksistere mellem test- og kontrolgruppe. Derfor regnes ATET ikke som en estimator af kausal effekt.

Conditional Average Treatment Effect (CATE)

For CATE gælder samme kriterier som for Average Treatment of the Treatet, dvs. at det er en effekt for en subgruppe af en population, men hvor der er tale om en betinget gruppe. Her kunne man fx trække de personer ud, som har deltaget i et kursus og som er sygeplejersker, hvor de øvrige kursister også kunne omfatte andre sundhedsfaglige grupper. Effekten målt for sygeplejerskerne alene ville være en CATE, fordi effekten er betinget.

Intention to Treat (ITT)

Ved ITT opdeles på baggrund af henvisning frem for opdeling ud fra behandling. Henvisningen er baseret på randomisering, dvs. tilfældig tildeling til test- og kon-trolgrupper. Hvis man fx har et kursus, hvor man tilfældigt udvælger hvem der skal deltage, så analyserer man testgruppen på baggrund af, hvem der var udvalgt til at deltage, frem for at vælge ud fra, om de rent faktisk deltog i kurset. Hvis testgruppen er dem, der deltager i et kursus, kan det måske fremstå mærkeligt, at enkelte af dem, som analyseres i denne gruppe, reelt ikke har deltaget i kurset. Dette hænger dog sammen med at man forsøger at udelukke bias ved dropouts og crossover. Crossover handler om, at der i praksis ofte sker det i randomiserede, kontrollerede forsøg, at personer henvist til den ene eller anden gruppe, vælger at gøre noget andet, dvs. fx melder sig syg den dag de skal på kursus eller finder et andet sted, hvor de kan deltage i kurset, hvis de ikke er blevet henvist, og meget gerne vil deltage. For at randomiseringen kompromitteres mindst muligt bruger man ofte mange kræfter på at sikre, at de involverede personer følger henvisnin-gen. Hvis alle personer følger henvisningen, så vil ITT og ATE (Average Treatment Effect) være den samme.

Local Average Treatment Effect (LATE)

En effekt beregnet på baggrund af Local Average Treatment Effect betyder, at man alene beregner effekten for ”compliers”, dvs. de personer, som blev henvist til en indsats og som også gennemførte den. Dermed fravælges ”always takers”, som modtager indsats uanset henvisning, ”never takers”, som ignorerer indsats uanset henvisning, samt ”defiers”, som ignorerer indsatsen uanset henvisning. For et kursus betyder det fx, at effekten beregnes for de kursister, som er henvist, og som har deltaget. LATE er den gængse afgrænsning ved instrumentmetode (Imbens & Angrist 1994).

Marginal Treatment Effect (MTE)

Dette er den gennemsnitlige effekt for det marginale individ, dvs. personer som antages at være indifferente omkring hvorvidt de skal vælge treatment eller ej,

Page 80: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

80

Evalueringsbegreber og metoder

eller med andre ord antages at have lige meget ud af at modtage indsats eller ikke modtage indsats (Heckman & Vytlacil 2005).

Treatment on the treated (TOT)

Ved analyse på TOT måler man forskellen mellem dem, der har modtaget en indsats, og dem der ikke har, uanset hvilke deltagere, der har fulgt en henvis-ning eller ej. Dette betragtes som simpel før- og eftermåling, ikke som en kausal estimator.

TilfredshedsmålingTilfredshedsmålinger er som udgangspunkt forholdsvis simple at gennemføre. Ved tilfredshedsmåling forstås almindeligvis et spørgeskema, som udsendes til besvarelse umiddelbart efter en aktivitet, såsom et kursus. Måling af tilfredshed forstås ofte i bred forstand, således at målingen ofte også indeholder andre aspek-ter end deltagerens tilfredshed, såsom hvorvidt deltageren oplevede indholdet brugbart, hvad man fik mest ud af osv. Det er vigtigt at påpege i forbindelse med uddannelsesevaluering, at simple tilfredshedsmålinger og spørgsmål om deltage-ren oplevede at man lærte noget, ikke kan betragtes som en måling af læring, da meget forskning har påvist, at der ikke nødvendigvis er sammenhæng mellem en deltagers vurdering af, om man har lært noget, og den læring, som er hensigten (se fx Anderson et al 1984, Davis et al 2006, Dochy et al 1999, Tracey et al 1997 og Uttl 2017).

TragtdiagramSe grafisk datapræsentation

TransferSe implementering og disseminering

Treatment-as-usualBetegnelsen dækker over, at en gruppe modtager en indsats, som er den gængse. Ved effektmålinger anvender man ofte sammenligning mellem en gammel ind-satstype og en nyere, fx hvis man i mange år har anvendt et kursus, som man vil teste i forhold til et nyt kursus med et tilpasset indhold. Treatment-as-usual kan i nogle sammenhænge være en mere heterogen størrelse, dvs. at man kan være interesseret i at teste effekten af et nyt kursus i brandbekæmpelse sammenlignet med, hvordan kurser i brandbekæmpelse førhen har foregået, hvis kurser i brand-bekæmpelse har haft forskellig udformning på forskellige hospitaler. Indenfor områder såsom resocialisering af tidligere straffede eller behandling af stofmis-brugere ser man fx større heterogenitet i behandlingen end på mange kliniske områder. Hvis kontrolgruppen i en effektmåling er forholdsvis heterogen, kræver det større stikprøvestørrelse for at opnå et signifikant resultat.

Page 81: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

81

Evalueringsbegreber og metoder

TrianguleringTriangulering handler om at se et emne fra flere sider. Konceptet kommer fra søfartsverdenen, hvor man bruger en sekstant til at vurdere en position ved at tri-angulere positionen i forhold til stjernernes position. I evalueringssammenhænge handler triangulering om at krydstjekke sin viden for at validere resultaterne. Man kan fx triangulere evalueringsperspektivet ved, at der er mere end én evalu-ator, som analyserer data, for at se, om man når frem til det samme. Det kan også handle om at vurdere en medarbejderkompetence fra mere end ét perspektiv, fx både medarbejder og leder, dvs. triangulere evalueringsobjektet. Triangulerings-princippet kan også handle om at se på data på baggrund af to teoretiske vinkler, dvs. triangulere teori-perspektivet, eller man kan triangulere metoden, dvs. fx analysere objektet med både kvantitativ og kvalitativ tilgang. Trianguleringsprin-cippet kan altså indgå mange steder, men generelt er formålet at sikre analysens kvalitet. Selvom princippet typisk kendes fra kvalitativ evaluering, kan det også sagtens indgå i kvantitative sammenhænge. Se Ritchie et al 2013 for nærmere indføring i begrebet triangulering.

TroværdighedEn evaluator bør fremstå troværdig i evaluator-rollen, både i forhold til fx gen-nemførelse af et interview og præsentation af evalueringens resultater.

TvillingestudierHer udnytter man, at tvillingepar ligner hinanden meget, og at den ene tvilling kan udgøre den ”kontrafaktiske tilstand”. Tvillingestudier kan også være baseret på sammenligning mellem enæggede og tveæggede tvillinger for at sikre, at man har taget højde for biologiske forskelle.

TypefejlTypefejl handler om statistisk usikkerhed. Jo større statistisk usikkerhed, jo større er sandsynligheden for, at man begår fejl, dvs. konkluderer noget forkert på bag-grund af resultaterne. Man taler om type I, type II og type III-fejl. Nedenfor i tabel 16 er Type I og Type II-fejl illustreret i forhold til en evaluering, hvor hypotesen er, at A=B. Jo større statistisk usikkerhed, jo større er sandsynligheden for at kon-kludere noget, som ikke er i overensstemmelse med sandheden. Man taler også om Type III-fejl, hvor man drager sin konklusion på et falsk grundlag. Læs mere i Agresti & Finlay 2007.

Tabel 16: typefejl

Evaluatorens konklusion

Sandheden

A = B A ≠ B

A = B Ingen fejl Type I-fejl

A ≠ B Type II-fejl Ingen fejl

Page 82: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

82

Evalueringsbegreber og metoder

U

Tænke højt testEn tænke højt test er en brugertest, hvor brugeren, fx en bruger af et elærings-mo-dul, afprøver modulet, og bliver bedt om at fortælle en observatør undervejs, hvad brugeren oplever. Metoden kan anvendes forud for lancering, så man får synliggjort problemer, fejl og udfordringer.

UdviklingsevalueringVed udviklingsevaluering forstås evalueringsprojekter, hvor evaluatoren også har en rolle i forhold til at sikre efterfølgende udvikling på baggrund af evalueringens resultater.

UnderspørgsmålEn spørgeskemaundersøgelse kan omfatte forskellige temaer, hvor et tema dæk-ker over flere spørgsmål, typisk betegnet underspørgsmål. Der kan også være tale om, at en respondent kun skal udfylde visse underspørgsmål, såfremt et forudgå-ende spørgsmål besvares. Hvis man fx sender et spørgeskema ud til personer, hvor man ikke ved, hvilke kurser de har deltaget i, så kan der indgå et filterspørgsmål, hvor man skal angive, om man har deltaget i kursus X, og så skal man kun besva-re de efterfølgende underspørgsmål om kursus X, såfremt man har svaret ja til at man har deltaget i dette kursus.

Univariat og bivariat analyseUnivariate og bivariate analyser er forholdsvis simple analyser, som kan anvendes til at synliggøre deskriptive fordelinger. En univariat analyse er en analyse af en enkelt variabel, fx et målt vidensniveau, og bivariat analyse er analyse af forhol-det mellem to variable, fx forholdet mellem hvor mange gange en kursist har øvet en kompetence og et målt vidensniveau. I det følgende gennemgås nogle af de tests, der kan være relevante at anvende ved univariat og bivariat analyse8. En række forhold kan være relevante at afdække, fx kan det være væsentligt at finde:

• fordelingers centrale værdier (middelværdi, median og typetal/modus)• variablens distribution (fx test af normalfordeling ved Shapiro-Wilk test eller

Kolmogorov-Smirnoff test for lighed mellem to fordelinger)• varians• signifikans• korrelation (ved bivariat analyse).

En fordelings centrale værdier og distributionstest handler om, hvordan data er fordelt. Varians handler om hvor meget værdierne varierer fra en middelværdi. Signifikans handler om, hvorvidt man kan sandsynliggøre, at den fordeling man har fundet, ikke blot skyldes tilfældighed, og sammenhæng handler om, hvorvidt der er en form for relation mellem variable.

8 Man kan også udføre mere avancerede multi-variate analyser, dvs. analyser af sammenhænge mellem flere end to variable. Multivariat analyse kan fx udføres med regressionsmodeller eller strukturelle lignings-modeller. Multivariat analyse er mere komplekst og forklares ikke her.

Page 83: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

83

Evalueringsbegreber og metoder

Der findes flere metoder til at afdække signifikans og sammenhæng, og valget af analysemetode til signifikans og sammenhæng afhænger af variabeltyper9.

Use-caseMed use-cases kan man følge en person, fx en kursist, og se hvordan et uddannel-sesforløb opleves for vedkommende. Use-casen giver et bruger-orienteret fokus, hvor man fx kan se, om der er noget, der går galt undervejs. Kan kursisten finde ud af at logge ind og anvende e-læringsmodulet korrekt? Kan kursisten finde ud

9 I denne bog kan du også læse om variabeltyper under ”variabel/skalatyper”, og hvordan de adskiller sig fra hinanden.

Page 84: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

84

Evalueringsbegreber og metoder

Vaf at tilmelde sig den korrekte kursus-række, gennemføre evaluering osv. som tiltænkt? Use-cases giver viden om, hvorvidt teori også fungerer i praksis.

Validitet inden for skalavalideringSe også kvalitetskriterier

Validitet i en måling handler om, hvorvidt man måler det, man antager man måler. Man kan antage, at alt principielt kan måles, men at nogle målinger er mere præcise end andre (læs mere om Item Response Theory i Hambleton et al 1991). Hvis man fx ønsker at måle højden på en person med et almindeligt billigt plastic-målebånd, så kan instrumentet vi bruger til målingen, dvs. målebåndet, være upræcist. Hvordan ved vi, at det der angives som én centimeter på målebån-det modsvarer nøjagtig én centimeter? Principielt ville det kræve, at vi kunne sammenligne målebåndet med et længdemål, som vi ved måler rigtigt. Målebån-det kunne være lavet af et elastisk materiale, som gjorde det muligt for materialet at strække sig. Hvis målebåndet blev strukket, ville målebåndet måle forkert. Jo større fejlleddet er, jo mere påvirker det målingen. Hvis målingen i stedet viste 178 cm for en person, som er 176 cm høj, så ville man sige, at målingen er upræcis, dvs. der er et fejlled med en afvigelse på 2 cm. Validitet handler om at minimere omfanget af støj, så den observerede værdi er så tæt på den sande værdi som muligt. En måling med minimalt fejlled kaldes således en måling med høj validitet.

Når man ønsker at måle læring er pointen den samme, men det bliver blot bety-deligt mere komplekst, hvad det fænomen man forsøger at måle består af. Dette er en central pointe at gøre sig klart, når man arbejder med uddannelsesevalue-ring, fordi det at spørge til læringen i et spørgeskema, ikke er nogen garanti for, at det er læringen, man reelt måler. Læs mere i Artino et al 2014, Cook & Beckman 2006, Hambleton et al. 1991, Hansen & Hjorth Andersen 2000 og Hinkin 1998.

Construct validityConstruct validity er en statistisk empirisk analyse af spørgeskemaets validitet. Almindeligvis anvender man metoder såsom faktoranalyse, Rasch-modeller og Structural Equation Modelling til at vurdere spørgeskemaets construct validitet. Korrelation med højvalide mål, såsom validerede spørgeskemaer til diagnostice-ring, anvendes også. At teste construct validity kan være forholdsvis komplekst, omfattende og ressourcekrævende, og bør foregå i samarbejde med eksperter.

Content validityContent validity vedrører hvorvidt et spørgeskema indeholder spørgsmål, som vedrører essensen af det, man ønsker at måle, og i det rette omfang. Content va-lidity beror ofte på specifikke kvalitative analyser, herunder ekspertvurderinger. Det kan fx være en leder af et uddannelsesområde og undervisere, som indgår i fokusgrupper, som diskuterer spørgeskemaet, hvis spørgeskemaet skal anvendes til at estimere læring.

Tabel 22: Bivariat analyse af sammenhæng

Begge vari-able dummy eller nominale

Den ene vari-abel ordinal, interval eller skala

Begge varia-ble ordinale, interval eller skala

Begge vari-able interval eller skala

Korrelation X X X

2-vejs anova X X

Regressions-model

X X X X

Page 85: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

85

Evalueringsbegreber og metoder

Face validityFace validity er en skønsmæssig vurdering af et spørgeskema, som beror på, om spørgeskemaet umiddelbart lader til at kunne vurdere det, man ønsker at måle. Face validity testes på baggrund af viden om hensigtsmæssigt spørgeskemade-sign, hvor man fx kigger på, om spørgsmålene er ledende, tvetydige eller svære at forstå.

Variabel/skalatyperSe også spørgsmålstyper

Kvantitative variable opdeles i forskellige typer. Her skal man være opmærksom på, at de forskellige variabeltyper tillader forskellige typer af analyser. Vær fx opmærksom på, at man ikke bør beregne gennemsnit på ordinale skalaer. Varia-beltyper er illustreret i tabel 23 nedenfor.

Tabel 23: variabeltyper note

Type Forklaring Eksempel

Nominal Udfaldet kan ikke rangordnes, er ikkeækvidistant (dvs, har ikke samme afstand mellem hvert udfald) og har ikke et naturligt nulpunkt.

”Hvilken uddannelse har du?”1: sygeplejerske2: SOSU assistent3: andet

Ordinal Kan rangordnes, men er ikke ækvidi-stant og har ikke et naturligt nulpunkt

”I hvilken grad oplevede du sam-menhæng mellem kursets formål og indhold”1: meget enig2: enig3: hverken eller4: uenig5: meget uenig

Interval Kan rangordnes, er ækvidistant, men har ikke et naturligt nulpunkt.

”I hvilken grad oplevede du sam-menhæng mellem kursets formål og indhold?”1: meget enig2, 3, 4, 5, 6, 7, 8, 9,10: meget uenig

Ratio * Kan rangordnes, er ækvidistant og har et naturligt nulpunkt.

”Hvor mange gange har du vaskethænder inden for den seneste uge?” [n]

Kan beregens Nominal Ordinal Interval Ratio

Frekvens Ja Ja Ja Ja

Median og percentil Nej Ja Ja Ja

Addition og subtraktion Nej Nej Ja Ja

Middelværdi, standardafvigelse, standardfejl

Nej Nej Ja Ja

Ratio eller andel af variation Nej Nej Nej Ja

* En ratiovariabel som alene indeholder hele tal kaldes en diskret variabel.

VignetVignetter er eksperimentelle stimuli i et spørgeskema, typisk i tekstform, men kan også være lydklip eller billede, som har til hensigt at afføde respons hos respondenten. En respondentgruppe kan fx opdeles i to, hvor hver gruppe får

Page 86: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

86

Evalueringsbegreber og metoder

præsenteret en case om en fiktiv klinikers arbejde, som i vignetten fremstilles uprofessionelt. I den ene gruppe præsenteres klinikeren som en mand og i den anden gruppe præsenteres klinikeren som kvinde. Efterfølgende spørgsmål om klinikerens professionalisme kan vise forskelle i respons mellem grupperne, og dermed illustrere tendenser til, om køn påvirker besvarelsen.

VoxpopVoxpop er en tilgang, hvor man spørger tilfældigt udvalgte, hvad de synes om et givent emne. Man kan kalde det en slags ’stikke en finger i jorden’-tilgang. Tilgan-gen har et minimalt ressourceforbrug, og kan være fin som en umiddelbar pej-ling, men kan ikke betragtes som en systematisk evalueringstilgang. Med denne tilgang har man ikke afgrænset, hvorfor man stiller hvilke spørgsmål, og det kan være meget forskelligt, hvordan interviewpersonerne forstår spørgsmålene. Den indsamlede viden vil derfor være påvirket/skævvredet af en lang række tilfældig-heder. Metoden kendes fra fjernsynsprogrammer, hvor journalister spørger for-bipasserende på Strøget, og i forhold til uddannelsesevaluering svarer tilgangen nogenlunde til, at man uden større metodiske overvejelser ved afslutningen af et kursus taler med kursisterne om, hvordan det gik.

Vægtning af datasætNår man indsamler data med spørgeskemaer vil man typisk opleve et bortfald, dvs. at nogle af de respondenter, man har udsendt spørgeskema til, af forskellige grunde ikke besvarer spørgeskemaet. Et bortfald kan give skævheder i datagrund-laget, og derfor anvender man vægtning som statistisk metode til at sikre, at personerne i de indsamlede data, så vidt muligt fordelingsmæssigt ligner dem, som man forsøger at udtale sig om. Hvis udtrækket fx er en stikprøve af sygeple-jersker, og man ønsker at udtale sig om de øvrige sygeplejersker, som stikprøven er udtrukket fra, kan man fx vælge at vægte i forhold til køn, alder, antal års arbejdserfaring m.m., så de har samme fordeling som i totalpopulationen. På den måde øges undersøgelsens repræsentativitet.

Vægtning af temaerNår man skal vægte temaer i en evaluering kan det fx vedrøre vægtningen af hvad man skal spørge om i et en spørgeskemaundersøgelse, og hvor mange spørgsmål, der skal knytte sig til hvert tema. Overordnet gælder det, at kvantitative evalue-ringer egner sig bedst til få basale indikatorer, og kvalitative evalueringer egner sig bedre til mere dybdegående tilgange. Hvis evalueringen beror på måling af læring, er det vigtigt at man inddrager sundhedsfaglige eksperter, som kan vurde-re vægtningen af de temaer, som skal indgå, herunder procentforholdet mellem disse. Antallet af spørgsmål i et spørgeskema bør modsvare en andel svarende til, hvor stort temaet er. Hvis ”medicinering” udgør 20 % af emnet, bør 20 % af spørgsmålene omhandle dette tema.

VærdifrihedSom udgangspunkt tilstræbes værdifrihed i forbindelse med dataindsamling, både kvalitative og kvantitative metoder. Dog eksisterer der enkelte metoder, hvor dette ikke tilstræbes, såsom ved kvalitative interventionsstudier og aktionsmetode.

Page 87: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

87

Evalueringsbegreber og metoder

Litteraturliste

Alan Agresti & Barbara Finlay (2007). Statistical Methods for the Social Sciences. ISBN-13:9780205646418. Upper Saddle River, N.J.: Pearson Prentice Hall.

Andersen, H. (2004). Sociologi – en grundbog til et fag. ISBN 87-412-2747-6. Kø-benhavn: Hans Reitzels Forlag.

Andersen, H. & Kaspersen, L. B. (2004). Klassisk og moderne samfundsteori. ISBN: 87-412-2660-7. København: Hans Reitzels Forlag.

Anderson, C. D.; Warner, J. L. & Spencer, C. C. (1984) Inflation Bias in Self-As-sessment Examinations: Implications for Valid Employee Selection. Journal of Applied Psychology 69(4), pp. 574-580.

Angrist, J. D.; Pischke, J. S. (2008) Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. pp. 227–243. ISBN 978-0-691-12034-8.

Altonji, J., Elder, T. & Taber, C. (2006). An Evaluation of Instrumental Variable Strategies for Estimating the Effects of Catholic Schooling. Journal of Research on Educational Effectiveness, 2, no. 1. Ss. 45-87.

Andreasen, K., Friche, N., Rasmussen, A. (2011). Målt & Vejet – Uddannelsesforsk-ning om evaluering. ISBN: 978-87-7112-003-5. Aalborg: Aalborg Universitetsforlag.

Artino, A. R., Rochelle, J. S., Dezee, K. J. & Gehlbach, H. (2014). Developing questi-onnaires for educational research, AMEE Guide 87. Dundee: AMEE.

Allison, P. D. (2010). Missing Data. I Marsden, P. V. & Wright, J. D. (Eds.), Hand-book of Survey Research, 2nd ed. ISBN: 978-1-84855-224-1.

Ayala, R.J. (2009). The Theory and Practice of Item Response Theory. New York: The Guilford Press.

Bamberger, M. J., Rugh, J., Mabry, L. S. (2016). RealWorld Evaluation: Working Un-der Budget, Time, Data, and Political Constraints. ISBN: 1412909465. Thousand Oaks: Sage Publications.

Beck, N. & Katz, J. N. (1995): What to do (and not to do) with Time-Series Cross-Se-ction Data. The American Political Science Review, Vol. 89, No. 3, ss. 634-647. http://www.jstor.org/stable/2082979.

Belsley, D. (1991). Conditioning Diagnostics: Collinearity and Weak Data in Re-gression. ISBN 0-471-52889-7. New York: Wiley.

Bendixen, C. (2005): Evaluering og læring. ISBN: 87-624-0712-0. Vejle: Kroghs Forlag.

Bendsen, T. (2016, 13. oktober). Noter i Statistik. Hentet fra http://statnoter.dk/

Bleichrodt, H., Quiggin, J. (1999). Life-cycle preferences over consumption and health: when is cost-effectiveness analysis equivalent to cost-benefit analysis? J Health Econ 18 (6), ss. 681–708. doi:10.1016/S0167-6296(99)00014-4.

Blend, D. & Marwala, T. (2016): Comparison of Data Imputation Techniques and their Impact. Hentet fra https://arxiv.org/ftp/arxiv/papers/0812/0812.1539.pdf

Page 88: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

88

Evalueringsbegreber og metoder

Bollen, K. A. (2002). Latent Variables in Psychology and the Social Sciences. Annu-al Review of Psychology, v. 53(1), ss. 605-634. doi: 53:605-34. 0084-6570/02/0201-0605.

Brady, S. R. (2015) Utilizing and Adapting the Delphi Method for Use in Qua-litative Research. International Journal of Qualitative Methods, pp. 1-6. DOI: 10.1177/1609406915621381.

Brinkerhoff, R. O. (2007). Telling Training’s Story: Evaluation Made Simple, Credible, and Effective. ISBN-13: 978-1576751862. San Francisco: Berrett-Koehler.

Buch-Hansen, H. & Nielsen, P. (2008): Kritisk realisme. Roskilde: ISBN: 978-87-7867-303-9. Roskilde Universitetsforlag.

Card, D. & Krueger, A. B. (1994) Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania. American Economic Review. 84(4), pp. 772-793. https://www.jstor.org/stable/2118030

Centre for Reviews and Dissemination (2009). Systematic Reviews - CRD’s guidan-ce for undertaking reviews in health care. Hentet fra https://www.york.ac.uk/media/crd/Systematic_Reviews.pdf

Chipman, H. A.; George, E. I. & McCulloch, R. E. (2008) Bayesian additive regressi-on trees. Annals of Applied Statistics 4(1), pp. 266-298. DOI: 10.1214/09-AOAS285

Cochrane (2016, 13. oktober). ROBINS-I tool (Risk Of Bias In Non-randomized Studies - of Interventions). Hentet fra https://sites.google.com/site/riskofbiastool/

Contandriopoulos, D.; Lemire, M.; Organizations and Policy Arenas: A Narrative Systematic Review of the Literature. The Milbank Quarterly, 88(4)pp. 444-483.

Cook, D. A., Beckman, T. J. (2006): Current Concepts in Validity and Reliability for Psychometric Instruments: Theory and Application. American Journal of Medici-ne. 119, ss. 116.e7-116.e16. doi: 10.1016/j.amjmed.2005.10.036

Cook, T. D. (2007). Waiting for Life to Arrive: A history of the regression-discon-tinuity design in Psychology. Journal of Econometrics, 142 (2): ss. 636-654. doi:10.1016/j.jeconom.2007.05.002

CONSORT 2010 (2016, 13. oktober). Spirit. Hentet fra http://www.consort-state-ment.org/resources/spirit

Dahler-Larsen, P. (2013): Seks positioner I forhold til evidens og det forhandlede forhold mellem dem. Cepra-striben 15, pp 6-13. doi: http://dx.doi.org/10.17896/UCN.cepra.n15.110

Dahler-Larsen, P. (2013). Constitutive Effects of Performance Indicators: Getting beyond unintended consequences. Public Management Review 16(7), pp 969-986. Routledge: London.

Dahler-Larsen, Peter (2013). Evaluering af projekter – og andre ting, som ikke er ting. ISBN: 978-87-7674-864-6. Odense: Syddansk universitetsforlag.

Danmarks Evalueringsinstitut (2009). Håndbog i evaluering ved hjælp af indsats-teori. ISBN: 978-87-7958-516-4.

Daston, L. (2005). Scientific Error and the Ethos of Belief. Social Research 72(1), ss. 1-28.

Page 89: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

89

Evalueringsbegreber og metoder

Davis D. A.; Mazmanian P. E. , Fordis M.; Van Harrison, R.; Thorpe, K.E. & Perrier L. (2006) Accuracy of physician self-assessment compared with observed measu-res of competence: a systematic review. JAMA, 296(9), pp. 1094-102, DOI: 10.1001/jama.296.9.1094

Deming, W. E. (1996). Out of the crisis.Cambridge, MA: Massachusetts Institute of Technology, Center for Advanced Enginerring Study, p. 88.

Decoster, J. (1998, 13. oktober). Overview of Factor Analysis. Hentet fra http://www.stat-help.com/factor.pdf

Dochy, F.; Segers, M. & Sluijsmans, D. (1999) The Use of Self-, Peer and Co-assess-ment in Higher Education: a review. Studies in Higher Education, 24(3), pp. 331-350. S0307-5079/99/030331-20

Dobney (2016, 13. oktober). A Guide to Desk Research. Hentet fra www.dobney.com/Papers/A%20guide%20to%20desk%20research.rtf

Donaldson, S. I., Christie, C. A. & Melvin M. M. (2009). What counts as Credible Evidence in Applied Research and Evaluation Practice? Thousand Oaks: Sage.

Dorie, V.; Harada, M.; Carnegie, N. B. & Hill, J. (2015) A flexible, interpretable framework for assessing sensitivity to unmeasured confounding. Statistics in Medicine. 35, pp. 3453-3470. DOI: 10.1002/sim.6973

Durlak, J. A. (1998). Why Program Implementation is Important. Journal of Prevention & Intervention in the Community, 17(2), ss. 5 - 18. doi: 10.1300/J005v17n02_02. http://dx.doi.org/10.1300/J005v17n02_02

Durlak, J. A. & Dupre, E. P. (2008). Implementation matters: a review of research on the influence of implementation on program outcomes and the factors affecting implementation. American Journal of Community Psychology 41(3-4), s. 327. doi: 10.1007/s10464-008-9165-0. Chicago: Loyola University, Department of Psychology.

Euser, A. M., Zoccali, C, Jager, K. J., Dekker, F.W. (2009). Cohort studies: pro-spective versus retrospective. Nephron Clin Pract., 113(3), ss. 214 - 217. doi: 10.1159/000235241

Evans, D. (2002). Hierarchy of evidence: a framework for ranking evidence evalua-ting healthcare interventions. Journal of Clinical Nursing, 12, ss. 77 - 84.Ferrell, B. & McCaffery, M. (2012). Knowledge and Attitudes Survey Regarding Pain. http://prc.coh.org

Fixsen, D. L., Naoom, S. F., Blase, K. A., Friedman, R. M. & Wallace, F. (2005). Implementation Research: A Synthesis of the Literature. Hentet fra http://ctndis-seminationlibrary.org/PDF/nirnmonograph.pdf

Fog, J. (2004): Med samtalen som udgangspunkt. ISBN: 87-500-3837-0. København: Akademisk Forlag.

Freeman, L. C. (2004). The development of social network analysis: a study in the sociology of science. Vancouver, B. C.: Empirical Press.

Gartlehner, G., Hansen, R. A., Nissman, D. (2006). Criteria for Distinguishing Effe-ctiveness From Efficacy Trials in Systematic Reviews. Technical Reviews, 12.

Page 90: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

90

Evalueringsbegreber og metoder

Rockville: Agency for Healthcare Research and Quality. Hentet fra http://www.ncbi.nlm.nih.gov/books/NBK44024/

Gerber, A. S., Green, D. P. & Kaplan, E. H. (2003). The Illusion of Learning from Observational Research. Hentet fra http://euler.wss.yale.edu/Seminars/2003-04/seminars/Green.doc

Graham, I. D.; Logan, J.; Harrison, M. B.; Straus, S. E.; Tetroe, J.; Caswell, W. & Robinson, N. (2010): Lost in Knowledge Translation: Time for a Map?

Greene, J. C. (1999) Review: Public Policy and Program Evaluation by Evert Ve-dung. Administrative Science Quarterly, 44(2), pp. 433-436, DOI: 10.2307/2667008 Gørtz, M. (2011). Mulighederne i at anvende registerdata til evaluering. Hentet fra http://danskevalueringsselskab.dk/sites/default/files/materials/Oplaeg%20conf%202011/til%20download/4A_Registerdata%20til%20evaluering.pdf

Hansen, E. J. & Andersen, B. H. (2000). Et sociologisk værktøj – Introduktion til den kvantitative metode. København: Hans Reitzels Forlag.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Press.

Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. (2010). A Review of Multip-le-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measure-ment in Education, 15(3), ss. 309 - 333. doi: 10.1207/S15324818AME1503_5.

Harris, A. D., McGregor, J. C., Perencevich, E. N., Furuno, J. P., Zhu, J., Peterson, D. E. & Finkelstein, J. (2006). The Use and Interpretation of Quasi-Experimental Studies in Medical Informatics. Journal of American Medical Informatics Assoccia-tion., 13(1), ss. 16 – 23. doi: 10.1197/jamia.M1749.

Hastrup, K. (2003) Ind i verden – en grundbog i antropologisk metode. Hans Reit-zels Forlag. ISBN 87-412-2425-6.

Hattie, J. (2010) Visible learning: a synthesis of over 800 meta-analyses relating to achievement. London: Routledge

Heckman, J. J., Ichimura, H. & Todd, P. (1994). Matching As An Econometric Evaluation Estimator. Review of Economic Studies, 65, ss. 261 - 294. doi: 0034-6527/98/00120261$02.00

Heckman, J. J. & Vytlacil, E. (2005). Structural Equations, Treatment Effects, and Econometric Policy Evaluation. Econometrica, 73(3), ss. 669 – 738. http://jenni.uchicago.edu/discussion/Heckman-Vytlacil_Econometrica_v73-3_2005.pdf

Hill, J. L. (2011) Bayesian Nonparametric Modeling for Causal Inference. Journal of Computational and Graphical Statistics, 20(1), pp. 217-240. http://www.jstor.org/stable/23113385

Hinkin, T. R. (1998). A Brief Tutorial on the Development of Measures for Use in Survey Questionnaires. Organizational Research Methods, 1(1), ss. 104 - 121. doi: 10.1177/109442819800100106

Hox, J.J. (1995). Applied Multilevel Analysis. Amsterdam: TT-Publikaties. doi: 0034-6527/98/00120261$02.00

Page 91: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

91

Evalueringsbegreber og metoder

Hsu, C. & Sandford, B. A. (2007) The Delphi Technique: Making Sense of Consen-sus. Practical Assessment, Research & Evaluation. 12(10), pp. 1-8. ISSN 1531-7714

Imbens, G. W. & Angrist, J. D. (1994). Identification and Estimation of Local Avera-ge Treatment Effects. Econometrica, 62(2), ss. 467 - 475. doi: 10.2307/2951620

Jacobsen, M. H., Lippert-Rasmussen, K. & Nedergaard, P. (2012). Videnskabsteori i statskundskab, sociologi og forvaltning, 2. udgave. ISBN: 978-87-412-5581-1. København: Hans Reitzels Forlag.

Keane, M. P. (2009). Structural vs. atheoretic approaches to econometrics. Journal of Econometrics, 156 ss. 3 - 20.

Klein, K. J. & Sorra, J. S. (1996). The Challenge of Innovation Implementation. The Academy of Management Review, 21(4), ss. 1055 - 1080.

Kirkpatrick, D. L. & Kirkpatrick, J. D. (2007). Implementing the four Levels: A prac-tical guide for effective evaluation of training programs, 1. udgave. San Francisco: Berrett-Koehler Publisher.

Kongsgaard, L. & Rod, M. H. (2018) Bedre begrundet praksis – velfærdsudvikling efter evidensbølgen. Frederiksberg: Samfundslitteratur. ISBN 9788759325773

Knoster, T., Villa, R. & Thousand, J. (2000). A framework for thinking about systems change. In Richard A. Villa & Jacqueline S. (Eds.), Restructuring for Caring and Effective Education: Piecing the Puzzle Together. Michigan: P.H. Brooks Pub.

KREVI (2010, 13. oktober). Målingsterminologi – En introduktion. Hentet fra http://www.kora.dk/media/281625/Malingsterminologi_FINAL.pdf

Kvale, S. (1997). InterView – En introduktion til det kvalitative forskningsinter-view. ISBN: 87-412-2816-2. Kobenhavn: Hans Reitzels Forlag.

Maldonado, G. & Greenland, S. (2002). Estimating causal effects. International Journal of Epidemiology, 31, ss. 422 - 429.

Mathison, S. (2005) Encyclopedia of Evaluation. London: Sage Publications. ISBN 0-7619-2609-7

Miller, George E. (2015). The Assessment of Clinical Skills/Competence/Perfor-mance. Supplement, 65(9), 63 - 67. http://familymedicine.queensu.ca/assets/Assessment1%20MILLER.pdf

Morgan, S. L. & Winship, C. (2007). Counterfactuals and causal inference. New York: Cambridge University Press.

Munk, M. D. (2008): Metoder til at måle kausale effekter af socialpolitiske ind-satser. Dansk Sociologi, 1. http://ej.lib.cbs.dk/index.php/dansksociologi/article/view/2523

Nielsen, C., Dinesen, P. T., Benjaminsen, L. & Bonke, J. (2007). Effektmåling. ISSN: 1396-1810. ISBN: 978-87-7487-850-6. København: Socialforskningsinstituttet.

Nutley, S., Walter, I. & Davies, H. T. O. (2003). From Knowing to Doing - A Fra-mework for Understanding the Evidence-Into-Practice Agenda. Evaluation, 9(2), ss. 125 - 148. London: Sage Publications.

Page 92: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

92

Evalueringsbegreber og metoder

Nutley, S. M., Walter, I. and Davies, H. T. O. (2007) Using Evidence: How Research Can Inform Public Services. Bristol, UK: The Policy Press.

Oliver et al 2013: A systematic review of barriers to and facilitators of the use of evidence by policymakers, BMC Health Services Research 14:2. https://bmchealt-hservres.biomedcentral.com/articles/10.1186/1472-6963-14-2

Otte, E., Rousseau, R. (2002). Social network analysis: a powerful strategy, also for the information sciences. Journal of Information Science, 28(6), ss. 441 - 453. doi: 10.1177/016555150202800601.

Pawson, R. & Tilley, N. (1997). Realistic Evaluation. London: Sage

Penn State Methodology Center (2016, 13. oktober). Introduction to Factorial Experimental Designs. https://methodology.psu.edu/ra/most/factorial

Petrisor, B. A. & Bhandari, M. (2007). The hierarchy of evidence: Levels and grades of recommendation. Indian J Orthop, 41(1), ss. 11 - 15. doi: 10.4103/0019-5413.30519

Petticrew, M. & Roberts, H. (2006). Systematic Reviews in the Social Sciences – A practical guide. Pondicherry, India: Blackwell Publishing. ISBN-13: 978-1-4051-2110-1. Hentet fra http://www.cebma.org/wp-content/uploads/Pettigrew-Roberts-SR-in-the-Soc-Sc.pdf

Phillips, J. J. & Phillips, P. P. (2007). Next generation evaluation: Searching for value. I Allen, M. (ed.), The next Generation of Corporate Universies (ss. 39 - 50). San Francisco: Pfeiffer.

Puhani, P. A. & Weber, A. M. (2005). Does the Early Bird Catch the Worm? Instrumental Variable Estimates of Educational Effects of Age of School Entry in Germany. SWD-ID: 40014460. St. Gallen: Department of Economics, University of St. Gallen. Hentet fra http://ftp.iza.org/dp1827.pdf

Reilly, K (2009) Key Concepts In Ethnography. Hentet fra http://methods.sagepub.com/book/key-concepts-in-ethnography/n16.xml

Ritchie, J.; Lewis, J.; Nicholls, C. M. og Ormston, R. (2003) Qualitative Research Pra-ctice – A guide for social science students & researchers. ISBN 978-1-4462-0911-0.

Rosenbaum, P. R.; Rubin, D. B. (1983) The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika. 70 (1): 41–55.

Rothwell, P. M. (2005). External validity of randomized controlled trials: “To whom do the results of this trials apply?” Evidence-based practice and the indivi-dual. Lancet, 1-7, ss. 82-93. doi: 10.1016/S0140-6736(04)17670-8

Sanjek, R. (1990). Fieldnotes – The Makings of Anthropology. ISBN: 0-8014-2436-4. New York: Cornell University.

Shadish, W. R., Cook, T. D. & Campbell, D. T. (2002). Experimental and Qua-si-Experimental Designs for Generalized Causal Inference. Boston: Houghton-Mif-flin.

SFI (2016, 13. oktober). Effektmåling. http://gl.sfi.dk/metoder-11030.aspx

Societas Ortopaedica Danica (2011). Godt i gang med forskning – Videnskabelige

Page 93: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

93

Evalueringsbegreber og metoder

udvalg DOS. Hentet fra http://www.ortopaedi.dk/fileadmin/forskning/Forsknings-vejledning_DOS_VU_MAJ_2011_endelig.pdf

Societas Ortopaedica Danica (2015, 4. marts). Hjælp til Forskning. Hentet fra http://www.ortopaedi.dk/index.php?id=327

Spradley, J. P. (1980). Participant Observation. Fort Worth: Harcourt Brace Jovano-vich.

Stirman et al 2011: The sustainability of new programs and innovations: a review of the empirical literature and recommendations for future researchHentet fra https://implementationscience.biomedcentral.com/ articles/10.1186/1748-5908-7-17

Thabane, L., Ma, J., Chu, R., Cheng, J., Ismaila, A., Rios, L. P., Robson, R., Tha-bane, M., Giangregorio, L. & Goldsmith, C. H. (2009). A tutorial on pilot studi-es: the what, why and how. BMC Medical Research Methodology, 10(1). doi: 10.1186/1471-2288-10-1

Tracey, J. M.; Arroll, B.; Richmond, D. E. & Barham, P. M. (1997) The Validity of General Practitioners’ Self Assessment of Knowledge: Cross Sectional Study. BMJ, 315(7120), pp. 1426-1428. http://www.jstor.org/stable/25176375

Uttl, Bob, Carmela A. White, and Daniela Wong Gonzalez. (2017) Meta-analysis of faculty's teaching effectiveness: Student evaluation of teaching ratings and student learning are not related. Studies in Educational Evaluation, 54 pp. 22-42.

Vedung, E. (2009). Utvärdering i politik och förvaltning. Lund: Studentlitteratur. ISBN: 9789144001746.

Vedung, E. (2010) Four Waves of Evaluation Diffusion, 16(3), 263-277. Hentet fra https://doi.org/10.1177/1356389010372452

Vigen, T. (2015) Spurious correlations. New York: Hachette Books.

Weber, M. (1949) The Methodology of the Social Sciences. New York: The Fress Press

Page 94: Evalueringsbegreber og metoder...Bearbejdning, analyse og Epidemiologisk metode fortolkning af data Benchmark Bias - systematiske og usystematiske fejl Big Data Blinding Bounds C side

94

Evalueringsbegreber og metoderNotatet er en alfabetisk gennemgang af begreber, som er væsentlige at forståfor at kunne arbejde med evaluering. Notatet er skrevet til uddannelses- ogkursusansvarlige i Region H. Vi anbefaler at læse teksten i sin helhed, men mankan også springe over de temaer, som man i forvejen har godt kendskab til, ellerblot anvende notatet som et opslagsværk.

Titel: Evalueringsbegreber og metoderForfatter: Jacob Brauner JørgensenForlægger: Center for HR, Region HAnsvarlig institution: Region HCopyright: Region HSprog: DanskPris: GratisVersion: 2. udgave, 2018

Region HovedstadenCenter for HRSektion for Grunduddannelsec/o Gentofte HospitalKildegårdsvej 28, opg. 10B2900 Hellerup

Tlf. 38 66 99 [email protected]