indeksering med semantiske komponenter øger præcision

32
Marianne Lykke Nielsen Oktober 2007 Indeksering med semantiske komponenter øger præcision Marianne Lykke Nielsen Informationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole Temadag Udviklingstendenser indenfor indeksering og repræsentation Danmarks Biblioteksskole 4. oktober 2007

Upload: remedios-carrillo

Post on 01-Jan-2016

38 views

Category:

Documents


1 download

DESCRIPTION

Indeksering med semantiske komponenter øger præcision. Marianne Lykke Nielsen Informationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole. Temadag Udviklingstendenser indenfor indeksering og repræsentation Danmarks Biblioteksskole 4. oktober 2007. Agenda. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Indeksering med semantiske komponenter øger præcision

Marianne Lykke NielsenInformationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole

Temadag

Udviklingstendenser indenfor indeksering og repræsentation

Danmarks Biblioteksskole

4. oktober 2007

Page 2: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Agenda

• Forskningsprojektet – problemstilling og samarbejdspartnere

• Indeksering med semantiske komponenter

• Brugerevaluering

• Resultater og konklusioner

Page 3: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Problemstilling og udgangspunkt

• Emnesøgning i domænespecifikke IR systemer kan være problematisk:

– Domænespecifikke IR systemer indeholder ofte store dokumentmængder om et begrænset sæt af emner

– Domæneeksperter har ofte specifikke informationsbehov, der er relateret til en konkret arbejdsopgave

– Fremfundne dokumenter skal ikke blot være emnemæssig relevante, men relevante i forhold til den konkrete arbejdsopgave

– Begrænset tid til søgning

Page 4: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Problemstilling og udgangspunkt

• Indeksering udgør basis for informationsgenfinding

• To basis, komplementære indekseringsmetoder:– Intellektuel, manuel indeksering, ofte ved anvendelse af

kontrollerede indekseringssprog

– Automatisk, computer-baseret indeksering, baseret på tekstord

• Indekseringsproblemer:– Emner – hvilke emner skal indekseres, og med hvilken grad af

ekshautivitet og specificitet

– Terminologi – hvilke ord og sprogbrug skal anvendes til at udtrykke emnerne

– Konsistens – hvordan sikrer vi konsistens

– Omkostninger – indeksering tager tid og kræver domæne viden og specifikke kompetencer

Page 5: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 6: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 7: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Forskningssamarbejde og forskningsteam

Almen medicin Peter VedstedMD, Ph.D.Forskningsenheden for Almen medicin,Århus Universitet

Jens RubakMDPraksis.dk, Århus Amt/Region Midtjylland

Informations- og computervidenskab

Lois Delcambre, Ph.D., ProfessorSusan Price, MD, Ph.D. studerendeComputer Science DepartmentPortland State University, USA

Marianne Lykke Nielsen, Ph.D., LektorForksningsprogrammet: Informationsinteraktion og informationsarkitekturDanmarks bibliotekskole

sundhed.dk Vibeke Luk Frans la CourInformationsspecialist IT konsulentsundhed.dk Autonomy

Finansieret af US National Science Foundation samt sundhed.dk og Århus Amt

Page 8: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Case study

• sundhed.dk: national, dansk sundhedsportal

• Aktiv siden 2001, 25.000 dokumenter

• To hovedmålgrupper: borgere og medarbejdere fra sundhedssektoren

• Anvender både automatiske og manuelle indekseringsmetoder:

– ICPC

– ICD-10

– Borgertesaurus

– Stor og varieret gruppe af indeksører– 17 regioner

– Op til 250 indeksører per region • Forskningsprojektet har fokus på praktiserende læger

Page 9: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Indeksering med semantiske komponenter (SC)

• Opmærkning af teksters semantiske elementer, semantiske komponenter, som supplement til andre indekseringsmetoder

• Elementer, der indeholder information om bestemte aspekter af dokumentets overordnede emne, f.eks. diagnosticering, behandling, henvisning, risikofaktorer

• Metoden bygger på formodningen, at indeksering med SC er nem og hurtig, og vil medføre bedre kvalitet og konsistens, fordi forskning viser:

− Domæneeksperter kender dokumenttyper indenfor et bestemt domæne. De kender dokumentstruktur og bruger denne viden, når de læser og anvender dokumenter (Dillon, 1991; Orlikowaki & Yates, 1994; Bishop, 1999)

– Indhold og struktur i domænespecifikke dokumenter modsvarer struktur (aspekter eller facetter) i domænespecifikke informationsbehov (Ely et al, 1999,2000; Price, Delcambre, Nielsen, 2006)

Page 10: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

General information

Praktisk information

Kliniskmetode

Page 11: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

General information

Risikofaktorer

Efterbehandling

Klinisk metode

Page 12: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Indeksering med semantiske komponenter (SC)

• En semantisk komponent opmærker den del af dokumentet, som giver information om et bestemt aspekt

• For bestemte dokumenttyper (genrer) eksisterer et fælles sæt af semantiske komponenter

• For eksempel, har dokumenttypen Klinisk metode 6 semantiske komponenter:

− General information, Praktisk information, Henvisningsvejledning, Efterbehandling, Risikofaktorer, Forventet resultat

• I sundhed.dk har vi identificeret 6 dokumenttyper med hver deres sæt af semantiske komponenter:

− Klinisk problem, Klinisk metode, Services, Lægemidler, Kliniske enheder, Opslag

Page 13: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 14: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 15: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 16: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

… indtaster man søgetermer, der skal

forekomme i bestemte semantiske komponenter

– med det formål at præcisere søgningen

Udover søgetermen, der angiver hovedemnet …

Page 17: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Man kan også indtaste en * for at finde de

dokumenter om astma, der er dokumenttypen

klinisk problem, og som indeholder en semantisk

komponent vedr. henvisning

Page 18: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Brugerevaluering - søgning

• Sammenligning mellem standard søgesystem (System 1) og eksperimentelt søgesystem med semantiske komponenter (system (2)

• Testpersoner: 30 praktiserende læger, som har erfaring med sundhed.dk og online informationssøgning

• Træningssession: introduktion til semantiske komponenter og de to søgesystemer

• Søgeopgaver: 4 kontrollerede, simulerede søgeopgaver

– 2 søgeopgaver udføres i kontrol søgesystemet– 2 søgeopgaver udføres i det eksperimentelle søgesystem

• Tilfældig fordeling af rækkefølge for søgeopgaver og søgesystemer

• Data indsamling: − Søgeadfærd, gradueret relevansvurdering (bruger og system relevans),

tidsforbrug, brugervurdering af brugervenlighed, tillid, tilfredshed

Page 19: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Søgeopgave

Søgeopgave C

Søgecase:Anna er barnløs. Hun har to haft to spontane aborter. Hun er nu klar til at prøve at blive gravid igen. Der er noget med folinsyre. Skal hun tage det, og hvor meget skal hun tage?Søgeopgave: Find dokumenter, der hjælper dig med at bestemme, om Anna skal tage folinsyre, og hvis, hvilken dosis hun skal tage.

Page 20: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Testpersoner

Testpersoner

(n = 30)

Erfaring med

Søgemaskiner

(år)

Erfaring med sundhed.dk

(år)

Erfaring med

informationssøgning

(1 Meget – 5 Ingen)

Professional erfaring

(år)

Mean 7,2 2,4 2,4 21,4

Maximum 12,5 5 4 34,2

Minimum 1 0,6 1 6,3

Std 2,82 1,43 0,93 7,59

Page 21: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Søgeperformance

MAP for Bedste Query per session (Mean ± SE)

SøgeopgaveA

Søgeopgave B

Søgeopgave C

Søgeopgave D

Total alle opgaver

System 1 0.28 ± 0.03 0.53 ± 0.11 0.21 ± 0.05 0.19 ± 0.03 0.31 ± 0.03

System 2 0.56 ± 0.06 0.58 ± 0.11 0.26 ± 0.03 0.27 ± 0.06 0.42 ± 0.04

nDCG for Bedste Query per session (Mean ± SE)

SøgeopgaveA

Søgeopgave B

Søgeopgave C

Søgeopgave D

Total alle opgaver

System 1 0.41 ± 0.03 0.57 ± 0.08 0.38 ± 0.07 0.34 ± 0.03 0.43 ± 0.03

System 2 0.60 ± 0.06 0.60 ± 0.08 0.50 ± 0.04 0.46 ± 0.07 0.54 ± 0.03

Page 22: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Søgeperformance

Concatenated Top Ten Results: Mean Normalized sDCG

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109

Rank in Concatenated Results

ns

DC

G

0

0.1

0.2

0.3

0.4

0.5

0.6

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97

System 1 System 2

Page 23: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Anvendelse af Semantiske komponenter

Antal søgninger

(n = 60)%

Søgninger med SC 53 88,3

Søgninger med SC, der resulterer i relevante dokumenter

(n = 53)

49 92,5

Simple søgninger, der resulterer i relevante dokumenter

54 90,0

Page 24: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Brugervenlighed

Brugervenlighed (ease of use) måt gennem antal queries og tidsforbrug

(n = 120)

Antal queries

per søgeopgaveTidsforbrug per søgeopgave

System 1

(n = 60)

System 2

(n = 60)

System 1

(n = 60)

System 2

(n = 60)

Mean 2,55 3,2 5,8 7,2

Minimum 1 1 1,9 2,2

Maximum 8 11 16,8 16,6

Std 1,908 2,386 - -

Page 25: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Brugerholdninger

• 73% af brugerne indikerer, at de vil bruge SC i mere end 50% af deres søgninger

• SC er brugbar til bestemte søgeopgaver – SC er brugbare til komplicerede, specifikke søgeopgaver – for

opgaver, hvor du er på “nyt, og ukendt territorium”

• SC skal læres, er ikke intuitive – Brugere skal modtage undervisning for at bruge SC effektivt

– Labels er ikke intuitive

• Bedre funktionalitet – Direkte adgang fra interface til den semantiske komponent i

teksten

– Udeladelse af dokumentklasser og færre SC

– Personalisering

Page 26: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Opsummering

• Vi ønskede at udvikle indekseringsmetode til forbedring af præcision i søgning

• Vi udviklede metoden Indeksering med semantiske komponenter – som supplement til både manuel og automatisk indeksering

• Vi testede metodens effektivitet i forhold til praktiserende lægers informationssøgning i sundhed.dk

• Vi erfarede, at metoden sammenlignet med standard kontrol system øger præcision og ranking af dokumenter

• Vi ønsker at videreudvikle metoden: i.f.t. andre domæner, valg og brug af dokumentklasser og semantiske komponenter, automatisk opmærkning med SC – via automatisk kategorisering eller via opmærkning med f.eks. XML tags

Page 27: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Litteratur

Dillon, M (1991). Reader’s model of text structures: the case of academic articles. International Journal of Man-Machine Studies, 35. 913 – 925.

Ely, J, Osheroff, J, Ebell, M, Bergus, G, Levy, B Chambliss, M & Evans, E (1999). Analysis of wquestions asked by family doctors regarding patient care. BMJ, 310 (7206). 358 – 361.

Ely, J, Osheroff, J, Gorman, P, Ebell, M, Bergus, G, Levy, B Chambliss, M, Pifer, E & Stavri, P (2000). A taxonomy of generic clinical questions: classification study. BMJ, 321 (7278). 429 - 432.

Hearst, M & Plaunt, C (1993). Subtopic structuring for full length document access. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval. 59 – 69.

Orlikowaki, W J & Yates, J (1994). Genre repertoire: the structuring of communicative practices in organizations. Administrative Science Quarterly, 39. 541 – 574.

Price, S, Delcambre, L & Nielsen, M L (2006). Using semantic components to express questions against document collections. Proceedings International Workshop on Health Information and Knowledge Management (HIKM 2006), Arlington (VA).

Price, S, Nielsen, M L, Delcambre, L & Vedsted, P (2007). Semantic components enhance retrieval of domain-specific documents. Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management (CIKM), Lisboa, November 6 - 8, 2007.

Page 28: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Brugerevaluering - indeksering

• Sammenligning mellem traditionel emneordsindeksering og indeksering med semantiske komponenter

• Testpersoner: 16 danske sundhed.dk indeksører• Træningsforløb: introduktion indeksering med

semantiske komponenter (SC)• Indekseringsopgaver: 12 sundhed.dk dokumenter

– 6 dokumenter indekseres med SC– 6 dokumenter indekseres med emneord ved brug af ICPC, ICD-10,

Borgertesaurus

• Tilfældig sekvens af indekseringsrækkefølge og metode

• Data indsamling: – Indekseringsdata– Tidsforbrug– Brugernes vurdering af graden af brugervenlighed (ease of use),

tillid, tilfredshed

Page 29: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Brugervenlighed

Brugervurdering af muligheder for præcision i søgning

(1 God – 5 Dårlig)

Hvor nemt at udtrykke

Hvor tilfreds med

resultat

Hvor brugbart at specificere

med Informations

type

Hvor brugbart at specificere

med Region

Hvor brugbart at specificere

med SC

Hvor brugbart at søge i

SC

System 1 2,02 2,12 1,90 1,54 - -

System 2 2,07 2,28 1,62 1,65 1,58 1,73

Page 30: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 31: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Page 32: Indeksering med semantiske komponenter øger præcision

Marianne Lykke Nielsen Oktober 2007

Søgeperformance

Mean nDCG for the Best Queries in Each Session

0

0.1

0.2

0.3

0.4

0.5

0.6

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97

Document Rank

nD

CG

System 1 System 2