indeksering med semantiske komponenter øger præcision
DESCRIPTION
Indeksering med semantiske komponenter øger præcision. Marianne Lykke Nielsen Informationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole. Temadag Udviklingstendenser indenfor indeksering og repræsentation Danmarks Biblioteksskole 4. oktober 2007. Agenda. - PowerPoint PPT PresentationTRANSCRIPT
Marianne Lykke Nielsen Oktober 2007
Indeksering med semantiske komponenter øger præcision
Marianne Lykke NielsenInformationsinteraktion og Informationsarkitektur Danmarks Biblioteksskole
Temadag
Udviklingstendenser indenfor indeksering og repræsentation
Danmarks Biblioteksskole
4. oktober 2007
Marianne Lykke Nielsen Oktober 2007
Agenda
• Forskningsprojektet – problemstilling og samarbejdspartnere
• Indeksering med semantiske komponenter
• Brugerevaluering
• Resultater og konklusioner
Marianne Lykke Nielsen Oktober 2007
Problemstilling og udgangspunkt
• Emnesøgning i domænespecifikke IR systemer kan være problematisk:
– Domænespecifikke IR systemer indeholder ofte store dokumentmængder om et begrænset sæt af emner
– Domæneeksperter har ofte specifikke informationsbehov, der er relateret til en konkret arbejdsopgave
– Fremfundne dokumenter skal ikke blot være emnemæssig relevante, men relevante i forhold til den konkrete arbejdsopgave
– Begrænset tid til søgning
Marianne Lykke Nielsen Oktober 2007
Problemstilling og udgangspunkt
• Indeksering udgør basis for informationsgenfinding
• To basis, komplementære indekseringsmetoder:– Intellektuel, manuel indeksering, ofte ved anvendelse af
kontrollerede indekseringssprog
– Automatisk, computer-baseret indeksering, baseret på tekstord
• Indekseringsproblemer:– Emner – hvilke emner skal indekseres, og med hvilken grad af
ekshautivitet og specificitet
– Terminologi – hvilke ord og sprogbrug skal anvendes til at udtrykke emnerne
– Konsistens – hvordan sikrer vi konsistens
– Omkostninger – indeksering tager tid og kræver domæne viden og specifikke kompetencer
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Forskningssamarbejde og forskningsteam
Almen medicin Peter VedstedMD, Ph.D.Forskningsenheden for Almen medicin,Århus Universitet
Jens RubakMDPraksis.dk, Århus Amt/Region Midtjylland
Informations- og computervidenskab
Lois Delcambre, Ph.D., ProfessorSusan Price, MD, Ph.D. studerendeComputer Science DepartmentPortland State University, USA
Marianne Lykke Nielsen, Ph.D., LektorForksningsprogrammet: Informationsinteraktion og informationsarkitekturDanmarks bibliotekskole
sundhed.dk Vibeke Luk Frans la CourInformationsspecialist IT konsulentsundhed.dk Autonomy
Finansieret af US National Science Foundation samt sundhed.dk og Århus Amt
Marianne Lykke Nielsen Oktober 2007
Case study
• sundhed.dk: national, dansk sundhedsportal
• Aktiv siden 2001, 25.000 dokumenter
• To hovedmålgrupper: borgere og medarbejdere fra sundhedssektoren
• Anvender både automatiske og manuelle indekseringsmetoder:
– ICPC
– ICD-10
– Borgertesaurus
– Stor og varieret gruppe af indeksører– 17 regioner
– Op til 250 indeksører per region • Forskningsprojektet har fokus på praktiserende læger
Marianne Lykke Nielsen Oktober 2007
Indeksering med semantiske komponenter (SC)
• Opmærkning af teksters semantiske elementer, semantiske komponenter, som supplement til andre indekseringsmetoder
• Elementer, der indeholder information om bestemte aspekter af dokumentets overordnede emne, f.eks. diagnosticering, behandling, henvisning, risikofaktorer
• Metoden bygger på formodningen, at indeksering med SC er nem og hurtig, og vil medføre bedre kvalitet og konsistens, fordi forskning viser:
− Domæneeksperter kender dokumenttyper indenfor et bestemt domæne. De kender dokumentstruktur og bruger denne viden, når de læser og anvender dokumenter (Dillon, 1991; Orlikowaki & Yates, 1994; Bishop, 1999)
– Indhold og struktur i domænespecifikke dokumenter modsvarer struktur (aspekter eller facetter) i domænespecifikke informationsbehov (Ely et al, 1999,2000; Price, Delcambre, Nielsen, 2006)
Marianne Lykke Nielsen Oktober 2007
General information
Praktisk information
Kliniskmetode
Marianne Lykke Nielsen Oktober 2007
General information
Risikofaktorer
Efterbehandling
Klinisk metode
Marianne Lykke Nielsen Oktober 2007
Indeksering med semantiske komponenter (SC)
• En semantisk komponent opmærker den del af dokumentet, som giver information om et bestemt aspekt
• For bestemte dokumenttyper (genrer) eksisterer et fælles sæt af semantiske komponenter
• For eksempel, har dokumenttypen Klinisk metode 6 semantiske komponenter:
− General information, Praktisk information, Henvisningsvejledning, Efterbehandling, Risikofaktorer, Forventet resultat
• I sundhed.dk har vi identificeret 6 dokumenttyper med hver deres sæt af semantiske komponenter:
− Klinisk problem, Klinisk metode, Services, Lægemidler, Kliniske enheder, Opslag
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
… indtaster man søgetermer, der skal
forekomme i bestemte semantiske komponenter
– med det formål at præcisere søgningen
Udover søgetermen, der angiver hovedemnet …
Marianne Lykke Nielsen Oktober 2007
Man kan også indtaste en * for at finde de
dokumenter om astma, der er dokumenttypen
klinisk problem, og som indeholder en semantisk
komponent vedr. henvisning
Marianne Lykke Nielsen Oktober 2007
Brugerevaluering - søgning
• Sammenligning mellem standard søgesystem (System 1) og eksperimentelt søgesystem med semantiske komponenter (system (2)
• Testpersoner: 30 praktiserende læger, som har erfaring med sundhed.dk og online informationssøgning
• Træningssession: introduktion til semantiske komponenter og de to søgesystemer
• Søgeopgaver: 4 kontrollerede, simulerede søgeopgaver
– 2 søgeopgaver udføres i kontrol søgesystemet– 2 søgeopgaver udføres i det eksperimentelle søgesystem
• Tilfældig fordeling af rækkefølge for søgeopgaver og søgesystemer
• Data indsamling: − Søgeadfærd, gradueret relevansvurdering (bruger og system relevans),
tidsforbrug, brugervurdering af brugervenlighed, tillid, tilfredshed
Marianne Lykke Nielsen Oktober 2007
Søgeopgave
Søgeopgave C
Søgecase:Anna er barnløs. Hun har to haft to spontane aborter. Hun er nu klar til at prøve at blive gravid igen. Der er noget med folinsyre. Skal hun tage det, og hvor meget skal hun tage?Søgeopgave: Find dokumenter, der hjælper dig med at bestemme, om Anna skal tage folinsyre, og hvis, hvilken dosis hun skal tage.
Marianne Lykke Nielsen Oktober 2007
Testpersoner
Testpersoner
(n = 30)
Erfaring med
Søgemaskiner
(år)
Erfaring med sundhed.dk
(år)
Erfaring med
informationssøgning
(1 Meget – 5 Ingen)
Professional erfaring
(år)
Mean 7,2 2,4 2,4 21,4
Maximum 12,5 5 4 34,2
Minimum 1 0,6 1 6,3
Std 2,82 1,43 0,93 7,59
Marianne Lykke Nielsen Oktober 2007
Søgeperformance
MAP for Bedste Query per session (Mean ± SE)
SøgeopgaveA
Søgeopgave B
Søgeopgave C
Søgeopgave D
Total alle opgaver
System 1 0.28 ± 0.03 0.53 ± 0.11 0.21 ± 0.05 0.19 ± 0.03 0.31 ± 0.03
System 2 0.56 ± 0.06 0.58 ± 0.11 0.26 ± 0.03 0.27 ± 0.06 0.42 ± 0.04
nDCG for Bedste Query per session (Mean ± SE)
SøgeopgaveA
Søgeopgave B
Søgeopgave C
Søgeopgave D
Total alle opgaver
System 1 0.41 ± 0.03 0.57 ± 0.08 0.38 ± 0.07 0.34 ± 0.03 0.43 ± 0.03
System 2 0.60 ± 0.06 0.60 ± 0.08 0.50 ± 0.04 0.46 ± 0.07 0.54 ± 0.03
Marianne Lykke Nielsen Oktober 2007
Søgeperformance
Concatenated Top Ten Results: Mean Normalized sDCG
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109
Rank in Concatenated Results
ns
DC
G
0
0.1
0.2
0.3
0.4
0.5
0.6
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
System 1 System 2
Marianne Lykke Nielsen Oktober 2007
Anvendelse af Semantiske komponenter
Antal søgninger
(n = 60)%
Søgninger med SC 53 88,3
Søgninger med SC, der resulterer i relevante dokumenter
(n = 53)
49 92,5
Simple søgninger, der resulterer i relevante dokumenter
54 90,0
Marianne Lykke Nielsen Oktober 2007
Brugervenlighed
Brugervenlighed (ease of use) måt gennem antal queries og tidsforbrug
(n = 120)
Antal queries
per søgeopgaveTidsforbrug per søgeopgave
System 1
(n = 60)
System 2
(n = 60)
System 1
(n = 60)
System 2
(n = 60)
Mean 2,55 3,2 5,8 7,2
Minimum 1 1 1,9 2,2
Maximum 8 11 16,8 16,6
Std 1,908 2,386 - -
Marianne Lykke Nielsen Oktober 2007
Brugerholdninger
• 73% af brugerne indikerer, at de vil bruge SC i mere end 50% af deres søgninger
• SC er brugbar til bestemte søgeopgaver – SC er brugbare til komplicerede, specifikke søgeopgaver – for
opgaver, hvor du er på “nyt, og ukendt territorium”
• SC skal læres, er ikke intuitive – Brugere skal modtage undervisning for at bruge SC effektivt
– Labels er ikke intuitive
• Bedre funktionalitet – Direkte adgang fra interface til den semantiske komponent i
teksten
– Udeladelse af dokumentklasser og færre SC
– Personalisering
Marianne Lykke Nielsen Oktober 2007
Opsummering
• Vi ønskede at udvikle indekseringsmetode til forbedring af præcision i søgning
• Vi udviklede metoden Indeksering med semantiske komponenter – som supplement til både manuel og automatisk indeksering
• Vi testede metodens effektivitet i forhold til praktiserende lægers informationssøgning i sundhed.dk
• Vi erfarede, at metoden sammenlignet med standard kontrol system øger præcision og ranking af dokumenter
• Vi ønsker at videreudvikle metoden: i.f.t. andre domæner, valg og brug af dokumentklasser og semantiske komponenter, automatisk opmærkning med SC – via automatisk kategorisering eller via opmærkning med f.eks. XML tags
Marianne Lykke Nielsen Oktober 2007
Litteratur
Dillon, M (1991). Reader’s model of text structures: the case of academic articles. International Journal of Man-Machine Studies, 35. 913 – 925.
Ely, J, Osheroff, J, Ebell, M, Bergus, G, Levy, B Chambliss, M & Evans, E (1999). Analysis of wquestions asked by family doctors regarding patient care. BMJ, 310 (7206). 358 – 361.
Ely, J, Osheroff, J, Gorman, P, Ebell, M, Bergus, G, Levy, B Chambliss, M, Pifer, E & Stavri, P (2000). A taxonomy of generic clinical questions: classification study. BMJ, 321 (7278). 429 - 432.
Hearst, M & Plaunt, C (1993). Subtopic structuring for full length document access. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval. 59 – 69.
Orlikowaki, W J & Yates, J (1994). Genre repertoire: the structuring of communicative practices in organizations. Administrative Science Quarterly, 39. 541 – 574.
Price, S, Delcambre, L & Nielsen, M L (2006). Using semantic components to express questions against document collections. Proceedings International Workshop on Health Information and Knowledge Management (HIKM 2006), Arlington (VA).
Price, S, Nielsen, M L, Delcambre, L & Vedsted, P (2007). Semantic components enhance retrieval of domain-specific documents. Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management (CIKM), Lisboa, November 6 - 8, 2007.
Marianne Lykke Nielsen Oktober 2007
Brugerevaluering - indeksering
• Sammenligning mellem traditionel emneordsindeksering og indeksering med semantiske komponenter
• Testpersoner: 16 danske sundhed.dk indeksører• Træningsforløb: introduktion indeksering med
semantiske komponenter (SC)• Indekseringsopgaver: 12 sundhed.dk dokumenter
– 6 dokumenter indekseres med SC– 6 dokumenter indekseres med emneord ved brug af ICPC, ICD-10,
Borgertesaurus
• Tilfældig sekvens af indekseringsrækkefølge og metode
• Data indsamling: – Indekseringsdata– Tidsforbrug– Brugernes vurdering af graden af brugervenlighed (ease of use),
tillid, tilfredshed
Marianne Lykke Nielsen Oktober 2007
Brugervenlighed
Brugervurdering af muligheder for præcision i søgning
(1 God – 5 Dårlig)
Hvor nemt at udtrykke
Hvor tilfreds med
resultat
Hvor brugbart at specificere
med Informations
type
Hvor brugbart at specificere
med Region
Hvor brugbart at specificere
med SC
Hvor brugbart at søge i
SC
System 1 2,02 2,12 1,90 1,54 - -
System 2 2,07 2,28 1,62 1,65 1,58 1,73
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Marianne Lykke Nielsen Oktober 2007
Søgeperformance
Mean nDCG for the Best Queries in Each Session
0
0.1
0.2
0.3
0.4
0.5
0.6
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
Document Rank
nD
CG
System 1 System 2