dantermbank-projektet på vej mod en dansk termbank i oslo 2014/pia hoffmann... · • automatisk...
TRANSCRIPT
DanTermBank-projektet
På vej mod en dansk
termbank
Pia Hoffmann og Bodil N. Madsen
Copenhagen Business School & DANTERMcentret
Alle termer på rette sted?
1
Dansk Sprognævn udtaler…
Dansk sprogs status 2012
En af de overordnede anbefalinger:
”at dansk fagsprog styrkes, fx ved at der oprettes en flersproglig termbank
hvor fagudtryk på dansk og fremmedsprog samt deres definitioner
registreres og gøres tilgængelige for alle”
2
Hvorfor?
• Undervisning
• Folkeskolen
• Ungdomsuddannelser
• Videregående uddannelser
• Styrke dansk
• Styrke parallelsproglighed
• Modvirke domænetab
• Støtte virksomheder og organisationer i deres
kommunikation
3
Hvad er formålet?
At kunne etablere grundlaget for en
dansk terminologi- og vidensbank
4
5
Projektgruppen
Bodil Nistrup Madsen
Hanne Erdman Thomsen
Tine Lassen
Louise Pram Nielsen
Pia Lyngby Hoffmann
Anna Odgaard Ingram
Radu Dudici
Bo Krantz Simonsen
Hvad er målet for projektet?
At udvikle
metoder og værktøjer til formålet
6
Udvikling af avancerede metoder og værktøjer til:
• automatisk ekstraktion af viden om begreber fra tekster
• automatisk samkøring af data fra eksisterende kilder
• automatisk opbygning, validering og opdatering af
ontologier
• brugergruppeorienteret vidensformidling
DanTermBank-projektet
7
DanTermBank-projektet
8
Hvorfor ontologier?
• Letter afklaringen af begreber inden for specifikke domæner
• Er værdifulde for slutbrugeren – giver et hurtigt overblik
Basis for:
• videnstrukturering og videndeling i virksomheder og organisationer
• ontologi-baseret dokumentstyring
• offentligt tilgængelig information online
• metadata-taxonomier
• datamodellering som basis for udvikling af it-systemer
• intelligent, ontologi-baseret søgning
• software til semantisk tekstkontrol
• ontologi-baserede oversættelsessystemer
• …
9
10
trækspecifikation:
attribut-værdipar
inddelingskriterier
polyhierarki nedarvning
typerelation
Karakteristika ved
terminologiske ontologier
Udfordringer
Ontologiopbygning er meget tidskrævende og der er derfor behov for
automatiske værktøjer:
1. Vidensekstraktion: Hvordan kan man automatisk ekstrahere
information om specifikke begrebsrelationer, karakteristika og
inddelingskriterier fra tekster?
2. Ontologiopbygning: Hvordan kan man automatisk opbygge
terminologiske ontologier på basis af resultaterne fra
vidensekstrationen?
3. Ontologivalidering: Hvordan kan man automatisk validere
ontologiudkast som er resultat af 1. og 2?
11
Hvad har vi nået?
• At udvikle prototypeværktøjer til automatisk
• Korpusopbygning
• Tagging
• Ekstraktion af termkandidater
• Ekstraktion af begrebsrelationer og opbygning af ontologier
• Validering af ontologier
• At teste forskellige målgruppers anvendelse af grænseflader –
forsøg med eye-tracking (ph.d.-projekt)
12
Delvist automatiseret arbejde
• dtCrawler – Indsamler et relevant korpus
• dtTAG – Tagger korpus
• dtX – Ekstraherer termer
• dtR – Ekstraherer relationer
• dtV – Validerer ontologien
13
Prototype 1: dtCrawler
14 DTB workshop,
Copenhagen, 2012
15 DTB workshop,
Copenhagen, 2012
Prototype 2: dtTAG
Prototype 3: dtX - Extractor
16 DTB workshop,
Copenhagen, 2012
Prototype 3: dtX
17 DTB workshop,
Copenhagen, 2012
18 DTB workshop,
Copenhagen, 2012
Prototype 3: dtX
19 DTB workshop,
Copenhagen, 2012
Prototype 4: dtR
20
Prototype 5: dtV -Validate
21
Prototype 5: dtV • polyhierarchical structure
• function from attributes to values
• inheritance of feature
specifications
• primary feature specifications
reflected by dimension
specifications
• uniqueness of primary feature
specifications
• uniqueness of dimensions
• grouping by subdividing
dimensions
• distinction of mother and
daughter
• distinction of sisters
Værdihierarki
22
Ikke-valideret automatisk genereret
ontologi
(forebyggelse og sundhedsfremme og
folkesundhed)
23
24
Udsnit af en ontologi for træning i
forbindelse med afklaring af
muskelskeletlidelser
Hvad har vi mere nået?
• at registrere ISO’s datakategorier i en database og komme med
forslag til forbedringer af inddeling af og adgang til disse i Data
Category Registry, ISOcat
https://catalog.clarin.eu/isocat/interface/index.html og
• http://vip.i-term.dk/login.php (DanTermBank Data Categories:
brugernavn: PUBLIC og pw: PUBLIC)
• at teste brugen af ontologier i forskellige brugerscenarier
• folkeskolen
• Gymnasiet
• at udvikle de øverste niveauer i en egnet emneklassifikation
25
26
www.isocat.
org
27
abbreviation
acronym
clipped term
common name
entry term
equation
formula
full form
initialism
internationalism
international scientific term
logical expression
part number
phraseological unit
transcribed form
transliterated form
short form
shortcut
sku
standard text
string
symbol
synonym
synonymous phrase
variant
28
ISO 12620:1999 A.2.1 term type
29
Stanlex-taxonomien
30
eDITion-2013-1
DanTermBank-taxonomien
Brugerscenarier - formål
• At undersøge i hvor høj grad en vidensbase med ontologier kan
hjælpe eleverne med deres besvarelser inden for et fagligt
område.
• Folkeskoler
• Gymnasium
31
Pilotprojekt
Answered without term base
Correct
Partlycorrect
Wrong
Answered with term base
Correct
Partlycorrect
Wrong
Emneklassifikation
Forslag til hovedkategorier
Jura, politik, stat, økonomi og handel
Law, politics, public affairs, economics and trade
Mennesker, samfund, historie og kultur
People, society, history and culture
Kunst, litteratur, design og fritid
Arts, literature, design and recreation
Naturvidenskab, biovidenskab, matematik og geografi
Natural and life sciences, mathematics and geography
Teknologi, industri, erhverv og miljø
Technology, industry, trades and environment
Opsummering
Der er brug for en dansk terminologi- og vidensbank
En forudsætning herfor er automatisering af terminologiarbejdet
DanTermBank-projektet udvikler værktøjer mhp oprettelse af en
termbank
Tekstindsamling
Termekstraktion
Relationsekstraktion
Ontologivalidering
Se mere på: www.dantermbank.dk
34
Links
• Link til hjemmeside:
http://dantermbank.cbs.dk/dtb
• Testside
www.dtb.i-term.dk
• Afsluttende konference og workshop d. 8. og 9. januar 2015
http://dantermbank.cbs.dk/dtb/arrangementer2/afsluttende_konference
35
Spørgsmål?
36