f2-annotering - cl.lingfil.uu.seevapet/undervisning/korpling07/f2-annotering.pdfvilken hierarkisk...
Post on 23-Aug-2019
216 Views
Preview:
TRANSCRIPT
Korpuslingvistik· vt 2007
Forelasning 2: Korpusannotering, textkodning,
textnormalisering
Eva Pettersson
evapet@stp.lingfil.uu.se
1
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Forelasningsoversikt
• Korpussammanstallning
• Textkodning
• Textnormalisering
• Annotering
• Flersprakiga korpusar
2
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Korpussammanstallning
Att tanka pa innan man paborjar sjalva korpusinsamlingen:
1. Vadar syftet med korpussammanstallningen?
2. Vilka genrer vill jag tacka?
3. Hur gor jag min korpus representativ for den/de genrer jag
vill t acka?
4. Hur stor bor min korpus vara for att vara relevant?
5. Vilken hierarkisk struktur ska jag ha pa korpusen?
6. Upphovsratt till de texter jag samlar in? Var laglig!
3
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Korpusurval (sampling)
• Val av element ur en storre mangd
• Mangden man valjer ifran kallaspopulation
• Den valda mangden kallassampel
• Syftetar oftast attastadkomma ett representativt sampel,
d.v.s. ett sampel som speglar populationen med avseende
pa vissa relevanta variabler
• Genom att undersoka ett representativt sampel kan man
dra slutsatser om populationen i stort
4
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Samplingsmetoder utan slump
• Lattillg anglighetsampling(convenience sampling)
man tar det somar narmast till hands, “fragar slakt och vanner”
• Styrd sampling (purposive sampling)
forskaren sjalv valjer ut element som passar bra
• Snobollssampling(snowball sampling)
valet av ett element bidrar till att andra element valjs (kedjebrev)
• Kvotsampling (quota sampling)
populationen delas in i olika kategorier (t.ex. kon ochalder) och
man letar reda pa element for varje kategori
Problem med icke-slumpmassiga metoder: daliga pa attastadkomma
representativa sampel
5
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Samplingsmetoder med slump
• Enkel slumpmassig sampling(simple random sampling)
alla element har lika stor chans att dras
• Systematisk slumpmassig sampling(systematic random
sampling)
borjar pa slumpmassigt stalle och drar sedan var i:te
element
• Stratifierad sampling (stratified sampling)
populationen delas in kategorier,strata(t.ex. kon, alder,
region) fran vilka slumpmassiga sampel dras.
Problem: Kanner vi till hela populationen?
6
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Textkodning
Att marka upp texten med information om t.ex. forfattare,
dokumenttyp, meningsgranser, styckeindelning etc.
Inte trivialt om man vill gora korpusen lattillganglig for
utomstaende!
Finns det nagon standard for detta?
7
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Tidig textkodningsstandard: COCOA
• Word COunt and COncordance on Atlas
• Mycket tidig textkodningsstandard
• Bl.a. i Longman-Lancaster Corpus och Helsinki Corpus
• Format: nabbparenteser innehallande dels en fordefinierad
variabel, dels vardet for variabeln
Exempel fran Helsinki Corpus:
<N LET TO HUSBAND> N = titel
<A BEAUMONT ELIZABETH> A = forfattare
<X FEMALE> X = kon
<H HIGH> H = social status
8
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Modern textkodningsstandard: TEI
• Text Encoding Initiative
• Syfte: Att ange en standard for uppmarkning av texter, sa
att alla foljer samma riktlinjer
• Har tillhandahallit SGML - Standard Generalised Markup
Language(underkategorier: XML, HTML, XHTML etc.)
9
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 TEI - format (1)
Overst i dokumentet: Header med information om forfattare,titel, datum etc.
Exempel ur SUC:
<titleStmt>
<title level=a>Smygrustning av raketvapen</title>
<title level=j>Dagens Nyheter</title>
<author>Mats Lundegard</author>
</titleStmt>
10
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 TEI - format (2)
Varje element (ord, meningar, stycken etc.) omges av en
starttagg (< >) och en sluttagg (</>). Exempel ur SUC:
<p>
<s id=aa01a-009>
<w n=91>Hur<ana><ps>HA<b>hur</w>
<w n=92>ar<ana><ps>VB<m>PRS AKT<b>vara</w>
<w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJ<b>det</w>
<w n=94>da<ana><ps>AB<b>da</w>
<w n=95>i<ana><ps>PP<b>i</w>
<name type=place>
<w n=96>Mellanostern<ana><ps>PM<m>NOM<b>Mellanostern</w>
</name>
<d n=97>?<ana><ps>MAD<b>?</d>
</s>
</p>
11
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 TEI - format (3)
• Entiteter omges av& och;
• Entiteterna kan vara t.ex. taggar:
polished&vvd;
• eller speciella tecken:
båt - bat
bär - bar
snö - sno
12
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Teckenkodning
• Hur tecknen representeras i datorn, d.v.s. attoversatta
tecken till bits och bytes
• Varje tecken far en unik kod som motsvarar tecknet (i en
teckentabell)
• Olika sprak kraver olika teckenuppsattningar beroende pa
alfabetet
• Viktigt vid overforing av texten fran ett system till ett annat
• Finns det nagon standard? Ja, flera...
• IANA - Internet Assigned Numbers Authority
13
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 ASCII-kodning
• ASCII - American Standard Code for Information
Interchange
• Utvecklat 1968
• 1 byte per tecken
• 7 bit for teckenkoderingen (128 mojliga tecken) + en
“paritetsbit” for att kontrollera teckenoverforingen
• Kontrolltecken for speciella funktioner (backspace, tab,
new line)
14
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 ASCII-kodning
-------------------------------------------------------------------
| 32 SP | 33 ! | 34 " | 35 # | 36 $ | 37 % | 38 & | 39 ’ |
| 40 ( | 41 ) | 42 * | 43 + | 44 , | 45 - | 46 . | 47 / |
| 48 0 | 49 1 | 50 2 | 51 3 | 52 4 | 53 5 | 54 6 | 55 7 |
| 56 8 | 57 9 | 58 : | 59 ; | 60 < | 61 = | 62 > | 63 ? |
| 64 @ | 65 A | 66 B | 67 C | 68 D | 69 E | 70 F | 71 G |
| 72 H | 73 I | 74 J | 75 K | 76 L | 77 M | 78 N | 79 O |
| 80 P | 81 Q | 82 R | 83 S | 84 T | 85 U | 86 V | 87 W |
| 88 X | 89 Y | 90 Z | 91 [ | 92 \ | 93 ] | 94 ^ | 95 _ |
| 96 ‘ | 97 a | 98 b | 99 c | 100 d | 101 e | 102 f | 103 g |
| 104 h | 105 i | 106 j | 107 k | 108 l | 109 m | 110 n | 111 o |
| 112 p | 113 q | 114 r | 115 s | 116 t | 117 u | 118 v | 119 w |
| 120 x | 121 y | 122 z | 123 { | 124 | | 125 } | 126 ~ | 127 DEL |
-------------------------------------------------------------------
15
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Alternativ?
ASCII utvecklat for engelska
Problem for sprak med annat alfabet, t.ex. ryska, kinesiskaeller arabiska
Problem for sprak med ”speciella” tecken, t.ex.a, a, o, e, u
Losningar:
1. Anvand ASCII och ge ”speciella” tecken specialkoder,t.ex. ä for a i HTML
2. Utoka den ursprungliga ASCII-tabellen med fler tecken -sprakberoende teckenkodningstabeller
3. Unicode - en enda standard for alla varldens sprak
16
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Sprakberoende teckenkodning
Utvecklat avInternationella StandardiseringsOrganisationen(ISO)
ISO 8859-1 (Latin 1) Vasteuropeiska sprak
ISO 8859-2 (Latin 2) Osteuropeiska sprak med det latinska alfabetet
ISO 8859-3 (Latin 3) Sydeuropeiska sprak
ISO 8859-4 (Latin 4) Nordeuropeiska sprak
ISO 8859-5 Osteuropeiska sprak med det kyrilliska alfabetet
ISO 8859-6 Arabiska
ISO 8859-7 Modern grekiska
ISO 8859-8 Hebreiska
ISO 8859-9 (Latin 5) Turkiska
ISO 8859-10 (Latin 6) Nordeuropeiska sprak, inkl. gronlandska och samiska
17
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Unicode
En enda teckenkodning for alla varldens sprak
Plats for meran en miljon tecken i samma tabell
Kraver meran 1 byte per tecken i lagringsutrymme:
UTF-8 1 byte/tkn for ASCII, 2-4 bytes for ovriga
UTF-16 2 bytes/tkn for vanligaste tecknen, 4 bytes for ovriga
UTF-32 4 bytes/tkn
UTF = Unicode Transformation Format
18
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Textnormalisering
Att ge texten ett enhetligt format, t.ex. infor annotering
• Meningssegmentering
• Tokenisering, d.v.s. att dela upp texten i de ingaende orden
Inte trivialt vad som raknas som ett ord!
19
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Tokeniseringsproblematik (1)
• Punkter
– Kan utgora del av forkortning, som it.ex.
– Kan utgora bade forkortningspunkt och
meningsavslutningspunkt pa samma gang:
Syftetar att minska samhallets utgifter for fardtjanst,
sjukresoretc.
• Apostrofer
– Kan fungera som citationstkn eller som del av ordet:
’the boys’vs the boys’ toys
– Ar isn’t att betrakta som ett eller tva ord?
20
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Tokeniseringsproblematik (2)
• Mellanslag utgor inte alltid ordavgransare
– sarskrivna sammansattningar -insurance company
– egennamn -New York
– fraser -i alla fall
– sifferuttryck -100 000
21
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Textnormalisering - TnT
TnT-taggaren:
• ett ord per rad
• tom rad markerar meningsslut
We
’re
going
.
Are
you
?
22
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Textnormalisering - Brill
Brill-taggaren:
• en mening per rad
• separera skiljetecken fran ord
We ’re going today , are you ?
‘‘ I ’m hungry , ’’ he said .
23
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Annotering
Att marka upp korpusen med lingvistisk information
• ordklasstaggning
• lemmatisering
• syntaktisk annotering (parsning)
• semantisk annotering
• textlingvistisk annotering
• fonetisk annotering
24
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Ordklasstaggning
Vad menas med ordklasstaggning?
• ”ren” ordklassinformation: substantiv, adjektiv, verb etc.
Dock ej trivialt vilka ordklasser som faktiskt existerar!
Traditionell svensk grammatik: 9 ordklasser
SUC: 23 ordklasser
• morfosyntaktisk information: genus, numerus, person etc.
Vad avgor graden av specificitet?
• syftet med taggningen
• sprakets uppbyggnad (rik morfologi - rik tagguppsattning)
25
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 SUC
• SUC -Stockholm Umea Corpus
• ca 1 miljon lopord
• manuellt taggad
• hog grad av specificitet:
– 23 ordklasser
– 11 morfosyntaktiska sardrag
– 9 typer av ”named entities” (person, djur, myt, stalle,
institution, produkt, arbete, handelse, annat)
26
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Morfosyntaktiska sardrag i SUC
• genus (utrum/neutrum/maskulin)
• numerus
• bestamdhet
• kasus (nominativ/genitiv)
• tempus
• diates (aktiv/s-form)
• modus (konjunktiv)
• participform
• komparationsgrad
• pronomenkasus (subjekt/objekt)
27
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 SUC
<name type=person>
<w n=146>Don<ana><ps>PM<m>NOM<b>Don</w>
<w n=147>Kerr<ana><ps>PM<m>NOM<b>Kerr</w>
</name>
<w n=148>ar<ana><ps>VB<m>PRS AKT<b>vara</w>
<w n=149>Mellanosternspecialist<ana><ps>NN<m>UTR SIN IND NOM<b>mellanosternspecialist</w>
<w n=150>pa<ana><ps>PP<b>pa</w>
<name type=inst>
<w n=151>The<ana><ps>PM<m>NOM<b>The</w>
<w n=152>International<ana><ps>PM<m>NOM<b>International</w>
<w n=153>Institute<ana><ps>PM<m>NOM<b>Institute</w>
<w n=154>for<ana><ps>PM<m>NOM<b>for</w>
<w n=155>Strategic<ana><ps>PM<m>NOM<b>Strategic</w>
<w n=156>Studies<ana><ps>PM<m>NOM<b>Studies</w>
</name>
<w n=157>i<ana><ps>PP<b>i</w>
<name type=place>
<w n=158>London<ana><ps>PM<m>NOM<b>London</w>
</name>
28
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 BNC
• BNC - British National Corpus
• ca 100 miljoner lopord talad och skriven brittisk engelska
• automatiskt taggad utan manuell efterredigering
• 61 olika taggar
• ca 4.7% flervalstaggar
• 2 miljoner ord stor delmangd rikare taggad och manuellt
efterredigerad - 139 olika taggar
29
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 BNC
<w DT0>Each
<w NN1>dance
<w VVD-VVN>followed
<w AJ0>particular
<w NN2>rules
<w VVD-VVN>laid
<w AVP>down
<w PRP>by
<w AT0>the
<w AJ0-NN1>dancing
<w NN2>masters
30
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 EAGLE
• EAGLE - Expert Advisory Groups on Language
Engineering Standards
• Grupp inom EU som bl.a. arbetar med EU-standard for
korpusuppmarkning
31
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 EAGLEs taggningsrekommendationer
• Obligatoriska sardrag - de ”stora” ordklasserna:nomen, verb, adjektiv, pronomen/determinerare, artikel,adverb,adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion
• Rekommenderade sardragFor nomen:
– numerus (singular/plural)
– genus (maskulinum/femininum/neutrum)
– kasus (nominativ/genitiv/dativ/ackusativ/vokativ)
– typ (egennamn eller ej)
• Valfria sardrag
– sprakoberoende: t.ex. raknebarhet for nomen
– sprakspecifika: t.ex. definithet for nomen
32
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Lemmatisering
Att byta ut alla ordformer i texten mot ordets grundform
Varfor ar detta av vikt inom korpuslingvistiken?
Exempel pa lemmatiserade korpusar:
• Susanne (engelska)
– Susanne -Surface and Underlying Structural Analysis
of Natural English
– delmangd av Brown-korpusen
– 130 000 lopord skriven amerikansk engelska
• SUC (svenska)
33
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Lemmatisering i Susanne
N01:1660m -PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]
N01:1660n -VBDR were be [Vwb.Vwb]
N01:1660p -AT1 a a [Ns:e.
N01:1660q -NN1c pair pair .
N01:1660r -IO of of [Po.
N01:1660s -VVNv lost lose [Np[Tn[Vn[VVNv&.
N01:1660t -YC +,-.
N01:1670a -VVNv whipped whip [VVNv-.VVNv-]VVNv&]Vn]Tn]
N01:1670b -NN2 kids kid .Np]Po]Ns:e]Fn:o]
N01:1670c -YC +,-.
N01:1670d -NP1s Morgan Morgan [Nns:s.Nns:s]
N01:1670e -VVDv thought think [Vd.Vd]
N01:1670f -CSA as as [Fa:t.
N01:1670g -PPHS1m he he [Nas:s.Nas:s]
N01:1670h -VVDi went go [Vd.Vd]
N01:1670i -IIt to to [P:q.
N01:1670j -NN1c bed bed .P:q]Fa:t]S]
N01:1670k -YF +. -.O]
34
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Lemmatisering i SUC
<s id=aa01a-013>
<w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUB<b>han</w>
<w n=167>skrattar<ana><ps>VB<m>PRS AKT<b>skratta</w>
<w n=168>lite<ana><ps>AB<m>POS<b>lite</w>
<w n=169>at<ana><ps>PP<b>at</w>
<w n=170>den<ana><ps>DT<m>UTR SIN DEF<b>den</w>
<w n=171>avfardande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOM<b>avfardande</w>
<w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOM<b>formulering</w>
<w n=173>och<ana><ps>KN<b>och</w>
<w n=174>fordjupar<ana><ps>VB<m>PRS AKT<b>fordjupa</w>
<w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOM<b>resonemang</w>
<d n=176>.<ana><ps>MAD<b>.</d>
</s>
35
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Syntaktisk annotering
• Parsning, d.v.s. grammatisk analys av texten
• Automatisk parsning ger mycket lagre precisionan t.ex.
automatisk ordklasstaggning - ofta manuell inblandning
• Tradbanker= parsade korpusar
• Tva huvudsakliga typer av parsning:
– frasstruktur
∗ skeleton parsing
∗ full parsing
– dependensrelationer (subjekt, objekt etc.)
36
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Frasstrukturparsning i Spoken English Corpus
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,
[Fr[N who_PNQS N][V ’d_VHD grown_VVN [J too_RG big_JJ
[P for_IF [N his_APP$ pool_NN1 [P on_II
[N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZ
arrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1
[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]
._. S]
S sentence
N nominalfras
FR relativsats
V verbfras
J adjektivfras
P prepositionsfras
37
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Dependensparsning i Talbanken (Nivres
MALT-parser)<sentence id="24" user="" date="">
<word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/>
<word id="2" form="hojs" postag="vb.prs.sfo" head="0" deprel="ROOT"/>
<word id="3" form="aldergransen" postag="nn.utr.sin.def.nom"
head="2" deprel="SUB"/>
<word id="4" form="till" postag="pp" head="2" deprel="ADV"/>
<word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/>
<word id="6" form="ar" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/>
<word id="7" form="." postag="mad" head="2" deprel="IP"/>
</sentence>
ADV adverbiell modifierare
SUB subjekt
DET determinerare
PR komplement till preposition
IP interpunktion
38
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Semantisk annotering
Tva typer:
1. uppmarkning av semantiska relationer sasom agent,
patient etc.
• FrameNet (http://framenet.icsi.berkeley.edu/)
2. uppmarkning av ordbetydelse, t.ex. hyponymirelationer
• WordNet (http://wordnet.princeton.edu/)
39
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Textlingvistisk annotering
• Diskurstaggar
London-Lund Corpus of Spoken English(Stenstrom):
– ursakter,sorry
– halsningar,hello
– artighetsfraser,pleasem.fl.
• Anaforisk annotering (pronomenreferens)
40
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Fonetisk annotering
• Transkribering
– MARSEC -The Machine Readable Spoken English
Corpus
• Prosodi
– London-Lund Corpus of Spoken English
Ska man marka upp hostningar, skratt etc.?
41
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Flersprakiga korpusar
Parallellkorpusar: Korpusar bestaende av samma texter pa
flera olika sprak.
Jamforbara korpusar: Korpusar bestaende av texter pa flera
sprak. Detar inte samma texter pa de olika spraken, men
de bor tillhora samma doman.
42
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Parallellkorpusar
• Hansard
– Engelsk-fransk parallellkorpus bestaende av kanadensiska
parlamentsprotokoll
– Manga miljoner lopord
– Delvis taggad och parsad
• EUROPARL
– Parallellkorpus bestaende av officiella
Europaparlamentstexter utgivna april 1996-december 2001
– Tillg angliga pa 11 olika EU-sprak
– Ca 20 miljoner lopord - 740 000 meningar per sprak
– http://people.csail.mit.edu/koehn/publications/europarl/
43
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Lankning (alignment)
Att para ihop segment i kallspraket (originaldokumentet) med
motsvarande segment i malspraket (denoversatta texten)
• meningslankning
• ord- och fraslankning
44
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Meningslankning
• Att para ihop meningar i kallspraket med motsvarande meningar imalspraket
• Mycket hog precision
• Ledtradar: styckeindelning, langdmatt, lexikon, sifferuttryck etc.
• Inte alltid ett-till-ett-forhallande mellan antalet meningar pa de olikaspraken. Exempel fran Jorg Tiedemann (2003):
1:1 I didn’t know what to say.- Jag visste inte vad jag skulle saga.
2:3 Her brother said to her, ”Why does Ras always say ’longwedge’for - ’language’, hetalks about African ’longwedges’? Sounds so funny.”
”Hur kommer det sig att Ras alltid sager ’sprak’ i stallet for ’sprak’? Han talar omafrikanska ’sprak’. Det later sa roligt.”
2:1 ”Go to hell.” Emanuelle sat up straight.
”Dra at skogen!” sade Emanuelle och satte sig kapprak.
45
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Ordlankning
• Att para ihop ord och fraser i kallspraket med motsvarandeord och fraser i malspraket
• Oftast statistiska metoder, sasom samforekomst ochstranglikhet
• Jorg Tiedemann anvander darutover lingvistiska metoder,sasom ordklasstaggning och lemmatisering
• Exempel pa ordlankningssystem:
– GIZA++ , bygger helt pa statistik
– Clue Aligner, bade statistik och lingvistiska ledtradar(dar GIZA++ ar en av de statistiska ledtradarna)
46
EV
AP
ET
TE
RS
SO
N·K
OR
PU
SL
ING
VIS
TIK·
VT
20
07 Parallellkorpusar - anvandningsomraden
• statistisk/exempelbaserad maskinoversattning
• extrahera flersprakiga lexikon for t.ex. maskinoversattning
(inte bara statistisk maskinoversattning)
• flersprakig informationssokning
• andraspraksinlarning
47
top related