f2-annotering - cl.lingfil.uu.seevapet/undervisning/korpling07/f2-annotering.pdfvilken hierarkisk...

47
Korpuslingvistik· vt 2007 F ¨ orel ¨ asning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson [email protected] 1

Upload: lamkien

Post on 23-Aug-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Korpuslingvistik· vt 2007

Forelasning 2: Korpusannotering, textkodning,

textnormalisering

Eva Pettersson

[email protected]

1

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Forelasningsoversikt

• Korpussammanstallning

• Textkodning

• Textnormalisering

• Annotering

• Flersprakiga korpusar

2

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Korpussammanstallning

Att tanka pa innan man paborjar sjalva korpusinsamlingen:

1. Vadar syftet med korpussammanstallningen?

2. Vilka genrer vill jag tacka?

3. Hur gor jag min korpus representativ for den/de genrer jag

vill t acka?

4. Hur stor bor min korpus vara for att vara relevant?

5. Vilken hierarkisk struktur ska jag ha pa korpusen?

6. Upphovsratt till de texter jag samlar in? Var laglig!

3

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Korpusurval (sampling)

• Val av element ur en storre mangd

• Mangden man valjer ifran kallaspopulation

• Den valda mangden kallassampel

• Syftetar oftast attastadkomma ett representativt sampel,

d.v.s. ett sampel som speglar populationen med avseende

pa vissa relevanta variabler

• Genom att undersoka ett representativt sampel kan man

dra slutsatser om populationen i stort

4

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Samplingsmetoder utan slump

• Lattillg anglighetsampling(convenience sampling)

man tar det somar narmast till hands, “fragar slakt och vanner”

• Styrd sampling (purposive sampling)

forskaren sjalv valjer ut element som passar bra

• Snobollssampling(snowball sampling)

valet av ett element bidrar till att andra element valjs (kedjebrev)

• Kvotsampling (quota sampling)

populationen delas in i olika kategorier (t.ex. kon ochalder) och

man letar reda pa element for varje kategori

Problem med icke-slumpmassiga metoder: daliga pa attastadkomma

representativa sampel

5

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Samplingsmetoder med slump

• Enkel slumpmassig sampling(simple random sampling)

alla element har lika stor chans att dras

• Systematisk slumpmassig sampling(systematic random

sampling)

borjar pa slumpmassigt stalle och drar sedan var i:te

element

• Stratifierad sampling (stratified sampling)

populationen delas in kategorier,strata(t.ex. kon, alder,

region) fran vilka slumpmassiga sampel dras.

Problem: Kanner vi till hela populationen?

6

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Textkodning

Att marka upp texten med information om t.ex. forfattare,

dokumenttyp, meningsgranser, styckeindelning etc.

Inte trivialt om man vill gora korpusen lattillganglig for

utomstaende!

Finns det nagon standard for detta?

7

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Tidig textkodningsstandard: COCOA

• Word COunt and COncordance on Atlas

• Mycket tidig textkodningsstandard

• Bl.a. i Longman-Lancaster Corpus och Helsinki Corpus

• Format: nabbparenteser innehallande dels en fordefinierad

variabel, dels vardet for variabeln

Exempel fran Helsinki Corpus:

<N LET TO HUSBAND> N = titel

<A BEAUMONT ELIZABETH> A = forfattare

<X FEMALE> X = kon

<H HIGH> H = social status

8

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Modern textkodningsstandard: TEI

• Text Encoding Initiative

• Syfte: Att ange en standard for uppmarkning av texter, sa

att alla foljer samma riktlinjer

• Har tillhandahallit SGML - Standard Generalised Markup

Language(underkategorier: XML, HTML, XHTML etc.)

9

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 TEI - format (1)

Overst i dokumentet: Header med information om forfattare,titel, datum etc.

Exempel ur SUC:

<titleStmt>

<title level=a>Smygrustning av raketvapen</title>

<title level=j>Dagens Nyheter</title>

<author>Mats Lundegard</author>

</titleStmt>

10

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 TEI - format (2)

Varje element (ord, meningar, stycken etc.) omges av en

starttagg (< >) och en sluttagg (</>). Exempel ur SUC:

<p>

<s id=aa01a-009>

<w n=91>Hur<ana><ps>HA<b>hur</w>

<w n=92>ar<ana><ps>VB<m>PRS AKT<b>vara</w>

<w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJ<b>det</w>

<w n=94>da<ana><ps>AB<b>da</w>

<w n=95>i<ana><ps>PP<b>i</w>

<name type=place>

<w n=96>Mellanostern<ana><ps>PM<m>NOM<b>Mellanostern</w>

</name>

<d n=97>?<ana><ps>MAD<b>?</d>

</s>

</p>

11

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 TEI - format (3)

• Entiteter omges av& och;

• Entiteterna kan vara t.ex. taggar:

polished&vvd;

• eller speciella tecken:

b&aring;t - bat

b&auml;r - bar

sn&ouml; - sno

12

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Teckenkodning

• Hur tecknen representeras i datorn, d.v.s. attoversatta

tecken till bits och bytes

• Varje tecken far en unik kod som motsvarar tecknet (i en

teckentabell)

• Olika sprak kraver olika teckenuppsattningar beroende pa

alfabetet

• Viktigt vid overforing av texten fran ett system till ett annat

• Finns det nagon standard? Ja, flera...

• IANA - Internet Assigned Numbers Authority

13

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 ASCII-kodning

• ASCII - American Standard Code for Information

Interchange

• Utvecklat 1968

• 1 byte per tecken

• 7 bit for teckenkoderingen (128 mojliga tecken) + en

“paritetsbit” for att kontrollera teckenoverforingen

• Kontrolltecken for speciella funktioner (backspace, tab,

new line)

14

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 ASCII-kodning

-------------------------------------------------------------------

| 32 SP | 33 ! | 34 " | 35 # | 36 $ | 37 % | 38 & | 39 ’ |

| 40 ( | 41 ) | 42 * | 43 + | 44 , | 45 - | 46 . | 47 / |

| 48 0 | 49 1 | 50 2 | 51 3 | 52 4 | 53 5 | 54 6 | 55 7 |

| 56 8 | 57 9 | 58 : | 59 ; | 60 < | 61 = | 62 > | 63 ? |

| 64 @ | 65 A | 66 B | 67 C | 68 D | 69 E | 70 F | 71 G |

| 72 H | 73 I | 74 J | 75 K | 76 L | 77 M | 78 N | 79 O |

| 80 P | 81 Q | 82 R | 83 S | 84 T | 85 U | 86 V | 87 W |

| 88 X | 89 Y | 90 Z | 91 [ | 92 \ | 93 ] | 94 ^ | 95 _ |

| 96 ‘ | 97 a | 98 b | 99 c | 100 d | 101 e | 102 f | 103 g |

| 104 h | 105 i | 106 j | 107 k | 108 l | 109 m | 110 n | 111 o |

| 112 p | 113 q | 114 r | 115 s | 116 t | 117 u | 118 v | 119 w |

| 120 x | 121 y | 122 z | 123 { | 124 | | 125 } | 126 ~ | 127 DEL |

-------------------------------------------------------------------

15

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Alternativ?

ASCII utvecklat for engelska

Problem for sprak med annat alfabet, t.ex. ryska, kinesiskaeller arabiska

Problem for sprak med ”speciella” tecken, t.ex.a, a, o, e, u

Losningar:

1. Anvand ASCII och ge ”speciella” tecken specialkoder,t.ex. &auml; for a i HTML

2. Utoka den ursprungliga ASCII-tabellen med fler tecken -sprakberoende teckenkodningstabeller

3. Unicode - en enda standard for alla varldens sprak

16

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Sprakberoende teckenkodning

Utvecklat avInternationella StandardiseringsOrganisationen(ISO)

ISO 8859-1 (Latin 1) Vasteuropeiska sprak

ISO 8859-2 (Latin 2) Osteuropeiska sprak med det latinska alfabetet

ISO 8859-3 (Latin 3) Sydeuropeiska sprak

ISO 8859-4 (Latin 4) Nordeuropeiska sprak

ISO 8859-5 Osteuropeiska sprak med det kyrilliska alfabetet

ISO 8859-6 Arabiska

ISO 8859-7 Modern grekiska

ISO 8859-8 Hebreiska

ISO 8859-9 (Latin 5) Turkiska

ISO 8859-10 (Latin 6) Nordeuropeiska sprak, inkl. gronlandska och samiska

17

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Unicode

En enda teckenkodning for alla varldens sprak

Plats for meran en miljon tecken i samma tabell

Kraver meran 1 byte per tecken i lagringsutrymme:

UTF-8 1 byte/tkn for ASCII, 2-4 bytes for ovriga

UTF-16 2 bytes/tkn for vanligaste tecknen, 4 bytes for ovriga

UTF-32 4 bytes/tkn

UTF = Unicode Transformation Format

18

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Textnormalisering

Att ge texten ett enhetligt format, t.ex. infor annotering

• Meningssegmentering

• Tokenisering, d.v.s. att dela upp texten i de ingaende orden

Inte trivialt vad som raknas som ett ord!

19

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Tokeniseringsproblematik (1)

• Punkter

– Kan utgora del av forkortning, som it.ex.

– Kan utgora bade forkortningspunkt och

meningsavslutningspunkt pa samma gang:

Syftetar att minska samhallets utgifter for fardtjanst,

sjukresoretc.

• Apostrofer

– Kan fungera som citationstkn eller som del av ordet:

’the boys’vs the boys’ toys

– Ar isn’t att betrakta som ett eller tva ord?

20

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Tokeniseringsproblematik (2)

• Mellanslag utgor inte alltid ordavgransare

– sarskrivna sammansattningar -insurance company

– egennamn -New York

– fraser -i alla fall

– sifferuttryck -100 000

21

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Textnormalisering - TnT

TnT-taggaren:

• ett ord per rad

• tom rad markerar meningsslut

We

’re

going

.

Are

you

?

22

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Textnormalisering - Brill

Brill-taggaren:

• en mening per rad

• separera skiljetecken fran ord

We ’re going today , are you ?

‘‘ I ’m hungry , ’’ he said .

23

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Annotering

Att marka upp korpusen med lingvistisk information

• ordklasstaggning

• lemmatisering

• syntaktisk annotering (parsning)

• semantisk annotering

• textlingvistisk annotering

• fonetisk annotering

24

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Ordklasstaggning

Vad menas med ordklasstaggning?

• ”ren” ordklassinformation: substantiv, adjektiv, verb etc.

Dock ej trivialt vilka ordklasser som faktiskt existerar!

Traditionell svensk grammatik: 9 ordklasser

SUC: 23 ordklasser

• morfosyntaktisk information: genus, numerus, person etc.

Vad avgor graden av specificitet?

• syftet med taggningen

• sprakets uppbyggnad (rik morfologi - rik tagguppsattning)

25

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 SUC

• SUC -Stockholm Umea Corpus

• ca 1 miljon lopord

• manuellt taggad

• hog grad av specificitet:

– 23 ordklasser

– 11 morfosyntaktiska sardrag

– 9 typer av ”named entities” (person, djur, myt, stalle,

institution, produkt, arbete, handelse, annat)

26

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Morfosyntaktiska sardrag i SUC

• genus (utrum/neutrum/maskulin)

• numerus

• bestamdhet

• kasus (nominativ/genitiv)

• tempus

• diates (aktiv/s-form)

• modus (konjunktiv)

• participform

• komparationsgrad

• pronomenkasus (subjekt/objekt)

27

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 SUC

<name type=person>

<w n=146>Don<ana><ps>PM<m>NOM<b>Don</w>

<w n=147>Kerr<ana><ps>PM<m>NOM<b>Kerr</w>

</name>

<w n=148>ar<ana><ps>VB<m>PRS AKT<b>vara</w>

<w n=149>Mellanosternspecialist<ana><ps>NN<m>UTR SIN IND NOM<b>mellanosternspecialist</w>

<w n=150>pa<ana><ps>PP<b>pa</w>

<name type=inst>

<w n=151>The<ana><ps>PM<m>NOM<b>The</w>

<w n=152>International<ana><ps>PM<m>NOM<b>International</w>

<w n=153>Institute<ana><ps>PM<m>NOM<b>Institute</w>

<w n=154>for<ana><ps>PM<m>NOM<b>for</w>

<w n=155>Strategic<ana><ps>PM<m>NOM<b>Strategic</w>

<w n=156>Studies<ana><ps>PM<m>NOM<b>Studies</w>

</name>

<w n=157>i<ana><ps>PP<b>i</w>

<name type=place>

<w n=158>London<ana><ps>PM<m>NOM<b>London</w>

</name>

28

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 BNC

• BNC - British National Corpus

• ca 100 miljoner lopord talad och skriven brittisk engelska

• automatiskt taggad utan manuell efterredigering

• 61 olika taggar

• ca 4.7% flervalstaggar

• 2 miljoner ord stor delmangd rikare taggad och manuellt

efterredigerad - 139 olika taggar

29

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 BNC

<w DT0>Each

<w NN1>dance

<w VVD-VVN>followed

<w AJ0>particular

<w NN2>rules

<w VVD-VVN>laid

<w AVP>down

<w PRP>by

<w AT0>the

<w AJ0-NN1>dancing

<w NN2>masters

30

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 EAGLE

• EAGLE - Expert Advisory Groups on Language

Engineering Standards

• Grupp inom EU som bl.a. arbetar med EU-standard for

korpusuppmarkning

31

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 EAGLEs taggningsrekommendationer

• Obligatoriska sardrag - de ”stora” ordklasserna:nomen, verb, adjektiv, pronomen/determinerare, artikel,adverb,adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion

• Rekommenderade sardragFor nomen:

– numerus (singular/plural)

– genus (maskulinum/femininum/neutrum)

– kasus (nominativ/genitiv/dativ/ackusativ/vokativ)

– typ (egennamn eller ej)

• Valfria sardrag

– sprakoberoende: t.ex. raknebarhet for nomen

– sprakspecifika: t.ex. definithet for nomen

32

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Lemmatisering

Att byta ut alla ordformer i texten mot ordets grundform

Varfor ar detta av vikt inom korpuslingvistiken?

Exempel pa lemmatiserade korpusar:

• Susanne (engelska)

– Susanne -Surface and Underlying Structural Analysis

of Natural English

– delmangd av Brown-korpusen

– 130 000 lopord skriven amerikansk engelska

• SUC (svenska)

33

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Lemmatisering i Susanne

N01:1660m -PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]

N01:1660n -VBDR were be [Vwb.Vwb]

N01:1660p -AT1 a a [Ns:e.

N01:1660q -NN1c pair pair .

N01:1660r -IO of of [Po.

N01:1660s -VVNv lost lose [Np[Tn[Vn[VVNv&.

N01:1660t -YC +,-.

N01:1670a -VVNv whipped whip [VVNv-.VVNv-]VVNv&]Vn]Tn]

N01:1670b -NN2 kids kid .Np]Po]Ns:e]Fn:o]

N01:1670c -YC +,-.

N01:1670d -NP1s Morgan Morgan [Nns:s.Nns:s]

N01:1670e -VVDv thought think [Vd.Vd]

N01:1670f -CSA as as [Fa:t.

N01:1670g -PPHS1m he he [Nas:s.Nas:s]

N01:1670h -VVDi went go [Vd.Vd]

N01:1670i -IIt to to [P:q.

N01:1670j -NN1c bed bed .P:q]Fa:t]S]

N01:1670k -YF +. -.O]

34

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Lemmatisering i SUC

<s id=aa01a-013>

<w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUB<b>han</w>

<w n=167>skrattar<ana><ps>VB<m>PRS AKT<b>skratta</w>

<w n=168>lite<ana><ps>AB<m>POS<b>lite</w>

<w n=169>at<ana><ps>PP<b>at</w>

<w n=170>den<ana><ps>DT<m>UTR SIN DEF<b>den</w>

<w n=171>avfardande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOM<b>avfardande</w>

<w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOM<b>formulering</w>

<w n=173>och<ana><ps>KN<b>och</w>

<w n=174>fordjupar<ana><ps>VB<m>PRS AKT<b>fordjupa</w>

<w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOM<b>resonemang</w>

<d n=176>.<ana><ps>MAD<b>.</d>

</s>

35

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Syntaktisk annotering

• Parsning, d.v.s. grammatisk analys av texten

• Automatisk parsning ger mycket lagre precisionan t.ex.

automatisk ordklasstaggning - ofta manuell inblandning

• Tradbanker= parsade korpusar

• Tva huvudsakliga typer av parsning:

– frasstruktur

∗ skeleton parsing

∗ full parsing

– dependensrelationer (subjekt, objekt etc.)

36

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Frasstrukturparsning i Spoken English Corpus

[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,

[Fr[N who_PNQS N][V ’d_VHD grown_VVN [J too_RG big_JJ

[P for_IF [N his_APP$ pool_NN1 [P on_II

[N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZ

arrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1

[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]

._. S]

S sentence

N nominalfras

FR relativsats

V verbfras

J adjektivfras

P prepositionsfras

37

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Dependensparsning i Talbanken (Nivres

MALT-parser)<sentence id="24" user="" date="">

<word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/>

<word id="2" form="hojs" postag="vb.prs.sfo" head="0" deprel="ROOT"/>

<word id="3" form="aldergransen" postag="nn.utr.sin.def.nom"

head="2" deprel="SUB"/>

<word id="4" form="till" postag="pp" head="2" deprel="ADV"/>

<word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/>

<word id="6" form="ar" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/>

<word id="7" form="." postag="mad" head="2" deprel="IP"/>

</sentence>

ADV adverbiell modifierare

SUB subjekt

DET determinerare

PR komplement till preposition

IP interpunktion

38

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Semantisk annotering

Tva typer:

1. uppmarkning av semantiska relationer sasom agent,

patient etc.

• FrameNet (http://framenet.icsi.berkeley.edu/)

2. uppmarkning av ordbetydelse, t.ex. hyponymirelationer

• WordNet (http://wordnet.princeton.edu/)

39

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Textlingvistisk annotering

• Diskurstaggar

London-Lund Corpus of Spoken English(Stenstrom):

– ursakter,sorry

– halsningar,hello

– artighetsfraser,pleasem.fl.

• Anaforisk annotering (pronomenreferens)

40

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Fonetisk annotering

• Transkribering

– MARSEC -The Machine Readable Spoken English

Corpus

• Prosodi

– London-Lund Corpus of Spoken English

Ska man marka upp hostningar, skratt etc.?

41

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Flersprakiga korpusar

Parallellkorpusar: Korpusar bestaende av samma texter pa

flera olika sprak.

Jamforbara korpusar: Korpusar bestaende av texter pa flera

sprak. Detar inte samma texter pa de olika spraken, men

de bor tillhora samma doman.

42

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Parallellkorpusar

• Hansard

– Engelsk-fransk parallellkorpus bestaende av kanadensiska

parlamentsprotokoll

– Manga miljoner lopord

– Delvis taggad och parsad

• EUROPARL

– Parallellkorpus bestaende av officiella

Europaparlamentstexter utgivna april 1996-december 2001

– Tillg angliga pa 11 olika EU-sprak

– Ca 20 miljoner lopord - 740 000 meningar per sprak

– http://people.csail.mit.edu/koehn/publications/europarl/

43

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Lankning (alignment)

Att para ihop segment i kallspraket (originaldokumentet) med

motsvarande segment i malspraket (denoversatta texten)

• meningslankning

• ord- och fraslankning

44

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Meningslankning

• Att para ihop meningar i kallspraket med motsvarande meningar imalspraket

• Mycket hog precision

• Ledtradar: styckeindelning, langdmatt, lexikon, sifferuttryck etc.

• Inte alltid ett-till-ett-forhallande mellan antalet meningar pa de olikaspraken. Exempel fran Jorg Tiedemann (2003):

1:1 I didn’t know what to say.- Jag visste inte vad jag skulle saga.

2:3 Her brother said to her, ”Why does Ras always say ’longwedge’for - ’language’, hetalks about African ’longwedges’? Sounds so funny.”

”Hur kommer det sig att Ras alltid sager ’sprak’ i stallet for ’sprak’? Han talar omafrikanska ’sprak’. Det later sa roligt.”

2:1 ”Go to hell.” Emanuelle sat up straight.

”Dra at skogen!” sade Emanuelle och satte sig kapprak.

45

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Ordlankning

• Att para ihop ord och fraser i kallspraket med motsvarandeord och fraser i malspraket

• Oftast statistiska metoder, sasom samforekomst ochstranglikhet

• Jorg Tiedemann anvander darutover lingvistiska metoder,sasom ordklasstaggning och lemmatisering

• Exempel pa ordlankningssystem:

– GIZA++ , bygger helt pa statistik

– Clue Aligner, bade statistik och lingvistiska ledtradar(dar GIZA++ ar en av de statistiska ledtradarna)

46

EV

AP

ET

TE

RS

SO

N·K

OR

PU

SL

ING

VIS

TIK·

VT

20

07 Parallellkorpusar - anvandningsomraden

• statistisk/exempelbaserad maskinoversattning

• extrahera flersprakiga lexikon for t.ex. maskinoversattning

(inte bara statistisk maskinoversattning)

• flersprakig informationssokning

• andraspraksinlarning

47