alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... ·...

40
Problemanalyse Alfabet og datamaskin Språkteknologi Alfabet og språkteknologi Ciprian-Virgil Gerstenberger Universitetet i Tromsø Norge Skriftspråk och språkteknologi 15.05.2011 Arjeplog, Sverige

Upload: others

Post on 30-Sep-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Alfabet og språkteknologi

Ciprian-Virgil Gerstenberger

Universitetet i TromsøNorge

Skriftspråk och språkteknologi15.05.2011 Arjeplog, Sverige

Page 2: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Page 3: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Page 4: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Page 5: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

En betydning→ flere betegnelser

Ciprian-Virgil Gerstenberger ellerCiprian Virgil Gerstenberger?

demokrati eller folkestyre?

triangel eller trekant?

bestemme eller avgjøre?

sentrum eller centrum?

⇒ synonymi eller redundans?⇒ navnlikhet eller overflødighet?

Page 6: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Flere betydninger← en betegnelse

Ciprian:1. Ciprian Gerstenberger2. Ciprian Porumbescu

triangel:1. trekant (geometri)2. musikkinstrument

⇒ polysemi /homonymi eller ambiguitet?⇒ flertydighet eller tvetydighet?

Page 7: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

To sider, en relasjon

Avbildning fra A til B

A⇒ B1, B2, B3

Avbildning fra B til A

A1, A2, A3⇐ B

Page 8: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Ideelt

A⇒ B og A⇐ B

A⇔ B

Page 9: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Lyd↔ tegn

Rumensk

⇒ â (România), î (înainte)

Engelsk

y

⇒ /j/ (you), /i/ (heavy)

Page 10: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Bruce’s eksempel fra Lulesamisk

Extra-lange konsonanter som er ofte ikke markert

1. maná⇒ du drar2. manná⇒ hun/han drar3. manná⇒ hun/han begynner å drar

Page 11: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Michaels eksempel om kildinsamiske alfabetvarianter

Page 12: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Menneske vs. datamaskin

• mennesker klarer seg i begge situasjoner• for datamaskiner må alt være klart og tydeligt• det som er vanskelig for mennesker er enda vanskeligere å

tydeliggjøre for datamaskiner(Bruce: ‘Skriverregler skal være lærbare!’)

⇒ kunnskap, regler for å tydeliggjøre

Page 13: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling

• ASCII (American Standard Code for InformationInterchange)

Page 14: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling

• UTF-8: hvert tegn kodet som tall (utvetydig)

Page 15: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Kan man få tegn i tillegg for pitesamisk?• Ja, men vil man det virklig?

identitet⇔ brukbarheit

Page 16: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Problemer

• Operativsystem (Windows, Mac, Linux, Symbian, Android,iPhone)

• Aplikasjoner = programmer: Nettleser (Internet Explorer,Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice)

• Grafiske programmer har forsjellige elementer: tekstfelt,labels, etc.

• Skriftkoding og -egenskaper (fonttype, fontstørrelse,fontfarge, etc.)

Page 17: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn i kildinsamisk

Page 18: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Safari på Mac

Page 19: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Google Chrome på Mac

Page 20: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn (diacritics)

• Unngå spesialtegn!• Tenk også på mobiltelefoner: tekstmelding, epost,

ordbøker

⇒ Alternativet: tegnkjede, tegnsekvens!

Page 21: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Tegnkjede

Lulesamisk: xxxngxxx, yyyngyyy

⇒ Prisen: tvetydighet!

Tysk: Hoehe, Oede, Poet

⇒ Höhe, Öde, Pöt

Page 22: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Tastatur

• utvikling av tastatur med spesialtegn er mulig• ikke uten problemer på ulike operativsystemer med ulike

programmer

⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!

Page 23: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Sørsamisk alfabet

• bokstaver vs. tegn vs. tegnkjeder• blanding av norsk og svensk• bytte tastaturen hele tida (selv med snarvei er det tungt)• brukere gjør det ofte ikke

Page 24: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!

Page 25: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!

Page 26: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Er representasjoner av tegn virklig utvetydig pådatamaskinen?

• For datamaskin ja, men ikke for mennesker!

Page 27: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Bruk av feil tegn to ganger på den samme NRK-sida

Page 28: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Vårt arbeid med den kildin-russiske ordboka

Page 29: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Data for språkteknologi

• å lage gode programmer krever gode data• feil på lavt nivå fortsetter på høyere nivåer• feilsøking og retting krever mye tid og energi

Page 30: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Samisk språkteknologi: Giellatekno

• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk,skoltesamisk, kvensk, meankeli, etc.

• utvikle ressurser og applikasjoner for alle samiske språk

⇒ språkdata i elektronisk format

Page 31: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkteknologi

alt som man gjør med og for språk på datamaskin

• språkdokumentasjon• rettskrivningsverktøy• elektroniske ordbøker• språkanalyse• læreprogrammer• maskinoversetting

⇒ datamaskin som svært nyttig hjelpemiddel

Page 32: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkdokumentasjon

• Kildinsamisk

• Pitesamisk

Page 33: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Rettskrivningsverktøy: Divvun

Page 34: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Page 35: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Page 36: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Page 37: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkanalyse

• Ordformanalyse (morfologi)

• Ordrekkefølgeanalyse (setningsanalyse, syntaks)

Page 38: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Læreprogrammer: Oahpa!

Page 39: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Maskinoversetting

Page 40: Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... · 2011. 5. 18. · Problemanalyse Alfabet og datamaskin Språkteknologi Konklusjoner

Problemanalyse Alfabet og datamaskin Språkteknologi

Konklusjoner

• ingen bra avbildning fra lyd til tegn (perfekt ortografi)• probleme må analyseres og avgjøres (navnlikhet vs.

overflødighet og flertydighet vs. tvetydighet)• kompromisser• datamaskiner er nyttig hjepler men krever mye nye

kunnskaper• for å lage gode språkapplikasjoner trengs rene data