alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... ·...
TRANSCRIPT
Problemanalyse Alfabet og datamaskin Språkteknologi
Alfabet og språkteknologi
Ciprian-Virgil Gerstenberger
Universitetet i TromsøNorge
Skriftspråk och språkteknologi15.05.2011 Arjeplog, Sverige
Problemanalyse Alfabet og datamaskin Språkteknologi
Innhold
Problemanalyse
Alfabet og datamaskin
Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi
Innhold
Problemanalyse
Alfabet og datamaskin
Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi
Innhold
Problemanalyse
Alfabet og datamaskin
Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi
En betydning→ flere betegnelser
Ciprian-Virgil Gerstenberger ellerCiprian Virgil Gerstenberger?
demokrati eller folkestyre?
triangel eller trekant?
bestemme eller avgjøre?
sentrum eller centrum?
⇒ synonymi eller redundans?⇒ navnlikhet eller overflødighet?
Problemanalyse Alfabet og datamaskin Språkteknologi
Flere betydninger← en betegnelse
Ciprian:1. Ciprian Gerstenberger2. Ciprian Porumbescu
triangel:1. trekant (geometri)2. musikkinstrument
⇒ polysemi /homonymi eller ambiguitet?⇒ flertydighet eller tvetydighet?
Problemanalyse Alfabet og datamaskin Språkteknologi
To sider, en relasjon
Avbildning fra A til B
A⇒ B1, B2, B3
Avbildning fra B til A
A1, A2, A3⇐ B
Problemanalyse Alfabet og datamaskin Språkteknologi
Ideelt
A⇒ B og A⇐ B
A⇔ B
Problemanalyse Alfabet og datamaskin Språkteknologi
Lyd↔ tegn
Rumensk
⇒ â (România), î (înainte)
Engelsk
y
⇒ /j/ (you), /i/ (heavy)
Problemanalyse Alfabet og datamaskin Språkteknologi
Bruce’s eksempel fra Lulesamisk
Extra-lange konsonanter som er ofte ikke markert
1. maná⇒ du drar2. manná⇒ hun/han drar3. manná⇒ hun/han begynner å drar
Problemanalyse Alfabet og datamaskin Språkteknologi
Michaels eksempel om kildinsamiske alfabetvarianter
Problemanalyse Alfabet og datamaskin Språkteknologi
Menneske vs. datamaskin
• mennesker klarer seg i begge situasjoner• for datamaskiner må alt være klart og tydeligt• det som er vanskelig for mennesker er enda vanskeligere å
tydeliggjøre for datamaskiner(Bruce: ‘Skriverregler skal være lærbare!’)
⇒ kunnskap, regler for å tydeliggjøre
Problemanalyse Alfabet og datamaskin Språkteknologi
Utvikling
• ASCII (American Standard Code for InformationInterchange)
Problemanalyse Alfabet og datamaskin Språkteknologi
Utvikling
• UTF-8: hvert tegn kodet som tall (utvetydig)
Problemanalyse Alfabet og datamaskin Språkteknologi
Spørsmål
• Kan man få tegn i tillegg for pitesamisk?• Ja, men vil man det virklig?
identitet⇔ brukbarheit
Problemanalyse Alfabet og datamaskin Språkteknologi
Problemer
• Operativsystem (Windows, Mac, Linux, Symbian, Android,iPhone)
• Aplikasjoner = programmer: Nettleser (Internet Explorer,Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice)
• Grafiske programmer har forsjellige elementer: tekstfelt,labels, etc.
• Skriftkoding og -egenskaper (fonttype, fontstørrelse,fontfarge, etc.)
Problemanalyse Alfabet og datamaskin Språkteknologi
Spesialtegn i kildinsamisk
Problemanalyse Alfabet og datamaskin Språkteknologi
Kildinsamisk i nettleseren Safari på Mac
Problemanalyse Alfabet og datamaskin Språkteknologi
Kildinsamisk i nettleseren Google Chrome på Mac
Problemanalyse Alfabet og datamaskin Språkteknologi
Spesialtegn (diacritics)
• Unngå spesialtegn!• Tenk også på mobiltelefoner: tekstmelding, epost,
ordbøker
⇒ Alternativet: tegnkjede, tegnsekvens!
Problemanalyse Alfabet og datamaskin Språkteknologi
Tegnkjede
Lulesamisk: xxxngxxx, yyyngyyy
⇒ Prisen: tvetydighet!
Tysk: Hoehe, Oede, Poet
⇒ Höhe, Öde, Pöt
Problemanalyse Alfabet og datamaskin Språkteknologi
Tastatur
• utvikling av tastatur med spesialtegn er mulig• ikke uten problemer på ulike operativsystemer med ulike
programmer
⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!
Problemanalyse Alfabet og datamaskin Språkteknologi
Sørsamisk alfabet
• bokstaver vs. tegn vs. tegnkjeder• blanding av norsk og svensk• bytte tastaturen hele tida (selv med snarvei er det tungt)• brukere gjør det ofte ikke
Problemanalyse Alfabet og datamaskin Språkteknologi
Løsning på datamaskin
⇒ Godta alle varianter, vis det riktige!
Problemanalyse Alfabet og datamaskin Språkteknologi
Løsning på datamaskin
⇒ Godta alle varianter, vis det riktige!
Problemanalyse Alfabet og datamaskin Språkteknologi
Spørsmål
• Er representasjoner av tegn virklig utvetydig pådatamaskinen?
• For datamaskin ja, men ikke for mennesker!
Problemanalyse Alfabet og datamaskin Språkteknologi
Bruk av feil tegn to ganger på den samme NRK-sida
Problemanalyse Alfabet og datamaskin Språkteknologi
Vårt arbeid med den kildin-russiske ordboka
Problemanalyse Alfabet og datamaskin Språkteknologi
Data for språkteknologi
• å lage gode programmer krever gode data• feil på lavt nivå fortsetter på høyere nivåer• feilsøking og retting krever mye tid og energi
Problemanalyse Alfabet og datamaskin Språkteknologi
Samisk språkteknologi: Giellatekno
• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk,skoltesamisk, kvensk, meankeli, etc.
• utvikle ressurser og applikasjoner for alle samiske språk
⇒ språkdata i elektronisk format
Problemanalyse Alfabet og datamaskin Språkteknologi
Språkteknologi
alt som man gjør med og for språk på datamaskin
• språkdokumentasjon• rettskrivningsverktøy• elektroniske ordbøker• språkanalyse• læreprogrammer• maskinoversetting
⇒ datamaskin som svært nyttig hjelpemiddel
Problemanalyse Alfabet og datamaskin Språkteknologi
Språkdokumentasjon
• Kildinsamisk
• Pitesamisk
Problemanalyse Alfabet og datamaskin Språkteknologi
Rettskrivningsverktøy: Divvun
Problemanalyse Alfabet og datamaskin Språkteknologi
Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi
Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi
Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi
Språkanalyse
• Ordformanalyse (morfologi)
• Ordrekkefølgeanalyse (setningsanalyse, syntaks)
Problemanalyse Alfabet og datamaskin Språkteknologi
Læreprogrammer: Oahpa!
Problemanalyse Alfabet og datamaskin Språkteknologi
Maskinoversetting
Problemanalyse Alfabet og datamaskin Språkteknologi
Konklusjoner
• ingen bra avbildning fra lyd til tegn (perfekt ortografi)• probleme må analyseres og avgjøres (navnlikhet vs.
overflødighet og flertydighet vs. tvetydighet)• kompromisser• datamaskiner er nyttig hjepler men krever mye nye
kunnskaper• for å lage gode språkapplikasjoner trengs rene data