in1140: introduksjon til språkteknologi [3ex] forelesning #3 · inf1140: introduksjon til...
TRANSCRIPT
![Page 1: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/1.jpg)
INF1140: Introduksjon til språkteknologi
IN1140: Introduksjon til språkteknologi
Forelesning #3
Lilja Øvrelid
Universitetet i Oslo
06 september 2018
![Page 2: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/2.jpg)
Tema for i dag
I Språklige dataI Språk og hjerneI Korpusdata
I Ord:I MorfologiI MorfemetI Orddannelse
2
![Page 3: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/3.jpg)
Tema for i dag
I Språklige dataI Språk og hjerneI Korpusdata
I Ord:I MorfologiI MorfemetI Orddannelse
2
![Page 4: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/4.jpg)
Språklige data
3
![Page 5: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/5.jpg)
Språkteknologiske metoder
I 2000-tallet →: empirisk revolusjonI Maskinlæring
I Datamaskiner kan lære fra data: fange opp mønstre og generalisere tilnye eksempler
4
![Page 6: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/6.jpg)
Språklige data
I Språkteknologi i 2017 er en data-drevet disiplin.I Trenger språklige data
I IntrospeksjonI Faktisk språkbruk – korpusdata
I Språkteknologi: programmer som generaliserer over språklige mønstreI Korpusdata helt sentralt
I Menneskelig språkprossessering: hvordan modelleres språk i hjernen?
5
![Page 7: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/7.jpg)
Språk og hjerne
I Neurolingvistikk – lingvistisk fagområde som studerer de mekanismer iden menneskelige hjerne som kontrollerer språk (-forståelse, -produksjonog - tilegnelse)
I Prøver å lokalisere språk i hjernen, for å kunne forsto hvordan språketblir prosessert og hvordan det er organisert.
6
![Page 8: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/8.jpg)
Hvor er språk lokalisert?
I Data fra atypisk språkI Afasi
I språkvansker etter hjerneskadeI forskjellige typer avhengig av hvor skaden har oppstått
7
![Page 9: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/9.jpg)
Hvor er språk lokalisert?
Brocas afasiUgrammatisk språk, problemer med forståelse av syntaktisk kompleksekonstruksjonerI Yes... ah... Monday... er... Dad and Peter H... (his own name), andDad.... er... hospital... and ah... Wednesday... Wednesday, nineo’clock... and oh... Thursday... ten o’clock, ah doctors... two... an’doctors... and er... teeth... yah
8
![Page 10: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/10.jpg)
Hvor er språk lokalisert?
Wernickes afasiSemantisk usammenhengende, men stort sett syntaktisk korrektI I felt worse because I can no longer keep in mind from the mind of theminds to keep me from mind and up to the ear which can be to findamong ourselves.
9
![Page 11: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/11.jpg)
Måling av aktivitet i hjernen
I Antagelse: syntaks (grammatisk struktur) og semantikk (betydning) erplassert på forskjellige steder i hjernen.
I Moderne teknologi (MRI, CT, ERP) kan gi et enda mer nøyaktig bildeI Forandringer i hjerneaktivitet
10
![Page 12: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/12.jpg)
KorpusdataI Et korpus (tekstkorpus) er en strukturert samling teksterI Elektronisk lagretI Kan brukes til:
I Empiriske data for lingvistiske studier (motsetning til introspeksjon)I Treningsmateriale for språkteknologisk maskinlæring
11
![Page 13: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/13.jpg)
Korpusdata
I Korpus laget for å representere et visst språk eller språklig variantI Språklige data – to muligheter:
1. Arkivere alle setninger i et språk: UMULIG2. Plukke ut et mindre utvalg (“sample”) av språket: MULIG
I 2 er mulig men ikke trivieltI Et korpus bør konstrueres slik at det er representativt
12
![Page 14: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/14.jpg)
Et tenkt korpus for norsk
I Vi må inkludere forskjellige typer tekster:I Skrift og tale? [registere]I Fra forskjellige deler av landet? Et utvalg av dialekter? [regionaledialekter]
I Kun fra 2000-tallet? Hva med 1990? Eller 1950? [tidsperioder]I Språk produsert av både menn og kvinner? Alle aldersgrupper, inkludertbarn? Hva med utdanningsnivå? Sosial status? [demografi]
I Skal vi inkludere nyhetsstoff? Hva med kronikker, romaner og e-post?Tegneserier og tekstmeldinger? [sjanger]
13
![Page 15: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/15.jpg)
Eksisterende korpuser
I (Forsøk på) representative korpuser for engelskI British National Corpus (BNC), 100M ord (register, domene, forskjelligetidsperioder, sjanger, demografi osv)
I American National Corpus, under utviklingI Store korpuser:
I Gigaword (∼1.7 milliarder ord, nyhetstekster)I Common crawl (3 milliarder websider)
14
![Page 16: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/16.jpg)
Eksisterende korpuser
I Korpuser for andre språk enn engelskI Arabisk GigawordI Chinese newsI Norsk Aviskorpus
I norske nyheter 1998-2014I ca. 1.5 millarder ord
I NoWaC (“Norwegian Web as Corpus”)I web-dokumenter fra .no-domenerI ca 700 millioner tokens
I NoTa-korpusetI transkripsjoner av samtaler og intervju fra informanter født og oppvokst i
Oslo-områdetI transkribert tekst og taleI søk her: http://www.tekstlab.uio.no/nota/oslo
15
![Page 17: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/17.jpg)
Eksisterende korpuser
I Parallelle korpuser: oversatte teksterI EUROPARL: EU-parlamentetI OPUS: undertekster fra TV
16
![Page 18: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/18.jpg)
Annotering
I Korpuser inneholder forskjellige typer informasjon og har gjennomgåttforskjellige former for (automatisk/manuell) annotering
I Delt opp i enheter som tilsvarer et ord, tokens: ord, tall, tegnsetting →tokenisering
I Stemming eller lemmatisering: reduksjon til baseform
17
![Page 19: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/19.jpg)
AnnoteringI Korpuser med manuell annotering
I Mennesker merker opp lingvistisk informasjonI Ordklasse (feks Brown)
I The/at Fulton/np County/np Grand/jj Jury/nn said/vbd Friday/nr an/atinvestigation/nn . . .
I Syntaks (trebanker, feks Penn Treebank)
I Ordsemantikk, sentiment, etc.18
![Page 20: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/20.jpg)
Manuelt annotert korpus for maskinlæring
OrdbetydningSKIM the pages for a clearer insight: ReadingShe SKIMS through the novel which seems to fascinate them: ReadingRemove the vanilla pod, SKIM the jam, and let it cool: RemovingWe SKIMMED across the surface of that sodding lake whilst all around usgathered the dark hosts of hell: Self_motion
Trene en klassifiserer:I Tren på Reading, Removing og Self_motion instanserI Appliser på ny instans: hvilken klasse ligner den mest på?I A red grouse SKIMMED low over the heather: ???
19
![Page 21: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/21.jpg)
Oppsummering: språklige data
I Menneskelig språkprosesseringI afasi-studierI måling av hjerneaktivitet
I KorpusdataI representativitetI størrelseI annoteringI omfattende bruk i språkteknologiske modeller
20
![Page 22: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/22.jpg)
Morfologi
21
![Page 23: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/23.jpg)
Morfologi
I Hvordan ord er bygd oppI Hvordan ord bøyesI Hvordan ord dannesI Hvordan ord deles i ordklasser
22
![Page 24: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/24.jpg)
Ordet
I Relativ grei betydning i dagligtaleI I språkteknologi kan det derimot brukes på flere forskjellige måter
Kari gikk på tur i skogen . Hun elsker turer i skog .
I 13 ord (tokens)I men også 11 ord (typer)I eller 9 ord (leksem = leksikon oppslag)
23
![Page 25: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/25.jpg)
Tokenisering
I Dele opp en tekst i løpende ordI Første skritt i nesten alle språkteknologiske oppgaverI Definisjon:a string of contiguous alphanumeric characters with space on eitherside; may include hyphens and apostrophes, but no other punctutationmarks(Kucera & Francis, 1967)
24
![Page 26: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/26.jpg)
Tokenisering: problemer
I PunktumI del av forkortelser: f.eks.I både forkortelse og setningsslutt (Kjøper gamle møbler, bøker, klær, etc.)
I ApostrofI ’the children’ vs. the children’s toysI I’ll, isn’t, don’t
25
![Page 27: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/27.jpg)
Tokenisering: problemer
I BindestrekI Ett eller flere ord?I Oslo-borgerenI skrive- og leseopplæring
I MellomromI Egennavn: New YorkI Faste fraser: i fjor, blant annetI Tall: 100 000
I Annet:I 10,26 og 10:26I URL’er
26
![Page 28: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/28.jpg)
Ordet
I Kunnskap om ord viktig del av det å beherske et språkI Kobling mellom en lydsekvens og en spesifikk betydningI Vilkårlig kobling:
I samme lyd - forskjellig betydning (to, two)I forskjellig lyd - samme betydning (sofa, couch)
27
![Page 29: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/29.jpg)
Ordet
I Viktig skille i språk:I Innholdsord: substantiver, verb og adjektiv
I Betegner konsepter som objekter, handlinger, egenskaper og ideerI barn, skrive, spennende, anarkismeI Åpen klasse: stadig nye ord, feks hverdagsintegrering, ståhjuling
I Funksjonsord: konjunksjoner, preposisjoner, artikler og pronomenI Betegner grammatiske relasjoner, lite semantisk innholdI den – bestemthet, til – eierskapI Lukket klasse: ikke ofte nye tilskudd, (hen?)
28
![Page 30: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/30.jpg)
Ordet
I GJETTEKONKURRANSE
29
![Page 31: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/31.jpg)
Ordet
I Hvilken skal ut?I gulestI gulI gulereI rød
30
![Page 32: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/32.jpg)
Ordet
I Hvilken skal ut?I gulestI gulI gulereI rød bøyningsformer av gul
31
![Page 33: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/33.jpg)
Ordet
I Hvilken skal ut?I pengerI grammatikkI rødI ere
32
![Page 34: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/34.jpg)
Ordet
I Hvilken skal ut?I pengerI grammatikkI rødI ere det er et suffiks
33
![Page 35: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/35.jpg)
Ordet
I Hvilken skal ut?I ingI hetI elseI an
34
![Page 36: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/36.jpg)
Ordet
I Hvilken skal ut?I ingI hetI elseI an det er et prefiks, de andre er suffikser
35
![Page 37: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/37.jpg)
Morfemet
I Ord har intern struktur som er regelstyrtI U-mulig, u-rolig, u-intelligentI hva betyr u-?I *mulig-u, *rolig-u
I Ord kan bestå av flere meningsbærende enheterI Morfemet – elementær enhet (gr. ’morphe’ – form)I Morf+ologi – vitenskapen om (ord)former
36
![Page 38: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/38.jpg)
Morfemet
Et ord kan bestå av ett eller flere morfemer:I ett morfem: boy, desire, morphI to morfemer: boy+ish, desire+able, morph+ologyI tre morfemer: boy+ish+ness, desire+able+ityI fire morfemer: gentle+man+li+ness, un+desire+able+ityI mer enn fire morfemer: un+gentle+man+li+ness,anti+dis+establish+ment+ari+an+ism
37
![Page 39: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/39.jpg)
Morfemet
I Morfemet er den elementære (minste) lingvistiske enhetenI Kan ikke analyseres videreI Språk består i hovedsak av diskrete enheter som kan kombineres(kreativitet)
I et bloggbart tema
38
![Page 40: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/40.jpg)
Morfemet
I Vår morfologiske kunnskap har to hovedkomponenterI Frie morfemer: ord. boy, desire, gentle, manI Bundne morfemer: affikser.
I prefikser: un-, pre-, bi-I suffikser: -ing, -ish, -ness
I Språk benytter affikser i varierende gradI Noen språk har infikser
I Bontov (Filippinene): fikas ’sterk’, fumikas ’å være sterk’I un-fuckin-believable
I Noen språk har sirkumfikser (affiks som har to deler, en som settes ibegynnelsen av ordet, og en som settes på slutten)
I Tysk: ge+lieb+t ’har elsket’
39
![Page 41: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/41.jpg)
Morfemet
I Morfologisk komplekse ord består av :I Rot + en eller flere affikser (hus+lig)I En rot er et ordelement som ikke kan deles opp i mindre(meningsbærende) deler
40
![Page 42: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/42.jpg)
Orddannelse
I Kunnskap om morfologi innebærer kunnskap om regler for orddannelseI Kombinerer morfemer til komplekse ord (kjærlig+het,(jern+bane)+(arbeid+er))
I Adj + -het → SubstantivI Verb + -er → Substantiv (en som gjør Verb)
41
![Page 43: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/43.jpg)
Avledning
I En avledning er et ord som er dannet fra et annet ord ved hjelp av etavledningsaffiks (prefiks eller suffiks),
I Avledningsbasen kan være et rotord (barn) eller en avledning (barnslig)I Avledningsaffiksene er bundne morfemer med klart semantisk innhold(som innholdsord, men er ikke ord)
AvledningsaffikserI u-- negasjon: umulig, uvel, uroligI for- - foran: forelese, forbokstav, formannI -er - den som utfører handlingen: fisker, baker
42
![Page 44: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/44.jpg)
Avledning
I Avledningsaffikser bidrar med betydningI Når et suffiks blir lagt til endres som regel ordklassenI Det er siste del av ordet som bestemmer ordklasse, derfor endrer ikkeprefikser ordklassen (villig - uvillig, arbeide - bearbeide)
SuffikserI -er: Verb → Substantiv, f.eks. fisker, bakerI -ing: Verb → Substantiv, f.eks. bading, baking, banningI -lig: Substantiv → Adjektiv, f.eks. alvorlig, hyggelig, latterlig, vanligI -n: Adjektiv → Verb, f.eks. gulne, lysne, stivne
43
![Page 45: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/45.jpg)
Bøyning
Bøyningsmorfemer markerer kategorier som tempus, numerus, kasus, etc.
Bøyningskategorier i norskI Genus (kjønn): alle substantiver har fast genus og ord som står tilsubstantivet samsvarsbøyes (en snill katt, et snilt beltedyr)
I Tall: entall og flertall bil-bilerI Bestemthet: uttrykkes i hovedsak ved suffiks (bilen, huset) eller (jf.engelsk bestemt artikkel the)
I Kasus: uttrykker den funksjonen en frase har som setningsledd. Tokasus i norsk: nominativ og akkusativ (skille subjektet fra objektet isetningen). I hovedsak på pronomen hun-henne
I . . .
44
![Page 46: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/46.jpg)
Bøyning
I norsk har vi følgende bøyningskategorier (forts.):I Grad: tre grader uttrykkes ved bøyning, positiv, komparativ, superlativ(fin-finere-finest)
I Tempus: angir tidspunktet for handlingen eller tilstanden somsetningen beskriver. I norsk uttrykkes to tempus ved bøyning: presens(nåtid) og preteritum (fortid) spiser-spiste
45
![Page 47: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/47.jpg)
Bøyning vs. avledning
I Forskjeller på bøyning og avledning:1. Ved bøyning skifter ordet aldri ordklasse, ved avledning skifter ordet som
oftest ordklasseI barn - barnetI barn - barnslig
2. Alle prefikser er avledningsaffikser, suffikser derimot kan brukes både tilbøyning og avledning
3. Bøyning er mer produktiv
46
![Page 48: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/48.jpg)
Bøyning vs. avledning
I Forskjeller på bøyning og avledning (forts.):4. Bøyningssuffikser i norsk har alltid svakt trykk (bilen, spiste), mens
avledningssuffikser kan ha sterkt trykk (sentral) eller bitrykk tenkbar5. Bøyningsendelser ligger alltid i slutten av ordet, men avledningsendelsene
kommer tidligere (når vi har begge deler) galskapen
47
![Page 49: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/49.jpg)
Sammensetninger
I En tredje form for orddannelse, svært vanlig i germanske språk, her:norsk
I Ord som består av deler som hver for seg også er egne ordI To ledd:
Forledd Etterleddhus- taketter- prøvefram- på
I Etterleddet bestemmer vanligvis ordklasse
48
![Page 50: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/50.jpg)
Sammensetninger
I De fleste sammensetninger er determinative: etterleddet girhovedbetydning, mens forleddet avgrenser. bilhjul, hjulbåt
Flere forskjellige relasjoner:I tømmerhytte – hytte av tømmer (materiale)I feriehytte – hytte for ferie (hensikt)I fjellhytte – hytte på fjellet (sted)I sommerhytte – hytte for sommerbruk (tid for bruk)I selvbetjeningshytte – hytte med selvbetjening (måten man brukerhytten på)
49
![Page 51: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/51.jpg)
Morfologisk typologi
I Typologi: delområde av lingvistikkI Klassifiserer språk i henhold til ulike egenskaperI I morfologisk typologi brukes to skalaer:
I graden av syntese (antall morfemer i hvert ord)I graden av fusjon (antall betydninger av hvert morfem)
50
![Page 52: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/52.jpg)
Isolerende språk
Syntese: ett ord = ett morfem
51
![Page 53: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/53.jpg)
Polysyntetiske språkSyntese: høy morfem-til-ord fordeling
52
![Page 54: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/54.jpg)
Agglutinerende språk
Fusjon: ett morfem = én betydning
53
![Page 55: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/55.jpg)
Bøyningsspråk
Fusjon: ett morfem kan ha flere betydninger
54
![Page 56: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/56.jpg)
Oppsummering morfologi
I Handler om ord:I hvordan ord er bygd opp (morfemer)I hvordan nye ord dannes (avledning, sammensetning)I hvordan ord bøyes
I Skiller mellom frie og bundne morfemer (affikser)I Morfologisk komplekse ord består av
I Rot + en eller flere affikser (hus+lig)I Morfologi er noe som skiller verdens språk: syntese og fusjon
55
![Page 57: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet](https://reader033.vdocuments.site/reader033/viewer/2022051408/600f3ff115e91631e65635c1/html5/thumbnails/57.jpg)
Oblig 1a
I Teoretisk: morfologiI Praktisk:
I Tekst i PythonI lese og skrive til filI telle forekomster i tekstI tekst som streng og liste
I Tokenisering av tekst (første forsøk)I Enkel tokeniseringI Feilanalyse
I Frist: 19/9 kl 23:59I Devilry
56