tillämpad prosodi inom artificiell intelligens -...
TRANSCRIPT
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
Tillämpad prosodi inom
Artificiell Intelligens
Matilda Andersson
Linköpings universitet
Linköping
2010-01-03
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
Sammanfattning
Detta är en fördjupningsuppgift skriven för kursen Artificiell intelligens 2 på Linköpings Universitet
och handlar om hur prosodi kan tillämpas inom just A.I.
Med prosodi menas hur språkets rytm och intonation kan studeras, det går utanför skriftspråket och
tar istället hänsyn till fonetik och fonem. Och vilka användningsområden har då prosodi inom
artificiell intelligens ? Det är den frågan som rapporten ger svar på, hur prosodi tillämpas i olika
system som i gamlingen ToBI, ett intonationsmodell och hans nyare kusin Tilt. Feeltrace, ett verktyg
för att kunna ge ett mått på hur känslorna i ett samtal ändras över tid genom att lyssna på de
samtalandes tonfall finns också med som ett program som använder sig av prosodi. Rapporten visar
också på ett möjligt sätt som det skulle gå att tillämpa prosodi i taligenkänningssystem.
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
Innehållsförteckning Inledning .................................................................................................................................................. 1
Syfte ..................................................................................................................................................... 1
1. Prosodi ................................................................................................................................................. 2
2. Exempel på användningsområde ........................................................................................................ 4
3. Exempel på system och program ........................................................................................................ 7
3.2 Intonationmodeller ....................................................................................................................... 7
3.2.1 ToBI ......................................................................................................................................... 7
3.2.2 Tilt, ToBIs kusin ...................................................................................................................... 8
3.1 Feeltrace ........................................................................................................................................ 9
4. Avslutande diskussion ....................................................................................................................... 10
Referenslista .......................................................................................................................................... 11
Litteratur............................................................................................................................................ 11
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
1
Inledning Prosodi är något som har funnits lika lång tid som människan, betoningar och den språkliga melodin
är lika naturlig för oss som att gå. Introduktionen av A.I. gav upphov till nya användningsområden för
prosodin och några av dem tas upp i det här fördjupningsarbetet.
Uppbyggnaden av rapporten är så att först kommer en förklaring av prosodi som är viktigt att förstå
då denna fördjupningsuppgift är kopplad till det ordet. Efter det skriver jag om ett exempel på
användningsområde inom artificiell intelligens där prosodi kan användas. Jag ger även några exempel
på program och system som har prosodi som huvudsaklig användning för att fungera. Rapporten
avslutas med en diskussion.
Syfte Syftet med detta fördjupningsarbete är att visa på hur prosodi kan tillämpas och redan tillämpas
inom Artificiell Intelligens genom att visa på både modeller och färdiga system.
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
2
1. Prosodi ”The use of suprasegmental features to convey ‘postlexical’ or sentence-level pragmatic meanings in
a linguistically structured way”
(Ladd 1996:6)
Prosodi tar hänsyn till både fonetik, hur språkljuden bildas och uppfattas, samt fonologi, hur
språkljuden fungerar inom ett språk. Med prosodi menas hur vi kan studera språkets rytm och
intonation. I citatet ovan beskriver Ladd sin definition av prosodi och för att lättare förstå
definitionen så finns det några viktiga nyckelord att ta i beaktande:
Termen suprasegmental går bortom det fonetiska och används som ett samlingsnamn för rytm hos
stavelser, ord och fraser, intonation (melodi) för ord, fraser eller satser samt betoning av stavelser
(1996:6-7).
Postlexical eller sentence-level är relationen mellan en mening och dess diskurs eller externa mening.
Hur vi kan visa på om det vi säger är en fråga eller ett påstående men även hur vi kan betona delar i
en mening för visa vilket/vilka ord som har mest eller minst informationsvärde (1996:7-8).
Ett exempel är denna mening där betoningen göra stor skillnad:
Hon ville inte gå hem
Hon ville inte gå hem
Det finns även tre indelningar av prosodin, alla lika viktiga för att talet ska fungera: prosodisk
structure, prosodisk prominence och tune (Jurafsky & Martin 2009:296)
Prosodic Structure
Prosodisk struktur visar på hur vissa ord lätt går att gruppera tillsammans utan några pausar medan
andra inte passar lika bra tillsammans. När en sådan paus kommer i en fras kallas den
mellanliggande fras vilket kan visas så här:
Hon ville|inte| gå hem
Pausen kommer där orden inte grupperar lika bra, där det blir ett slags avbrott i talet. Men för att
förstå närmare hur mellanliggande fraser fungerar behövs först en förklaring av tonaccent.
Tonaccenten visar på hur ett ord ska tolkas genom olika toner kallade akut tonaccent eller grav
tonaccent. Dessa visas genom ett accenttecken som är satt åt olika håll. Skillnaden mellan tom`ten
(runt huset) och tom´ten (som kommer vid jul) eller an`den (i dammen) och an´den (i flaskan) visas
genom att när tonaccenten höjs ligger accenttecken åt vänster och när tonaccenten sänks ligger den
åt höger.
Tonaccenten kan även visas genom att använda bokstäver, en notation skapad av Pierrehumbert. H
är för hög ton och L för låg ton för att på så sätt lättare visa de olika kombinationerna av tonaccenter
som finns och deras betydelse. Om bokstaven har en * efter sig indikerar det en betonad stavelse. I
det engelska språket kan dessa, förutom att stå själva, representeras på fyra olika sätt: L+H* , L*+H,
H+L* och H*+L, men de kan aldrig vara två likadana toner i en kombination (Breul 2004:147-148)
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
3
En mellanliggande fras innehåller åtminstone en tonaccent eller en kombination av dessa (L*+H, H’+L
etc.) samt avslutas med något som kallas phraseaccent, vilket är en ton för att kontrollera
grundfrekvensen( ), den lägsta naturliga frekvensen i en deltonsserie, mellan två fraser (2004:148).
En intonationsfras är uppbyggd av en eller fler mellanliggande fraser och avslutas alltid med en
gränston som alltid ligger vid gränsen eller slutet av fraser och utmärks genom % (2004:148).
Ett exempel på hur en intonationsfras kan se ut är sådan:
Hon ville inte gå hem, men det ville han
Intonationfrasen gräns märks mycket tydligare än den mellanliggande frasens gränser då det är
vanligt att en sådan gräns för intonationsfrasen förkommer vi ett kommatecken vilket blir en naturlig
paus (Jurafsky & Martin 2009:296)
Prosodic Prominence
Genom att säga ett ord högre, långsammare, genom att variera etc. Kan ett ord bli mera
framträdande än resterande ord och lyssnaren blir mer medveten om vad talaren har att säga.
Genom att ge ord en tonaccent går det att göra dem mer framträdande och ändra meningen av en
fras, som förklarat ovan. Men för att göra ett ord mer framträdande används inte bara tonaccent
utan även något som kallas nukleär accent vilket är den starkaste accenten i en fras och skrivs oftast i
VERSALER eller kursivt:
Vill du gå hem?
Nej, jag vill inte gå hem, vi tar bilen istället.
Andra sätta att ändra framträdandet av ord är att inte ge dem någon accent samt att försvaga icke-
betonade vokaler vilket betyder att den vokalen inte uttalas lika starkt som de resterande
(2009:298). Den vanligaste reducerade vokalen i det engelska språket är schwa[ə], som återfinns i
ord som 'a' i parakeet [perəki:t] och 'e' i taken [’teɪkən] (2009: 258).
Tune
Röstens melodi är hur varierar under en tidsperiod, hur den blir högre eller lägre. Exempel på
detta är skillnaden mellan påstående och fråga:
1.1 Samma mening läses som både påstående och fråga, vilket gör att F0 varieras.
Melodin representeras av någon sekvens av tonaccent samt phrase accent och kan representeras av
de olika kombinationerna nämnda ovan. En typisk ja/nej-fråga som den på bilden representeras som
L*H H% (Breul 2004:148).
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
4
2. Exempel på användningsområde Inom artificiell intelligens har prosodi olika användningsområden och kan användas som huvudsak
eller med andra system för att göra dem bättre.
Taligenkänningssystem har blivit bra på att känna igen ord men kan fortfarande ha svårt att utläsa
när en mening slutar och en annan tar vid. Den har också svårt att veta vad talaren egentligen menar
med det denna säger då detta kan bero på personens humör, detta för att sådana system ofta inte
använder sig av prosodi. På senare år har det blivit vanligare att även prosodi blir använt i ex.
talsystem då det ger mer kunskap om det talade språket och på så sätt minimera de fel som kan
uppstå. Shriberg & Stolcke (2004) förklarar ett ramverk som ska gå att applicera på diverse program
och system:
“[…] some linguistic unit U (e.g., words or utterances) is to be classified as one of several target classes
S. The role of prosody is to provide us with a set of features F that can help predict S. In a probabilistic
framework, we wish to estimate P(S|F).”
Det de beskriver här är den akustiska modellen P(signal|ord) som beskriver hur ord låter ex. bara för
att ’ceiling’ börjar med ett mjukt c så låter det detsamma som ’sealing’ (Russel & Norvig 2003:568)
“In most such tasks it is also a good idea to use the information contained in the word sequence W
associated with U, and we therefore generalize the modeling task to estimate P(S|W,F). In fact, W
and F are not restricted to pertain only to the unit in question; they may refer to the context of U as
well.”
Vidare förklara de att de måste ta hänsyn till vilken kontext eller ordsekvens U är associerad med och
lägger då till W. Så den slutliga formen är P(S|W,F) vilket ska berätta hur S går att beräkna givet F
och W . De säger att det program eller system som ska använda sig av detta ska lära upp sig själv, inte
att all kunskap finns om allt från första början.
En avgörande aspekt av deras arbete är att i den statiska klassifieraren så är beroendet mellan de
prosodiska dragen (F) och målet(S) (ex. dialoghandling) modellerat. Detta kringår behovet av att
manuellt behöva kommentera dessa för träningssyftet, vilket i sin tur undviker problem av
felskrivning .
För att ge systemet någon slags kunskap att börja med framställer de drag från forced alignment, en
transkription av den talade datan som finns och är vanligtvis på fonem-nivå som kan vara baserad på
antingen sanna ord eller på output från taligenkänning. Systemet jämför sedan transkriptionen och
den talade datan med varandra för att se när vissa segment av talet överensstämmer med speciella
ord i skriften. Detta ger en rik avkastning av s.k. råa drag som reflekterar , pausar och segmentiell
varaktighet m.m. De råa dragen normaliseras på olika sätt. Det som nu har hänt är att systemet har
fått kunskap om pausar och vad sådana kan betyda, talhastighet samt varierande längder på
stavelser och ord.
För att modellera P(S|W,F) behövs det en statistisk kvantifierar som kan hantera en blandning av
kategoriska och drag av riktiga värden. Detta har lett till att de använder sig av beslutsträd som
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
5
klassifierare, även om de också förklarar att beslutsträd har just två stora problem:
Första problemet är att komma över girighet, d.v.s. komma över att algoritmen tar den bästa vägen
men endast ur ett lokalt perspektiv, vilket kan leda till att en optimal lösning inte hittas. Det andra
problemet är att göra trädet mottagligt för prosodiska drag i händelse av snedställda klasstorlekar.
Det första problemet löstes genom att använda sig av tekninken att välja en delmängd av releventa
drag och använda det som en algoritm som ’viras’ runt standardträdets växande algoritm. Geom att
eleminera de drag som kan vara skadliga hittas ofta en bättre klassifierare.
De löste det andra problemet genom att låta modellen träna på en version som redan var utprovad
av målets fördelning där alla klasser hade samma sannolikhet som föregående. Detta gör så att
prosodiska klassifierare blir jämförda mellan olika korpusar och handlingar.
De har använt sig av statistiska språkmodeller som går att känna igen från taligenkäning. En annan
språkmodell är använd för att effektivt kunna modellera joint distribution av målklassen och ord W, P
(W,S).
Den prosodiska modellen kan kombineras med en språkmodell på olika sätt och ett av dem är detta:
HMM-baserad förening: Från den prosodiska modellen beräknas sannolikheten P(F|S,W) som sedan
används till en observation av sannolikheten i en hidden Markov modell (HMM) som kommer från
den andra av de två språkmodellerna nämnda ovan.
För att lättare förstå hur HMM fungerar så är här ett exempel.
Person A och B sitter på var sin sida om en skärm och kan inte se vad den andra gör. A ska ta redat på
vad B gör men B får inte berätta. Vad B däremot får berätta är om han är nöjd eller missnöjd. A vet
att B kan utföra två möjliga handlingar, att plugga eller lyssna på musik och vet också att B endast har
möjlighet att byta aktivitet en gång i timmen. A måste även känna till övergångsannolikheterna d.v.s
sannolikheten att B väljer att byta aktivitet samt känna till observationssanolikheterna d.v.s.
sannolikheten hur mycket B uppskattar att utföra en handling. Sist måste A även ha en uppfattning
om hur stor sannolikheten är att B utför en viss handling. I detta fall är det dolda aktiviteten som B
utför.
2.1 Ett diagram som visar en dold markovmodell av exemplet ovan
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
6
Metoden möjliggör för person A, givet en serie av yttranden från person B gällande dess nivå av
uppskattning, att beräkna den följd av aktiviteter som har givit upphov till dessa ytranden.
Anledningen till att HMM används i detta fall mellan prosodi och taligenkänning är för att kunna koda
de klasserna som inte är observerbara, alltså S.
Genom att associera dessa tillstånd med den prosodiska sannolikheten kommer vi få en modell av F,
S och W och HMM-algoritmen kan användas för att beräkna P(S|F,W) som införlivar alla tillgänlig
kunskap.
Detta tillvägagångssätt visar relationen mellan ord och prosodi på en detaljerad nivå, men den kräver
även förutsättningen att prosodi och ord är villkorligt oberoende givet S.
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
7
3. Exempel på system och program
3.2 Intonationmodeller
3.2.1 ToBI
1992 skapades Tone and Break Indices, en av de mest använda lingvistiska modellerna för att kunna
transkribera prosodi. ToBI skapades för att kunna uppfylla vissa mål där de viktigaste var:
Transkribera prosodi, vilket till en början var ett mycket brett mål men som sedan fokuserade
mer på just betoningar.
Use”Theory friendly” machine-readable notation. Detta mål kom till av önskan att kunna dela
kommenterad samlingar mellan forskare som kunde ha avvikande teorier om prosodi.
Transkription skulle vara reproducerbar med god överenskommelse av intertranskribering
Notationer skulle gå att använda till andra språk och/eller fenomen
Under skapandet så bildades två mål till
Kunna transkribera intonationer
Transkriptionen skulle vara oberoende av verktyget som användes
ToBI var tvungen att kunna göra två saker för att transkribera intonationer; kunna fånga betydelsen
av intonationen, om det är en fråga, påstående etc. samt att den skulle kunna förklara formen på
det pitch track som bildas när ett ljud skapas. För att kunna nå dessa mål anpassades
Pierrehumberts notationer till ToBI som nu är baserad på de fem tonaccenterna samt de fyra
gränstonerna nedan (Wightman 2002:2):
Pitch Accent Boundary Tones
H* peak accent L-L% ”final fall”: ”declarative contour” of
American English
L* low accent L-H% Continuation rise
L*+H scooped accent H-H% “question rise”: catonical yes-no
question contour
L+H* rising peak accent H-L% Final level plateau (plateu because H-
causes “upstep” of following
H+!H* step down
3.1 Tonaccent och gränstoner för ToBI-transkriptionssystem för Amerikansk-engelsk intonation
Förutom dessa så kan ToBI även urskilja fyra nivåer av frasering visad på ett s.k break index tire, vilket
kan sägas vara en bedöming av vilken nivå tidpunkten upplevs mellan varje ord och och mellan det
sista orde och tystnaden i slutet av yttrandet. Break index 4 är den största frasbrytningen och är
intonationsfrasen och nummer 3 är den mellanliggande frasen som tidigare har blicit förklarade.
Break index 2 används för att markera en disjunkion eller paus mellan ord som är mindre än en
mellanliggande fras och nummer 1 används för normala fras-mediala ordgränser.
Nedan är en blid på en ToBI-transkription.
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
8
Samma mening är läst två gånger men med två olika melodier och ToBI visar sillnaden genom att
skriva ut olika tonaccenter och gränstoner. (Jurafsky & Martin 2009:300-301)
3.2.2 Tilt, ToBIs kusin
En modell som påminner om ToBI och dess sätt att använda sekvenser av intonationer som accents
och gränstoner ärTilt-modellen. Men istället för att använda sig av fonemiska klasser av
tonaccenterna använder varje event sig av kontinuerliga parameter som representerar på - formen
av accenten. Varje prosodisk event i Tilt representeras av tre akustiska parametrar: varaktigheten,
amplituden och tilt-parametern. Tilt-parametern är en abstrakt beskrivning av lutningen av en
handling gällande , beräknad genom att jämföra den relativa storleken av höjningen och
sänkningen av en händelse. Om tilt-värdet är 1.0 så indikerar det en höjning medan -1.0 indikerar en
sänkning. 0 betyder att det är en lika stor höjning som fall och -0.5 är en accent med en höjning men
med ett större fall och så vidare, vilket kan visas så här:
De akustiska parametrarna får träna sig på en korpus som är handmärkt för tonaccent och gränston.
Det är när hanmärkningen sker som stavelser blir mer specifierade, vilken tonaccent och gränston de
har. Sedan får den akustiska parametern lära in detta automatiskt från filen den blir given. Bilden
nedan (3.2) visar på ett exempel av en Tilt-representation.
3.2 Tonaccenten visas här som a och gränstonen som b. Varje sådan är riktad mot en stavelses kärna s.
Varje tonaccent i Tilt har en rise component upp till toppen som följs av en fall component. Genom
att hitta starten, toppen och slutpunkten för varje accent i en ljudfil kan en automatisk
tonaccentdetektor fungera, då genom att hitta dessa går det att bestämma varaktigheten och
amplituden i varje komponent (2009:302).
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
9
3.1 Feeltrace Feeltrace är ett verktyg för att kunna ge ett mått på hur känslorna i ett samtal ändras över tid genom
att lyssna på de samtalandes tonfall. Programet kan själv inte läsa av känslorna i ett samtal utan det
är människor som matar in data för hand. Outputen som kommer är numerisk, inte kategorisk. Den
numeriska outputen gör det möjligt att fånga gradvis förändring skiftningar i känslor som visas i
tonfallet på ett sätt som kategorier inte skulle kunna göra (Cowie, Douglas-Cowie & Romano
1999:1-2).
Feeltrace visas som en cirkel indelad i fyra kvadranter av två axlar Activation-axeln och Evaluation-
axeln. Activation-axeln mäter hur dynamisk det emotionella tillståndet är. Till exempel, upphetsning
innefattar en hög nivå av activation medan uttråkning ligger på en väldigt låg nivå. Evaluation mäter
hur positiv eller negativ det emotionella tillståndet är. Glädje är ett positivt tillstånd medan förtvivlan
är ett negativt. Denna ansats är baserad på många tekniker som kommer till samma slutsats, att
emotionella termer kan förstås genom att referera till punkter i rymden som defineras av de två
axlarna, och att rymden är cirkulär(Cowie et al.2000:1).
3.1 Exempel på hur Feeltrace kan se ut vid en viss tidpunkt när en person använder programmet
Det går till så att en person får använda sig av en en tvådimensionell rymd, och positionerar en
pekare beroende på hur relevant beskrivningen av en känsla, som någon uttrycker, är. När personen
tycker att känslan förändras så flyttar den pekaren. Pekaren är representerad som en cirkel vars färg
reflekterar dess position. Den är röd när den är maximal negativ och neutral för activation och grön
när den är maximalt positiv och neutral för activation. När den är maximal aktiv men neutral för
evaluation är den gul och blå när den är maximal inaktiv och neutral för avaluation. Det som avläses
är koordinaterna från pekaren och detta göra med intervall av 1/60 av en sekund och detta blir då
den numeriska outputen(2000:2-3).
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
10
4. Avslutande diskussion Jag har stora förhoppningar att prosodi ska börja användas mer inom olika grenar av artificiell
intelligens, då främs tal- och dialogsystem eftersom de kan förbättras något enormt om systemen
själva ’förstår’ vad de pratar om samt förstår den som pratar, det kan säkert minska felmarginalen
mycket.
Jag tänker bland annat på vilka potential Feeltrace har. Även om programmet själv inte kan avläsa
känslorna i ett samtal så tror jag nog att möjligheten finna at de blir användbar i framtiden och skulle
kunna förbättra både taligenkänning och dialogsystem.
Det har inte varit helt lätt att hitta information om prosodi inom artificiell intelligens och jag märker
att det lätt käns lite hoppigt i texten då de sakerna jag tar upp ändå skiljer sig mycket från varandra.
Men jag känner ändå att det har varit ett väldigt intressant ämne även om jag borde ha begränsat
mig mer. Ämnet är väldigt brett har jag märkt, då jag har skrivit om saker från intonationer till
markovmodeller.
729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149
11
Referenslista
Litteratur Böcker
Breul, Carsten. (2004) Focus Structure in Generative Grammar: An integrated syntactic, semantic and
intonantional approach. Amsterdam: John Benjamins Publishing Co.
Jurafsky, Daniel, Martin, James H. (2009) Speech and language processing. New Jersey: Pearson
Education, Inc.
Ladd, Robert D. (1996) Intonantional phonology. Cambridge: Cambridge University Press
Russel, Stuart, Norvig, Peter. (2003) Artificial Intelligence a modern approach. New Jersey: Pearson
Education, Inc.
Artiklar
Shriberg, Elizabeth, Stolcke, Andreas (2004) Prosody modeling for automatic speech recognition and
understanding. Proc. Workshop on Mathematical Foundations of Natural Language Modeling, 2002
Cowie R, Douglas-Cowie E, Romano A (1999) Changing emotional tone in dialogue and its prosodic
correlates. Proc. ESCA Workshop on Dialogue and Prosody, Eindhoven, The Netherlands, pp. 41–46.
Cowie, Roddy, Douglas-Cowie, Ellen, Savvidou, Susie, McMahon, Edelle, Sawey, Martin, Schröder,
Marc. (2000) ‘FEELTRACE: an instrument for recording perceived emotion in real time. Proc. ISCA
TRW on Speech and Emotion: Developing a Conceptual Framework, Newcastle, N. Ireland, 5–7
september 2000, Textflow, Belfast, pp. 19–24.
Wightman, Colin W. (2002) ToBI or not ToBI? Proc. Speech Prosody Conf; 11-13 April 2002, Aix-en-
Provence. pp. 25–30.