tillämpad prosodi inom artificiell intelligens -...

729G11 Artificiell Intelligens II Matilda Andersson Fördjupningsarbete Ht-10 matan149

Tillämpad prosodi inom

Artificiell Intelligens

Matilda Andersson

Linköpings universitet

Linköping

2010-01-03


Sammanfattning

Detta är en fördjupningsuppgift skriven för kursen Artificiell intelligens 2 på Linköpings Universitet

och handlar om hur prosodi kan tillämpas inom just A.I.

Med prosodi menas hur språkets rytm och intonation kan studeras, det går utanför skriftspråket och

tar istället hänsyn till fonetik och fonem. Och vilka användningsområden har då prosodi inom

artificiell intelligens ? Det är den frågan som rapporten ger svar på, hur prosodi tillämpas i olika

system som i gamlingen ToBI, ett intonationsmodell och hans nyare kusin Tilt. Feeltrace, ett verktyg

för att kunna ge ett mått på hur känslorna i ett samtal ändras över tid genom att lyssna på de

samtalandes tonfall finns också med som ett program som använder sig av prosodi. Rapporten visar

också på ett möjligt sätt som det skulle gå att tillämpa prosodi i taligenkänningssystem.


Innehållsförteckning Inledning .................................................................................................................................................. 1

Syfte ..................................................................................................................................................... 1

1. Prosodi ................................................................................................................................................. 2

2. Exempel på användningsområde ........................................................................................................ 4

3. Exempel på system och program ........................................................................................................ 7

3.2 Intonationmodeller ....................................................................................................................... 7

3.2.1 ToBI ......................................................................................................................................... 7

3.2.2 Tilt, ToBIs kusin ...................................................................................................................... 8

3.1 Feeltrace ........................................................................................................................................ 9

4. Avslutande diskussion ....................................................................................................................... 10

Referenslista .......................................................................................................................................... 11

Litteratur............................................................................................................................................ 11


1

Inledning Prosodi är något som har funnits lika lång tid som människan, betoningar och den språkliga melodin

är lika naturlig för oss som att gå. Introduktionen av A.I. gav upphov till nya användningsområden för

prosodin och några av dem tas upp i det här fördjupningsarbetet.

Uppbyggnaden av rapporten är så att först kommer en förklaring av prosodi som är viktigt att förstå

då denna fördjupningsuppgift är kopplad till det ordet. Efter det skriver jag om ett exempel på

användningsområde inom artificiell intelligens där prosodi kan användas. Jag ger även några exempel

på program och system som har prosodi som huvudsaklig användning för att fungera. Rapporten

avslutas med en diskussion.

Syfte Syftet med detta fördjupningsarbete är att visa på hur prosodi kan tillämpas och redan tillämpas

inom Artificiell Intelligens genom att visa på både modeller och färdiga system.


2

1. Prosodi ”The use of suprasegmental features to convey ‘postlexical’ or sentence-level pragmatic meanings in

a linguistically structured way”

(Ladd 1996:6)

Prosodi tar hänsyn till både fonetik, hur språkljuden bildas och uppfattas, samt fonologi, hur

språkljuden fungerar inom ett språk. Med prosodi menas hur vi kan studera språkets rytm och

intonation. I citatet ovan beskriver Ladd sin definition av prosodi och för att lättare förstå

definitionen så finns det några viktiga nyckelord att ta i beaktande:

Termen suprasegmental går bortom det fonetiska och används som ett samlingsnamn för rytm hos

stavelser, ord och fraser, intonation (melodi) för ord, fraser eller satser samt betoning av stavelser

(1996:6-7).

Postlexical eller sentence-level är relationen mellan en mening och dess diskurs eller externa mening.

Hur vi kan visa på om det vi säger är en fråga eller ett påstående men även hur vi kan betona delar i

en mening för visa vilket/vilka ord som har mest eller minst informationsvärde (1996:7-8).

Ett exempel är denna mening där betoningen göra stor skillnad:

Hon ville inte gå hem

Hon ville inte gå hem

Det finns även tre indelningar av prosodin, alla lika viktiga för att talet ska fungera: prosodisk

structure, prosodisk prominence och tune (Jurafsky & Martin 2009:296)

Prosodic Structure

Prosodisk struktur visar på hur vissa ord lätt går att gruppera tillsammans utan några pausar medan

andra inte passar lika bra tillsammans. När en sådan paus kommer i en fras kallas den

mellanliggande fras vilket kan visas så här:

Hon ville|inte| gå hem

Pausen kommer där orden inte grupperar lika bra, där det blir ett slags avbrott i talet. Men för att

förstå närmare hur mellanliggande fraser fungerar behövs först en förklaring av tonaccent.

Tonaccenten visar på hur ett ord ska tolkas genom olika toner kallade akut tonaccent eller grav

tonaccent. Dessa visas genom ett accenttecken som är satt åt olika håll. Skillnaden mellan tom`ten

(runt huset) och tom´ten (som kommer vid jul) eller an`den (i dammen) och an´den (i flaskan) visas

genom att när tonaccenten höjs ligger accenttecken åt vänster och när tonaccenten sänks ligger den

åt höger.

Tonaccenten kan även visas genom att använda bokstäver, en notation skapad av Pierrehumbert. H

är för hög ton och L för låg ton för att på så sätt lättare visa de olika kombinationerna av tonaccenter

som finns och deras betydelse. Om bokstaven har en * efter sig indikerar det en betonad stavelse. I

det engelska språket kan dessa, förutom att stå själva, representeras på fyra olika sätt: L+H* , L*+H,

H+L* och H*+L, men de kan aldrig vara två likadana toner i en kombination (Breul 2004:147-148)


3

En mellanliggande fras innehåller åtminstone en tonaccent eller en kombination av dessa (L*+H, H’+L

etc.) samt avslutas med något som kallas phraseaccent, vilket är en ton för att kontrollera

grundfrekvensen( ), den lägsta naturliga frekvensen i en deltonsserie, mellan två fraser (2004:148).

En intonationsfras är uppbyggd av en eller fler mellanliggande fraser och avslutas alltid med en

gränston som alltid ligger vid gränsen eller slutet av fraser och utmärks genom % (2004:148).

Ett exempel på hur en intonationsfras kan se ut är sådan:

Hon ville inte gå hem, men det ville han

Intonationfrasen gräns märks mycket tydligare än den mellanliggande frasens gränser då det är

vanligt att en sådan gräns för intonationsfrasen förkommer vi ett kommatecken vilket blir en naturlig

paus (Jurafsky & Martin 2009:296)

Prosodic Prominence

Genom att säga ett ord högre, långsammare, genom att variera etc. Kan ett ord bli mera

framträdande än resterande ord och lyssnaren blir mer medveten om vad talaren har att säga.

Genom att ge ord en tonaccent går det att göra dem mer framträdande och ändra meningen av en

fras, som förklarat ovan. Men för att göra ett ord mer framträdande används inte bara tonaccent

utan även något som kallas nukleär accent vilket är den starkaste accenten i en fras och skrivs oftast i

VERSALER eller kursivt:

Vill du gå hem?

Nej, jag vill inte gå hem, vi tar bilen istället.

Andra sätta att ändra framträdandet av ord är att inte ge dem någon accent samt att försvaga icke-

betonade vokaler vilket betyder att den vokalen inte uttalas lika starkt som de resterande

(2009:298). Den vanligaste reducerade vokalen i det engelska språket är schwa[ə], som återfinns i

ord som 'a' i parakeet [perəki:t] och 'e' i taken [’teɪkən] (2009: 258).

Tune

Röstens melodi är hur varierar under en tidsperiod, hur den blir högre eller lägre. Exempel på

detta är skillnaden mellan påstående och fråga:

1.1 Samma mening läses som både påstående och fråga, vilket gör att F0 varieras.

Melodin representeras av någon sekvens av tonaccent samt phrase accent och kan representeras av

de olika kombinationerna nämnda ovan. En typisk ja/nej-fråga som den på bilden representeras som

L*H H% (Breul 2004:148).


4

2. Exempel på användningsområde Inom artificiell intelligens har prosodi olika användningsområden och kan användas som huvudsak

eller med andra system för att göra dem bättre.

Taligenkänningssystem har blivit bra på att känna igen ord men kan fortfarande ha svårt att utläsa

när en mening slutar och en annan tar vid. Den har också svårt att veta vad talaren egentligen menar

med det denna säger då detta kan bero på personens humör, detta för att sådana system ofta inte

använder sig av prosodi. På senare år har det blivit vanligare att även prosodi blir använt i ex.

talsystem då det ger mer kunskap om det talade språket och på så sätt minimera de fel som kan

uppstå. Shriberg & Stolcke (2004) förklarar ett ramverk som ska gå att applicera på diverse program

och system:

“[…] some linguistic unit U (e.g., words or utterances) is to be classified as one of several target classes

S. The role of prosody is to provide us with a set of features F that can help predict S. In a probabilistic

framework, we wish to estimate P(S|F).”

Det de beskriver här är den akustiska modellen P(signal|ord) som beskriver hur ord låter ex. bara för

att ’ceiling’ börjar med ett mjukt c så låter det detsamma som ’sealing’ (Russel & Norvig 2003:568)

“In most such tasks it is also a good idea to use the information contained in the word sequence W

associated with U, and we therefore generalize the modeling task to estimate P(S|W,F). In fact, W

and F are not restricted to pertain only to the unit in question; they may refer to the context of U as

well.”

Vidare förklara de att de måste ta hänsyn till vilken kontext eller ordsekvens U är associerad med och

lägger då till W. Så den slutliga formen är P(S|W,F) vilket ska berätta hur S går att beräkna givet F

och W . De säger att det program eller system som ska använda sig av detta ska lära upp sig själv, inte

att all kunskap finns om allt från första början.

En avgörande aspekt av deras arbete är att i den statiska klassifieraren så är beroendet mellan de

prosodiska dragen (F) och målet(S) (ex. dialoghandling) modellerat. Detta kringår behovet av att

manuellt behöva kommentera dessa för träningssyftet, vilket i sin tur undviker problem av

felskrivning .

För att ge systemet någon slags kunskap att börja med framställer de drag från forced alignment, en

transkription av den talade datan som finns och är vanligtvis på fonem-nivå som kan vara baserad på

antingen sanna ord eller på output från taligenkänning. Systemet jämför sedan transkriptionen och

den talade datan med varandra för att se när vissa segment av talet överensstämmer med speciella

ord i skriften. Detta ger en rik avkastning av s.k. råa drag som reflekterar , pausar och segmentiell

varaktighet m.m. De råa dragen normaliseras på olika sätt. Det som nu har hänt är att systemet har

fått kunskap om pausar och vad sådana kan betyda, talhastighet samt varierande längder på

stavelser och ord.

För att modellera P(S|W,F) behövs det en statistisk kvantifierar som kan hantera en blandning av

kategoriska och drag av riktiga värden. Detta har lett till att de använder sig av beslutsträd som


5

klassifierare, även om de också förklarar att beslutsträd har just två stora problem:

Första problemet är att komma över girighet, d.v.s. komma över att algoritmen tar den bästa vägen

men endast ur ett lokalt perspektiv, vilket kan leda till att en optimal lösning inte hittas. Det andra

problemet är att göra trädet mottagligt för prosodiska drag i händelse av snedställda klasstorlekar.

Det första problemet löstes genom att använda sig av tekninken att välja en delmängd av releventa

drag och använda det som en algoritm som ’viras’ runt standardträdets växande algoritm. Geom att

eleminera de drag som kan vara skadliga hittas ofta en bättre klassifierare.

De löste det andra problemet genom att låta modellen träna på en version som redan var utprovad

av målets fördelning där alla klasser hade samma sannolikhet som föregående. Detta gör så att

prosodiska klassifierare blir jämförda mellan olika korpusar och handlingar.

De har använt sig av statistiska språkmodeller som går att känna igen från taligenkäning. En annan

språkmodell är använd för att effektivt kunna modellera joint distribution av målklassen och ord W, P

(W,S).

Den prosodiska modellen kan kombineras med en språkmodell på olika sätt och ett av dem är detta:

HMM-baserad förening: Från den prosodiska modellen beräknas sannolikheten P(F|S,W) som sedan

används till en observation av sannolikheten i en hidden Markov modell (HMM) som kommer från

den andra av de två språkmodellerna nämnda ovan.

För att lättare förstå hur HMM fungerar så är här ett exempel.

Person A och B sitter på var sin sida om en skärm och kan inte se vad den andra gör. A ska ta redat på

vad B gör men B får inte berätta. Vad B däremot får berätta är om han är nöjd eller missnöjd. A vet

att B kan utföra två möjliga handlingar, att plugga eller lyssna på musik och vet också att B endast har

möjlighet att byta aktivitet en gång i timmen. A måste även känna till övergångsannolikheterna d.v.s

sannolikheten att B väljer att byta aktivitet samt känna till observationssanolikheterna d.v.s.

sannolikheten hur mycket B uppskattar att utföra en handling. Sist måste A även ha en uppfattning

om hur stor sannolikheten är att B utför en viss handling. I detta fall är det dolda aktiviteten som B

utför.

2.1 Ett diagram som visar en dold markovmodell av exemplet ovan


6

Metoden möjliggör för person A, givet en serie av yttranden från person B gällande dess nivå av

uppskattning, att beräkna den följd av aktiviteter som har givit upphov till dessa ytranden.

Anledningen till att HMM används i detta fall mellan prosodi och taligenkänning är för att kunna koda

de klasserna som inte är observerbara, alltså S.

Genom att associera dessa tillstånd med den prosodiska sannolikheten kommer vi få en modell av F,

S och W och HMM-algoritmen kan användas för att beräkna P(S|F,W) som införlivar alla tillgänlig

kunskap.

Detta tillvägagångssätt visar relationen mellan ord och prosodi på en detaljerad nivå, men den kräver

även förutsättningen att prosodi och ord är villkorligt oberoende givet S.


7

3. Exempel på system och program

3.2 Intonationmodeller

3.2.1 ToBI

1992 skapades Tone and Break Indices, en av de mest använda lingvistiska modellerna för att kunna

transkribera prosodi. ToBI skapades för att kunna uppfylla vissa mål där de viktigaste var:

Transkribera prosodi, vilket till en början var ett mycket brett mål men som sedan fokuserade

mer på just betoningar.

Use”Theory friendly” machine-readable notation. Detta mål kom till av önskan att kunna dela

kommenterad samlingar mellan forskare som kunde ha avvikande teorier om prosodi.

Transkription skulle vara reproducerbar med god överenskommelse av intertranskribering

Notationer skulle gå att använda till andra språk och/eller fenomen

Under skapandet så bildades två mål till

Kunna transkribera intonationer

Transkriptionen skulle vara oberoende av verktyget som användes

ToBI var tvungen att kunna göra två saker för att transkribera intonationer; kunna fånga betydelsen

av intonationen, om det är en fråga, påstående etc. samt att den skulle kunna förklara formen på

det pitch track som bildas när ett ljud skapas. För att kunna nå dessa mål anpassades

Pierrehumberts notationer till ToBI som nu är baserad på de fem tonaccenterna samt de fyra

gränstonerna nedan (Wightman 2002:2):

Pitch Accent Boundary Tones

H* peak accent L-L% ”final fall”: ”declarative contour” of

American English

L* low accent L-H% Continuation rise

L*+H scooped accent H-H% “question rise”: catonical yes-no

question contour

L+H* rising peak accent H-L% Final level plateau (plateu because H-

causes “upstep” of following

H+!H* step down

3.1 Tonaccent och gränstoner för ToBI-transkriptionssystem för Amerikansk-engelsk intonation

Förutom dessa så kan ToBI även urskilja fyra nivåer av frasering visad på ett s.k break index tire, vilket

kan sägas vara en bedöming av vilken nivå tidpunkten upplevs mellan varje ord och och mellan det

sista orde och tystnaden i slutet av yttrandet. Break index 4 är den största frasbrytningen och är

intonationsfrasen och nummer 3 är den mellanliggande frasen som tidigare har blicit förklarade.

Break index 2 används för att markera en disjunkion eller paus mellan ord som är mindre än en

mellanliggande fras och nummer 1 används för normala fras-mediala ordgränser.

Nedan är en blid på en ToBI-transkription.


8

Samma mening är läst två gånger men med två olika melodier och ToBI visar sillnaden genom att

skriva ut olika tonaccenter och gränstoner. (Jurafsky & Martin 2009:300-301)

3.2.2 Tilt, ToBIs kusin

En modell som påminner om ToBI och dess sätt att använda sekvenser av intonationer som accents

och gränstoner ärTilt-modellen. Men istället för att använda sig av fonemiska klasser av

tonaccenterna använder varje event sig av kontinuerliga parameter som representerar på - formen

av accenten. Varje prosodisk event i Tilt representeras av tre akustiska parametrar: varaktigheten,

amplituden och tilt-parametern. Tilt-parametern är en abstrakt beskrivning av lutningen av en

handling gällande , beräknad genom att jämföra den relativa storleken av höjningen och

sänkningen av en händelse. Om tilt-värdet är 1.0 så indikerar det en höjning medan -1.0 indikerar en

sänkning. 0 betyder att det är en lika stor höjning som fall och -0.5 är en accent med en höjning men

med ett större fall och så vidare, vilket kan visas så här:

De akustiska parametrarna får träna sig på en korpus som är handmärkt för tonaccent och gränston.

Det är när hanmärkningen sker som stavelser blir mer specifierade, vilken tonaccent och gränston de

har. Sedan får den akustiska parametern lära in detta automatiskt från filen den blir given. Bilden

nedan (3.2) visar på ett exempel av en Tilt-representation.

3.2 Tonaccenten visas här som a och gränstonen som b. Varje sådan är riktad mot en stavelses kärna s.

Varje tonaccent i Tilt har en rise component upp till toppen som följs av en fall component. Genom

att hitta starten, toppen och slutpunkten för varje accent i en ljudfil kan en automatisk

tonaccentdetektor fungera, då genom att hitta dessa går det att bestämma varaktigheten och

amplituden i varje komponent (2009:302).


9

3.1 Feeltrace Feeltrace är ett verktyg för att kunna ge ett mått på hur känslorna i ett samtal ändras över tid genom

att lyssna på de samtalandes tonfall. Programet kan själv inte läsa av känslorna i ett samtal utan det

är människor som matar in data för hand. Outputen som kommer är numerisk, inte kategorisk. Den

numeriska outputen gör det möjligt att fånga gradvis förändring skiftningar i känslor som visas i

tonfallet på ett sätt som kategorier inte skulle kunna göra (Cowie, Douglas-Cowie & Romano

1999:1-2).

Feeltrace visas som en cirkel indelad i fyra kvadranter av två axlar Activation-axeln och Evaluation-

axeln. Activation-axeln mäter hur dynamisk det emotionella tillståndet är. Till exempel, upphetsning

innefattar en hög nivå av activation medan uttråkning ligger på en väldigt låg nivå. Evaluation mäter

hur positiv eller negativ det emotionella tillståndet är. Glädje är ett positivt tillstånd medan förtvivlan

är ett negativt. Denna ansats är baserad på många tekniker som kommer till samma slutsats, att

emotionella termer kan förstås genom att referera till punkter i rymden som defineras av de två

axlarna, och att rymden är cirkulär(Cowie et al.2000:1).

3.1 Exempel på hur Feeltrace kan se ut vid en viss tidpunkt när en person använder programmet

Det går till så att en person får använda sig av en en tvådimensionell rymd, och positionerar en

pekare beroende på hur relevant beskrivningen av en känsla, som någon uttrycker, är. När personen

tycker att känslan förändras så flyttar den pekaren. Pekaren är representerad som en cirkel vars färg

reflekterar dess position. Den är röd när den är maximal negativ och neutral för activation och grön

när den är maximalt positiv och neutral för activation. När den är maximal aktiv men neutral för

evaluation är den gul och blå när den är maximal inaktiv och neutral för avaluation. Det som avläses

är koordinaterna från pekaren och detta göra med intervall av 1/60 av en sekund och detta blir då

den numeriska outputen(2000:2-3).


10

4. Avslutande diskussion Jag har stora förhoppningar att prosodi ska börja användas mer inom olika grenar av artificiell

intelligens, då främs tal- och dialogsystem eftersom de kan förbättras något enormt om systemen

själva ’förstår’ vad de pratar om samt förstår den som pratar, det kan säkert minska felmarginalen

mycket.

Jag tänker bland annat på vilka potential Feeltrace har. Även om programmet själv inte kan avläsa

känslorna i ett samtal så tror jag nog att möjligheten finna at de blir användbar i framtiden och skulle

kunna förbättra både taligenkänning och dialogsystem.

Det har inte varit helt lätt att hitta information om prosodi inom artificiell intelligens och jag märker

att det lätt käns lite hoppigt i texten då de sakerna jag tar upp ändå skiljer sig mycket från varandra.

Men jag känner ändå att det har varit ett väldigt intressant ämne även om jag borde ha begränsat

mig mer. Ämnet är väldigt brett har jag märkt, då jag har skrivit om saker från intonationer till

markovmodeller.


11

Referenslista

Litteratur Böcker

Breul, Carsten. (2004) Focus Structure in Generative Grammar: An integrated syntactic, semantic and

intonantional approach. Amsterdam: John Benjamins Publishing Co.

Jurafsky, Daniel, Martin, James H. (2009) Speech and language processing. New Jersey: Pearson

Education, Inc.

Ladd, Robert D. (1996) Intonantional phonology. Cambridge: Cambridge University Press

Russel, Stuart, Norvig, Peter. (2003) Artificial Intelligence a modern approach. New Jersey: Pearson

Education, Inc.

Artiklar

Shriberg, Elizabeth, Stolcke, Andreas (2004) Prosody modeling for automatic speech recognition and

understanding. Proc. Workshop on Mathematical Foundations of Natural Language Modeling, 2002

Cowie R, Douglas-Cowie E, Romano A (1999) Changing emotional tone in dialogue and its prosodic

correlates. Proc. ESCA Workshop on Dialogue and Prosody, Eindhoven, The Netherlands, pp. 41–46.

Cowie, Roddy, Douglas-Cowie, Ellen, Savvidou, Susie, McMahon, Edelle, Sawey, Martin, Schröder,

Marc. (2000) ‘FEELTRACE: an instrument for recording perceived emotion in real time. Proc. ISCA

TRW on Speech and Emotion: Developing a Conceptual Framework, Newcastle, N. Ireland, 5–7

september 2000, Textflow, Belfast, pp. 19–24.

Wightman, Colin W. (2002) ToBI or not ToBI? Proc. Speech Prosody Conf; 11-13 April 2002, Aix-en-

Provence. pp. 25–30.

tillämpad prosodi inom artificiell intelligens -...

Documents