praten met mens en machine
DESCRIPTION
PRATEN MET MENS EN MACHINE. Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC) / LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling / OW-instituut Taal- en Letterkunde - PowerPoint PPT PresentationTRANSCRIPT
PRATEN MET MENS EN MACHINE
Louis C.W. PolsLeerstoelgroep Fonetische Wetenschappen (IFA)
Herengracht 338, 1016 CG AmsterdamAmsterdam Center for Language and Communication
(ACLC)/LOTOpleiding Taalwetenschap (Ba/Ma Linguistics)
Afdeling/OW-instituut Taal- en LetterkundeFaculteit der Geesteswetenschappen (voorheen Letteren)
Universiteit van Amsterdam
Lezing TUD, do. 15 april 2004Jaffalaan 5Fac. Techniek, Bestuur en Management
April 15, 2004 Fac. TBM - TUD 2
Overzicht praten is communiceren via gesproken taal pratende computers = spraaksynthese luisterende computers = spraakherkenning spraaksignaalanalyse software ‘praat’ 10 M woorden Corpus Gesproken
Nederlands conclusies informatie over taal- en spraaktechnologie,
zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/
April 15, 2004 Fac. TBM - TUD 3
Praten praten is communiceren, meestal met
anderen, voornamelijk via gesproken taal klanken, woorden, zinnen, grammatica,
taal spreekstijl, stemkwaliteit, tempo, emotie,
dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen
woordklemtoon, zinsaccent, frasering disambigueren
ga naar/Ghana, koninklijke/koleke, kanon, verspringen
Daan zei de baas is te laat wie is er te laat?
April 15, 2004 Fac. TBM - TUD 4
Mens vs. machinemenselijke communicatieketen:
concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie
spraaksignaalcommun. kanaal
spreker luisteraarmens
spraaksynthese automatischespraakherkenningmachin
e
April 15, 2004 Fac. TBM - TUD 5
Spraaksynthese pratende machine = spraaksynthese database-info, concept, tekst in spraak uit evt. taalgeneratie, orthografie tekstanalyse (drs.; §; TUD; € 10,-; herv gem) grafeem/foneem conversie (lexicon en regels)
extra /’Ekstra:/ wegnemen /w’Exne:m@/ woordklemtoon, zinsaccent, pauzes prosodie (co-articulatie, F0, duur) akoestische realisatie (difonen)
April 15, 2004 Fac. TBM - TUD 6
Demonstratie Fluent Dutch Fluent Dutch Text-To-Speech ontwikkeld door A. Dirksen en L. Mehnert eerst Fluency Speech Technology, Utrecht toen van Dale Lexicografie, Utrecht
o.a. sprekend woordenboek, gesproken e-mail nu Fluency weer eenmansbedrijf andere Nederlandse synthesesystemen:
IPO, Nijmeegse allofoonsynthese, Polderland,Speechworks RealSpeak, Infovox, NEXTENS
April 15, 2004 Fac. TBM - TUD 7
Toepassingen spraaksynthese
sprekende computer info per telefoon (e-mail, banktegoed, koers) sprekend woordenboek hulpmiddel voor visueel gehandicapten
toetsenbord, polshorloge, thermostaat, etc. onderdeel van dialoogsysteem (OVIS, IMIX) miniaturisatie (onleesbare schermpjes) volledige taal/spraak kennis perfekte synth.
April 15, 2004 Fac. TBM - TUD 8
Spraakherkenning luisterende computer = autom. spraakherk. woorden herkennen vs. spraakverstaan geluidsinvoer (microfoon, ADC) kenmerkrepresentatie (filterwaarden/10
ms) herk. woordsjablonen (templates, DTW), òf getrapte herkenning (en evt. interpretatie)
fonemen: HMM phone like units (PLU’s) of ANN woorden: woordmodellen, norm. uitspraak wrd. zinnen: taalmodellering (n-gram)
0 1.602630
0.6684
1 2 3 4 5
Time (s)0 1.60263
25
Tim
e (s
)0
5-state HMM phone or word model
1 2 3 4 5
a a 12 23
a a a
a a
22 33 44
34 45
o o o o o o o 1 2 3 4 5 6 7
b 2 (o 1 ) b (o ) 3 6 b (o ) 4 7
time
state
aii = selfloop probability; aij = between state transition prob.;
bj(ot ) = observation probability from Wang (1997)
1. I are to have be the the document2. this will know this of question3. one the do these first4. two would get problems company5. a also make a data6. three do go any system7. please need use some other8. in develop those equipment9. we take all product
…. …. ….83. create art84. communicative number85. resolve major…. ….
655. dates656. security657. important
1. thing …. the company page weeks2. point …. next exhibit years3. to to meeting pages4. parts of day months5. points and two days6. factors in7. things that
…. …. ….14. issues relative…. …. ….71. still72. I73. requiring74. within
Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))
April 15, 2004 Fac. TBM - TUD 12
Aspekten van ASH spreekstijl (woord voor woord, continu) woordenschat (2 - 60.000 woorden, onbeperkt) sprekerpopulatie (een, meerdere, dialect, taal) training (spreker en vocab. (on)afh., spr. adaptief) dialoogstructuur (simpel pseudo-natuurlijk) robuustheid in gebruik (spreker, micr., omgeving,
leeftijd, taalvaardigheid, gespreksonderwerp) out-of-vocabulary words (OOV) foutenscore (substitutie, deletie, insertie; begrip)
April 15, 2004 Fac. TBM - TUD 13
Demonstratie Dragon Naturally Speaking
ontwikkeld door Dragon Dictate, ook Ned. opgekocht door (nu zelf failliete) L&H, nu Scansoft sprekerspecifiek (urenlange training) vlotte invoer, real-time op snelle PC taalmodel heel belangrijk, evenals training tekstinvoer naast commando’s andere systemen voor het Nederlands:
Philips Freespeech IBM ViaVoice Scansoft SpeechWorks VoCon
April 15, 2004 Fac. TBM - TUD 14
Toepassingen van spraakherkenning
dicteersysteem, tekstverwerker systeemcontrole (industrie, speelgoed,
beveiliging, huishouden) iedere telefoon een terminal computer assisted language learning
(CALL) hulpmiddelen voor gehandicapten onderdeel van een dialoogsysteem
(OVIS, tel. 0900-9292; IMIX) spraak naast andere modaliteiten miniaturisatie (te kleine knopjes)
April 15, 2004 Fac. TBM - TUD 15
spraaksignaalanalyse in-huis ontwikkeld software pakket ‘praat’ wereldwijd verspreid, open source mogelijkheden voor opname, generatie,
weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc.
werken met scripts uitstekende grafische uitvoermogelijkheden en nog veel meer, zie site praat.org (demo)
April 15, 2004 Fac. TBM - TUD 16
Corpus Gesproken Nederlands
Vlaams-Nederlands initiatief 10 Mƒ, 10 M woorden (ca. 1000 uur spraak) start juni 1998, 5 jaar, 7 releases (audio +
annotaties) allerlei spreekstijlen ook over telefoon, volwassenen,
wel varianten ABN geen dialect t.b.v. taalkundigen, T/S technologie, en anderen rechten bij NTU
(http://www.taalunie.nl/) voor informatie zie http://lands.let.kun.nl/cgn/
April 15, 2004 Fac. TBM - TUD 17
Onderdelen CGN corpusontwerp en -opbouw opname en digitalisering orthografische transcriptie lemmatisering en (POS) part-of-speech tagging lexicologische koppeling (CGN lexicon) brede fonetische transcriptie signaalkoppeling syntactische annotatie prosodische annotatie exploitatiesoftware COREX
text window
soundwindow
tiers
selectedsegment
timemarker
selectionframe
April 15, 2004 Fac. TBM - TUD 19
Conclusies menselijke spraakproduktie en -perceptie
minstens zo interessant als machinale spraaktechnologie is niet alleen synth. /
herk.spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc.
zeer interdisciplinair vakgebied veel potentie in toepassingssfeer, maar… bedankt voor jullie aandacht