multimodale mensch -maschine kommunikation sprache und ...€¦ · animierte agenten im allgemeinen...

12
Multimodale Mensch-Maschine Kommunikation Sprache und Gesichtsanimation (Talking Heads) Tobias Paczian 14.10.2003

Upload: others

Post on 19-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Multimodale Mensch-Maschine Kommunikation Sprache und Gesichtsanimation

    (Talking Heads)

    Tobias Paczian 14.10.2003

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 2 (12)

    Inhalt 1. Einleitung ......................................................................................................................... 3

    1.1 Motivation.................................................................................................................. 3 2. Sprachsynthese.............................................................................................................. 4

    2.1 Techniken.................................................................................................................. 5 2.2 Sprachproduktion..................................................................................................... 6 2.3 Natürlich klingende Sprache .................................................................................. 6

    3. Gesichtsanimation.......................................................................................................... 7 3.1 Geschichte ................................................................................................................ 7 3.2 Modellierung ............................................................................................................. 7 3.3 Darstellung von Gesichtsausdrücken ................................................................... 8 3.4 Darstellung von Sprache ........................................................................................ 9

    4. Beispiele von "Talking Heads" ..................................................................................... 9 BALDIE (Haskins Laboratories) ................................................................................... 9 Teleface (Kungliga Tekniska högskolan)..................................................................10

    5. Zusammenfassung ......................................................................................................10 6. Literatur..........................................................................................................................12

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 3 (12)

    1. Einleitung

    Im Bereich der Interaktion zwischen Mensch und Maschine wird ständig geforscht. Man versucht die Kommunikation möglichst natürlich zu gestalten und dabei an die menschlichen Kommunikationsformen anzupassen. Die Interaktion zwischen Menschen ist sehr komplex und in vielen Bereichen noch nicht ausreichend erforscht um sie wirklich nachbilden zu können. Eine Maschine muss viele Fertigkeiten mit sich bringen, die beim Menschen implizit vorhanden sind. Es gilt nun diese Fertigkeiten zu erkennen und dann in geeigneter Form nachzubilden. So soll dann ein Mensch effektiv und intuitiv mit einem Computersystem interagieren können, um die Fähigkeiten von Mensch und Maschine zu kombinieren und möglichst gute Ergebnisse zu erzielen. Konventionelle Interaktionsmittel wie Maus und Tastatur sind noch sehr an den Anforderungen der Computer orientiert, in der Zukunft sollte es möglich sein Sprache, Gestik und Mimik zu verwenden. In meinem Vortrag ging es in diesem Zusammenhang um animierte Agenten im allgemeinen und sprechende Köpfe oder auch "Talking Heads" im speziellen. Ich werde auf Techniken der Sprachsynthese, der Sprachproduktion und der Gesichtsanimation eingehen und dann einige Anwendungen aus diesem Bereich vorstellen.

    1.1 Motivation

    Es stellt sich die Frage, warum man überhaupt den Aufwand treibt und menschliche Kommunikationswege analysiert, wenn die Interaktion mit Maschinen doch auch auf anderen Wegen möglich ist. Die Antwort ist einfach. In unserem Alltag haben wir immer mehr mit Maschinen zu tun und müssen mit deren Hilfe immer komplexere Aufgaben lösen. Um einem Menschen aber intuitiv, also ohne ausgiebiges Training eine effektive Kommunikation mit einer Maschine zu gestatten, muss man diese an seine natürlichen kommunikativen Fähigkeiten anpassen. Das bedeutet, dass die Maschinen "menschlicher" werden müssen und Fähigkeiten wie Sprachproduktion, Sprachverständnis und Mimik beherrschen müssen. Ein glaubwürdiger Agent sollte den Menschen vergessen lassen, dass er sich mit einer Maschine unterhält. Davon sind wir allerdings sicherlich noch weit entfernt.

    Abbildung 1: McGurk Effekt1

    Die Kommunikation zwischen Menschen ist multimodal [1]. Das bedeutet, sie findet nicht ausschließlich auf dem sprachlichen Level statt, sondern zeichnet sich auch durch Gesten und Mimik aus. Man könnte jetzt argumentieren, dass Menschen sich auch ohne Probleme über das Telefon unterhalten können, aber

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 4 (12)

    dabei gehen auch Möglichkeiten verloren, zusätzliche Informationen zu transportieren, die zum Beispiel bei Störungen zu einem besseren Verständnis führen. Es fällt einem zum Beispiel wesentlich leichter eine fremde Sprache zu verstehen, wenn man dem Sprecher gegenüber steht, als wenn man ihn z.B. im Radio hört. Einen wissenschaftlichen Beweis dafür entdeckte 1976 der Psychologe Harry McGurk [2]. Er untersuchte die Aufnahme von Sprache bei Kleinkindern wobei er die Sprache der Mutter aus der einen Ecke des Zimmers und die Videoaufnahme aus einer anderen abspielte. Dabei spielte er aus Versehen die Silbe "ba" auf die Videoaufnahme von "ga" und nahm die Silbe "da" wahr. Dadurch konnte er beweisen, dass die Menschliche Sprachwahrnehmung bimodal ist. Verschiedene Institutionen, wie z.B. die Old Dominion University [3] und die Universität von Californien, Santa Cruz [4] haben auch Studien über Lippenlesen durchgeführt. Dabei ging es sowohl um Computersysteme, die die Lippenbewegungen von Menschen als zusätzliche Information für ihre Spracherkennung erhielten, als auch um virtuelle Agenten, die Lippenbewegungen zu ihrer Sprachproduktion vollführten. Bei beiden wurde die Erkennungsrate bei Störungen deutlich verbessert.

    Abbildung 2: Erkennung der Lippenbewegung1

    Um die Techniken der menschlichen Kommunikation zu erforschen bietet es sich an, virtuelle Agenten zu benutzen. Dabei umgeht man die Probleme der Robotik und hat eine wesentlich vereinfachtes Entwicklungsumgebung. Virtuelle Agenten sind wesentlich flexibler, lassen sich beinahe beliebig auf verschiedenen Computern reproduzieren und geben einem die Möglichkeit sich mit den logischen und nicht mit den technischen Problemen zu beschäftigen.

    2. Sprachsynthese

    Bei der Sprachsynthese oder auch Text -to-Speech Systemen (TTS) soll geschriebener Text in menschliche Sprache umgewandelt werden. Problematisch dabei ist es, eine natürlich klingende Sprache zu produzieren. Dazu ist es zuerst einmal notwendig festzustellen, aus welchen Elementen die Sprache besteht. Dabei ist nicht nur die Aussprache verschiedener Wörter wichtig, sondern es spielen auch Emotionen und Intonation eine wichtige Rolle. Für die grundlegende Sprachsynthese gibt es verschiedene Techniken, die dies zwar in gewisser Weise unterstützen, die Logik, die einem Text solche zusätzlichen Informationen hinzufügt, muss aber separat erstellt werden. Dazu sind zusätzliche Mechanismen

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 5 (12)

    notwendig, die auch ein gewisses Maß an Bedeutungsverständnis voraussetzen, bzw. die Stimmung von Sprecher und Hörer in Betracht ziehen müssen. Darauf werde ich aber hier nicht näher eingehen.

    2.1 Lautkonkatenation

    Um die menschliche Sprache zu synthetisieren, kann man sie in Teile aufteilen. Dazu gibt es je nach Anwendungsgebiet verschiedene Möglichkeiten.

    Die einfachste Methode ist, ganze Wörter aufzunehmen. Dadurch ist man in der Menge der möglichen Sätze, die man bilden kann, sehr eingeschränkt, es sei denn, man nimmt tatsächlich alle Wörter einer Sprache auf. Außerdem hat man keine Möglichkeit die Worte unterschiedlich zu betonen. Auch Übergänge zwischen den Worten sind nicht möglich. Man kann sehr stark wahrnehmen, dass es sich um zusammengesetzte Sätze handelt. Die Qualität der einzelnen Wörter ist zwar sehr gut, aber die vollständigen Sätze sind qualitativ schlecht. Für eingeschränkte Aufgabengebiete kann diese Technik dennoch die richtige Wahl sein, z.B. bei Ansagen an Bahnhöfen, wo das Vokabular sehr eingeschränkt ist.

    Eine andere Methode ist, die Sprache in Phoneme aufzuteilen, aus denen man die Wörter zusammensetzt. Ein Phonem ist die kleinste bedeutungsunterscheidende Einheit einer Sprache. So kann man jedes beliebige Wort synthetisieren. Die deutsche Sprache zum Beispiel ist aus etwa vierzig Phonemen zusammengesetzt, mit denen sich alle Wortlaute nachbilden lassen. Diese Methode lässt einem die Möglichkeit die Bausteine so zu modulieren, dass eine unterschiedliche Intonation zu hören ist. Die Übergänge zwischen den Phonemen klingen aber teilweise immer noch unnatürlich, da man sie nur durch eine Übergangsfunktion annähern kann, dies aber nicht notwendiger Weise der natürlichen Sprache entspricht. Ein Beispiel für ein System das Phonemkonkatenation benutzt ist ProSynth der University of Cambridge [5].

    Bei einer Methode die auch dies in Betracht zieht, werden Phonemübergänge aufgenommen, so genannte Diphone. In der deutschen Sprache gibt es davon etwa 400. Diese werden dann zu Worten zusammengesetzt , wodurch eine schon relativ natürlich klingende Sprache entsteht. Ein Beispiel hierfür ist das "Festival Speech Synthesis System" von Alan W Black, Paul Taylor und Richard Caley von der University of Edinburgh [6].

    Eine noch komplexere Methode berücksichtigt außerdem noch die Umstände unter denen ein Laut ausgesprochen wird, also auf welche Laute sie folgen und welche auf sie folgen. Dadurch entstehen so genannte Triphone, von denen es zum Beispiel in der englischen Sprache etwa 1000 gibt [7].

    Insgesamt gibt es ein Trade-off zwischen der Größe der Datenbank der aufgezeichneten Laute und der Qualität der produzierten Sprache. Der Vorteil von Phonemkonkatenation ist, dass man mit nur vierzig Aufnahmen die komplette Sprache synthetisieren kann. Bei den heutigen Rechenleistungen und Datenkapazitäten stellen allerdings auch 1000 Aufnahmen, wie bei den Triphonen, kein größeres Problem dar.

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 6 (12)

    Eine völlig andere Methode natürlich klingende Sprache zu synthetisieren, ist die Nachbildung des menschlichen Sprachtraktes. Darauf will ich im nächsten Absatz näher eingehen.

    2.2 Nachbildung des Sprachtraktes

    Abbildung 3: Realer Sprachtrakt2 Abbildung 4: Virtueller Sprachtrakt2

    Eine interessante, wenn auch in der Forschung nicht sehr übliche Methode TTS Systeme zu erstellen, ist die Modellierung des menschlichen Sprachtraktes. Dabei werden die einzelnen lautbildenden Faktoren des Sprachtraktes untersucht und in einem virtuellen Modell nachgebildet. Die Veränderung dieser Faktoren wird dann bei menschlichen Sprechern gemessen und auf das Modell übertragen. So werden die verschiedenen Parameter für Phoneme aufgezeichnet und im Modell reproduziert. Die Intonation kann dann durch entsprechende Modulation dieser Faktoren erreicht werden. Die dadurch entstehende Sprache kling sehr natürlich. Beispielsysteme werden unter anderem in den Haskins Laboratories (ASY) [8] oder am Institut für Phonetik in Köln [9] entwickelt.

    2.3 Prosodie

    Damit Sprache wirklich natürlich klingt, ist mehr notwendig, als nur die Laute der Wörter nachzubilden. Die prosodischen Parameter, also Intonation, Sprech-geschwindigkeit, Tonhöhe und Druckstärke, spielen eine große Rolle. Dies ist nicht nur notwendig, damit sich die Sprache menschlich anhört, sondern kann gegebenenfalls auch bedeutungstragend sein. Der Inhalt kann also z.B. auch von der Betonung abhängen. Die automatische Festlegung dieser Parameter ist eine sehr schwierige Aufgabe, da sie ein gewisses Textverständnis voraussetzt.

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 7 (12)

    3. Gesichtsanimation Bei der Gesichtsanimation gibt es noch diverse Probleme. Der Aufwand, realistische Bewegungen von allen Elementen des Gesichts zu erstellen ist sehr groß. Haare, Lippen, Mund, Augen, Augenbrauen und Zunge, im Prinzip müsste man jeden einzelnen Muskel eines Gesichtes nachbilden. Dazu müssen dann all diese Bewegungen nicht nur untereinander, sondern auch mit der Sprache synchronisiert werden, wobei dem menschlichen Auge schon sehr kleine Abweichungen auffallen. Bedenkt man, dass all dies noch in Echtzeit geschehen muss, kann man sich in etwa die Schwierigkeit dieser Aufgabe vorstellen.

    3.1 Geschichte

    Die Geschichte der virtuellen Gesichtsanimation geht zurück auf Hermann Chernoff von der Harvard Universität in Cambridge, der bereits 1971 zweidimensionale Gesichter für k-dimensionale Datenrepräsentation genutzt hat. Später wurden dann mit steigender Rechenleistung auch 3D Wireframe Modelle z.B. von F. Parke entwickelt, die durch Interpolation zwischen verschiedenen Ausdrücken animiert wurden. In den frühen 80er Jahre wurden dann von Platt ein Gesichtsmodell entwickelt, welches auf Muskeln basierte. Dabei wurde das Gesicht in 38 Muskelblöcke aufgeteilt, die mit einem System von Federn verbunden waren. In den späten 80er Jahren entwickelte Nadja Magneat-Thalmann dann ein abstraktes Muskelmodell [10]. Dabei werden Muskelbewegungen durch abstrakte Muskel-bewegungsprozeduren ersetzt.

    Heute werden kaum noch Systeme benutzt, die ausschließlich auf Oberflächenmanipulation basieren. Der Vorteil eines solchen Systems ist allerdings ein wesentlich geringerer Rechenaufwand, was besonders für Anwendungen die Echtzeitberechnung erfordern essentiell ist. Bei Systemen bei denen die Bewegungen im Voraus berechnet werden können, liefern Muskelmodelle die besseren Ergebnisse.

    Abbildung 5: 3D Wireframe Modell3

    3.2 Modellierung Zur Modellierung von Gesichtern hat man grundsätzlich zwei Möglichkeiten. Entweder man manipuliert die Oberfläche direkt, oder durch die darunter

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 8 (12)

    liegenden Strukturen. Da das Gesicht, wenn man vom Unterkiefer einmal absieht, relativ starr ist, müssen Bewegungen hier durch Muskeln erreicht werden. In den Modellen von Magneat-Thalmann werden zuerst die verschiedenen Muskeln angebracht, und dann mit Haut überzogen um einen natürlichen Gesichtsausdruck zu erhalten. Dann werden verschiedene Gesichtsausdrücke parametrisiert und auf das Modell übertragen. Da Gesichter aber sehr unterschiedlich sind, müssen diese Parameter für jedes neue Gesicht angepasst werden.

    Abbildung 6: Muskelmodelle4

    3.3 Darstellung von Gesichtsausdrücken Die Grundlage für die Parametrisierung von Gesichtsausdrücken haben Paul Ekman und W.V. Friesen bereits in den 1970ern mit dem Facial Action Coding System (FACS) gelegt [11]. FACS ist die am weitesten verbreitete und vielseitigste Methode um Gesichtsausdrücke zu beschreiben. Ekman und Friesen haben auf Videoaufnahmen untersucht, wie sich die Kontraktion einzelner und mehrerer Muskeln auf den Ausdruck des Gesichtes auswirkt. Das Ziel dieser Untersuchung war es, verlässliche Methoden zur Kategorisierung von Gesichtsausdrücken zu entwickeln. Das FACS Handbuch wurde 1978 veröffentlicht. Die Verschiedenen Gesichtsausdrücke werden in Action Units (AUs) unterteilt, die die Stellung der einzelnen Muskelgruppen beschreiben.

    Abbildung 7: AUs für Augenbrauenbewegungen5

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 9 (12)

    Es gibt insgesamt 46 AUs, die die Beschreibung aller Gesichtsausdrücke ermöglichen und 12 AUs, die die Orientierung des Kopfes und Blickes beschreiben.

    3.4 Darstellung von Sprache Um dann tatsächlich Sprache darzustellen sind mehrere Schritte notwendig. Zum einen müssen die essentiellen Bewegungen von Lippen und Zunge modelliert werden. Auch hierbei müssen zuerst einmal alle Phoneme abgebildet werden, diese Abbildungen auf die entsprechenden Muskelstellungen nennt man Viseme. Während die Phoneme konkateniert werden, so entsteht die Bewegung der Muskeln zwischen den einzelnen Visemen durch Interpolation zwischen den Muskelstellungen. Hierbei ist das Timing im Verhältnis zur Sprache essentiell, damit eine Lippensynchrone Darstellung gelingt. Dazu wird die Geschwindigkeit der Muskelbewegung so angepasst, dass die für sie benötigte Zeit (stroketime) exakt mit der für die Äußerung (utterance) benötigte Zeit übereinstimmt [12]. Damit dies realistisch wirkt, muss man ein Beschleunigungsmodell zugrunde legen und auch die Muskelstellungen der vorherigen Postur in Betracht ziehen.

    Zum anderen ist auch die Darstellung von co-verbaler Mimik wichtig. Sie soll bedeutungsunterstützend wirken und die Glaubwürdigkeit des Agenten erhöhen. Dabei können sowohl rein motorische Bewegungen, wie z.B. das Augenzwinkern, so genannte "secondary actions", wie auch tatsächlich bedeutungstragende, wie beispielsweise das Heben der Augenbrauen modelliert werden. Um letztere sinnvoll einsetzen zu können, wäre es allerdings notwendig, ein gewisses Sinnverständnis zu haben. Ansonsten müssten solche Mimiken durch einen Menschen manuell editiert werden, was nur bei vorher festgelegten Texten möglich ist.

    4. Beispiele von "Talking Heads" Es gibt ganze eine Reihe von Anwendungen bei denen "Talking Heads" eingesetzt werden. An dieser Stelle möchte ich auf eine Website des Perceptual Science Laboratory der University of California - Santa Cruz verweisen, die eine sehr Umfangreiche Sammlung von verschiedensten Modellen anbietet. Im Folgenden möchte ich auf zwei Beispiele näher eingehen.

    BALDIE (Haskins Laboratories) [13] BALDIE ist ein sprechender Kopf mit realistischer Animation von Mund, Zunge und Gesicht, der sowohl synthetische als auch natürliche Sprache synchronisieren kann und war ursprünglich dafür gedacht, hörgeschädigten Kindern als Unterstützung zum Sprachverständnis zu dienen. Es lassen sich aber auch andere Anwendungsgebiete vorstellen, wie zum Beispiel als Teil eines animierten Agenten.

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 10 (12)

    Für die Entwicklung wurde das CSLU-Toolkit der OGI School of Science and Engeneering, Oregon benutzt. Das Toolkit beinhaltet Werkzeuge zur Gesichtsanimation, Sprachsynthese, Spracherkennung und Synchronisation. Die Gesichtsanimation benutzt kein Muskelmodell, sondern Oberflächen-manipulation, da der Rechenaufwand für eine Echtzeitdarstellung ansonsten zu groß wäre. Auf diese Weise kann die Gesichtsanimation synchron zu einem beliebigen Text erfolgen. Trotzdem werden die internen Artikulatoren während der Ausgabe dargestellt. Als für die Sprachsynthese (TTS) wird das in Abschnitt 2.1 erwähnte Festival System von Black und Taylor eingesetzt. Die Spracherkennung ist Nutzerunabhängig und benutzt Hidden Markov Modelle (HMM). Das BALDIE System ist für Forschungszwecke kostenlos unter http://www.cslu.ogi.edu/toolkit erhältlich.

    Teleface (Kungliga Tekniska högskolan) Teleface ist eine Gesichtsanimationssoftware von über Telefon übermittelte Sprache und soll als Unterstützung für Schwerhörige dienen. Dabei wird die Animation eines Gesichtes in Echtzeit synchron zur am Telefon gesprochenen Sprache dargestellt. Dies dient zum Lippenlesen als zusätzliche Information um die gesprochenen Worte zu verstehen.

    5. Zusammenfassung

    Abbildung 8: Figur aus Toystory6

    Eines der größten Anwendungsgebiete für animierte Agenten ist sicherlich die Filmindustrie. Zeichentrick Filme wie zum Beispiel Toy Story von Pixar. Auch hier wurden Muskelmodelle benutzt um die Charaktere möglichst glaubhaft darzustellen. Um die Probleme der realistischen Bewegungen und der Synchronisation zu umgehen, wurden allerdings die Muskelbewegungen Bild für Bild von Hand manipuliert. Eine automatische Steuerung war einfach noch zu unrealistisch. In Zukunft wäre es natürlich wünschenswert, wenn man dieses Problem algorithmisch lösen könnte.

    Sehr aufwendige Animationen mit Muskelmodellen wurden auch für den Film Animatrix erstellt, mit dem Erfolg, dass man in manchen Momenten zwei mal

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 11 (12)

    hinschauen muss, um festzustellen, ob es sich um Menschen oder um Animationen handelt.

    Die bisherigen Systeme für multimodale Mensch-Maschine Kommunikation leisten schon eine ganze Menge. Es gibt eine Vielzahl von Anwendungsgebieten, wo sie bereits erfolgreich eingesetzt werden. Um in Zukunft eine noch bessere Interaktion zwischen Menschen und Maschinen zu ermöglichen, dürfen sich nicht die Menschen an die Maschinen anpassen müssen, sondern umgekehrt. Aufgrund der Komplexität der Menschlichen Kommunikation sind wir noch weit davon entfernt, ein System zu entwickeln, bei dem man überlegen müsste, ob es sich dabei wirklich um eine Maschine handelt oder nicht. Es darf auch bezweifelt werden, dass man die menschliche Kommunikation überhaupt so weit entschlüsselt hat, dass man sie wirklich erfolgreich imitieren kann. Einige wichtige bereits bekannte Elemente fehlen noch in den heutigen Systemen. So wären zum Beispiel intelligente Funktionen zur Gesichtsanimation nötig, die automatisch aus einer vorhandenen Situation und dem dafür automatisch generierten Text die Bewegung der entsprechenden Muskeln berechnen könnte. Die bisherigen Sprachsynthese Systeme sind auch noch weit davon entfernt, wirklich menschlich zu klingen. Das einbinden von Emotionen in die Animation von Agenten hat bereits begonnen, ist aber ebenfalls noch lange nicht ausgereift. Um wirklich gute Leistungen zu erzielen, wäre es vielleicht wünschenswert, nicht nur Mimik und Sprache, sondern die gesamte Gestik des Menschen mit einzubeziehen. Auch ein Bild des Gemütszustandes des Gesprächspartners, dass sich ein Mensch sich automatisch macht, könnte noch in die Kommunikation mit eingebunden werden. Auch wenn es noch keine perfekte Gesamtlösung gibt, so kann man doch mit den bisherigen Teilerfolgen schon viele Anwendungsgebiete abdecken und dank der intensiven Forschungen in diesem Gebiet werden die Systeme sich auch sicherlich in Zukunft weiter verbessern.

  • Multimodale Mesch-Maschine Kommunikation - SS 2003 - Bernhard Jung, Alf Kranstedt

    Vortrag vom 20.06.2003 von Tobias Paczian Seite 12 (12)

    6. Literatur 1. Projektseminar: Computeranimation virtueller Charaktere (2001) AG-WBS

    Universität Bielefeld

    2. McGurk Effekt - American Scientist, 1998, Ausg. 86, S. 236-244

    3. P.L. Silsbee und A.C. Bovik, "Automatic lipreading to improve robustness of speech recognition systems," IEEE Trans. Speech and Audio Proc., 4(5):337--351, 1996

    4. Speech Recognition and Sensory Integration by Dominic W. Massaro and David G. Stork. In May-June 1998 American Scientist

    5. University of Cambridge - ProSynth Homepage - http://www.phon.ucl.ac.uk/project/prosynth/

    6. Festival Speech Synthesis System - Alan W Black, Paul Taylor und Richard Caley - http://www.cstr.ed.ac.uk/projects/festival/manual/festival_toc.html

    7. Dr. Diana Bental - Heriot Watt University - Lecture: Processing Spoken Language: Speech Recognition

    8. Haskins Laboratories (2003) http://www.haskins.yale.edu/haskins/HEADS/contents.html

    9. Bernd J. Kröger - IP Köln http://www.uni-koeln.de/phil-fak/phonetik/synthese/index.html

    10. N. Magneat-Thalmann Homepage http://www.nbb.cornell.edu/neurobio/land/OldStudentProjects/cs718/fall1995/ddhung/thalmann88.html

    11. P. Ekman and W. Friesen. Facial Action Coding System. Consulting Psychologists Press, Inc., Palo Alto, CA, 1978

    12. Max - Universität Bielefeld, Artificial Intelligence Group http://www.techfak.uni-bielefeld.de/~skopp/max.html

    13. Baldie Homepage (2003) - http://itakura.kes.vslib.cz/kes/baldie.html 14. Department of Speech, Music and Hearing (2003)

    http://www.speech.kth.se/multimodal/ 15. Perceptual Science Laboratory at the University of California (2003)

    http://mambo.ucsc.edu/ 1 Quelle: Haskins Laboratories - BALDI Homepage 2 Quelle: Haskins Laboratories - Philip Rubin und Louis Goldstein - Articulatory Synthesis 3 Quelle: SIGGRAPH 97: Panel on Facial Animation: Past, Present and Future 4 Quelle: Facial Animation and Modeling: Computer Graphics Group, MPI Informatik, Saarbrücken 5 Quelle: http://www.its.caltech.edu/~vikram/cs286/report/ 6 Quelle: Pixar Animation Studios