vorlesung hard- und software-ergonomie, ws 2011/2012 1 multimodale interfaces - a 10 oviat, s. 291
TRANSCRIPT
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 1
Multimodale Interfaces - A10
Oviat, S. 291
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 2
Multim. Interf. – Architektur & Informationsfluss10
Oviat, S. 298
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 3
Natürliche Sprache mit Texteingabe
Beispiele:• Anfrage bei Hilfe
• Datenbankabfrage
• Suchanfragen
• Konfigurationsaufgaben
• Interaktive Bestell- und Transaktionsvorgänge
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 4
Wisber-Beispiel
(1) WISBER: Guten Tag, hier ist WISBER (2) USER: Ich habe 40.000 DM geerbt und möchte diesen
Betrag anlegen.(3) WISBER: Welche Laufzeit soll die Anlage haben?(4) USER: Die Laufzeit der Anlage soll acht Jahre betragen.(5) WISBER: Besitzen Sie ein Sparbuch mit mehr als zwei
Nettomonatseinkommen?(6) USER: Ich habe fünf Nettomonatseinkommen auf
mehreren Sparbüchern.(7) WISBER: Möchten Sie während der Laufzeit auf den Betrag
zurückgreifen können?(8) USER: Nein.(9) WISBER: Dann empfehle ich Ihnen Pfandbriefe. Sie haben
eine Rendite von 7%.(10) USER: Gibt es Anlagen mit einer höheren Rendite als 7%?(11) WISBER: Nein
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 5
Komponenten im natürlich-sprachlichen DialogEingabe
grammatikalische AnalyseVergleich mit semantischem Netz
Tiefenstruktur
Datenbankabfragebzw. -eingabe
Rückfrageoder Kommentar
Ausgabe
Datenbank-ausgabe
Datenbank
Interpretation der TiefenstrukturDialogsteuerung
Erzeugung der TiefenstrukturSynthese einer nat.-spr.Formulierung
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 6
Nutzungseinschränkungen bei natürlich-sprachlichen Schnittstellen
Habitability: Fähigkeit eines Benutzers, sich innerhalb der Einschränkungen eines Dialogsystems zurecht zu finden.
Beispiel: What is the Salary of John Smith‘s Manager?
Einschränkungsarten: • Conceptual: Information ist nicht in der DB enthalten• Functional: nicht in einem Schritt abfragbar, sondern
„who is the manager of John smith? J.B. What is J.B.‘s Salary?
• Syntactical: Genetiv-Konstruktion mit „‘s“ wird nicht erkannt
• Lexical: „salary“ ist nicht bekannt aber „earnings“Helander 282f
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 7
Nutzungsprobleme bei natürlicher Sprache
• Es muss mit Restriktionen umgegangen werden (funktionale sind am schwerwiegendsten, danach syntaktische; Eingeschränktes Vokabular fällt leicht)
• Benutzer bevorzugen syntaktische Ellipsen• Unklare Formulierung formaler Probleme
(Verknüpfungslogik, Quantoren)• Natürliche Sprache kann ineffizient sein• Es werden falsche Modelle der Sprachverarbeitung
aufgebaut• Das System muss Themenfokussierung durchführen• Ambiguität ist aufzulösen• Kontext und Weltwissen sind zu berücksichtigen
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 8
Nutzungsprobleme - Beispiele
Es muss mit Restriktionen umgegangen werden (funktionale sind am schwerwiegendsten, danach syntaktische; Eingeschränktes Vokabular fällt leicht)
• Sys: Im Angebot sind Städtereisen nach Hamburg, Paris, Wien und Berlin
• Ben: Was ist der Preis von Hamburg
• Sys: Welche Wertpapiere möchten Sie?• Ben1: Ich habe etwa 10.000 DM• Ben2: Ich kann 10.000DM anlegen• Ben3: Ich möchte Pfandbriefe
• Ben: Ich hätte gerne eine Tasse Kaffee und ein Butterhörnchen oder ein Croissant
• Implizite Reihenfolgen: Ich brauche eine Zeitplanung für die Vorlesung und die Folienerstellung im kommenden Semester.
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 9
Feedback und mentale Modelle
Benutzer bilden sich Modelle über die Funktionsweise und die damit verbundenen Restriktionen nat-spr. Systeme:
Geeignete Feedback-Meldungen kann die angemessene Modellbildung unterstützen, Nutzer imitieren die „Sprechweise“ des Systems:
Knappe und prägnante Rückmeldungen werden leichter imitiert
Fehlermeldungen sollen die richtige, vom Nutzer verstehbare Eingabe wiederholen
Feedback sollte das Vokabular nicht variieren.Helander 294f
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 10
Multimodal conversational System
Karat et al.,S.178
10.1
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 11
Speechrecognition – Anwendungsklassen und -kontext
• Kommando-Eingabe
• „Dritter-Arm“
• Informationseingabe, - abfrage
• Situation, in denen Keyboard und Mouse nicht benutzbar sind
• Telefonbasierte Interaktion• Transkription
10.2
Eppinger, S. 221
Karat et al., S. 170
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 12
Schritte der Einzelworterkennung
• Ermittlung der Wortgrenze, Pausen müssen trotz Störung und Rauschen erkannt werden
• Vorverarbeitung und Normierung: Störgeräuschunterdrückung, Eliminierung der Sprecherspezifika, Eliminierung von Intensität und Dynamik
• Erstellung eines Referenzmusters Clusterbildung • Klassifikation – Zuordnung eines gesprochenen Wortes zu
einem Cluster mit ausreichendem Abstand zu den anderen Clustern
• Berücksichtigung vorheriger Zuordnungen und Abstände sowie Adaption
• Berücksichtigung des Kontextes Eppinger, 230ff
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 13
Sprachsynthese – prosodische Elemente
• Betonung: Lautstärke, Dehnung, Grundfrequenz-änderung
• Lautstärke und Intensität, Lautstärkeverlauf über den Satz
• Sprachrhythmus und Variation der Dauer von Sprachlauten
• Variation der Grundfrequenz, Satzmelodie
10.2
Eppinger, S. 293ff
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 14
Speech-Synthesis – 4 Stufen
• Verstehbare Ausgabe
• Simulation der Qualität menschlicher Sprecher
• Gesprochene Sprache klingt ähnlich wie die des Nutzers, dessen Botschaft gehört werden soll, und für den das System persönlich entwickel wird
• Gesprochene Sprache klingt ähnlich wie die des Nutzers, dessen Botschaft gehört werden soll, und das System stellt sich anhand von Sprachaufnahmen individuell auf verschiedene Benutzer ein.
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 15
Conversation: Speech Input angemessen
• Kein Keyboard verfügbar• Hände sind anderweitig
beschäftigt• Kommandos sollten
direkt „ansprechbar“ sein• Nutzer können oder
wollen nicht tippen• Physiologische
Behinderung
Lai & Yankelovich, S.699
• Nutzer muss parallel zur MCI mit anderen sprechen
• Laute Umgebung• Maus und Tastatur sind
effizienter• Privacy ist wichtig
+ -
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 16
Speech Output angemessen
Lai &Yankelovich, S. 700
• Augen müssen etwas anderes beobachten
• Die Aufmerksamkeit des Nutzers muss gewonnen werden
• Sehbehinderungen• Das Interface soll eine
Persönlichkeit nachahmen
• Große Informationsmenge
• Daten müssen verglichen werden
• Komplex strukturierte Information
• Vertrauliche oder persönliche Information
+ -
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 17
Speech-Conversation: Guidelines
• Interaktion von Anfang an auf Speech planen, da man ein grafisch orientiertes Interface nicht zu Speech-Interaktion übersetzen kann
• Die Informationseinteilung muss bei Speech-Interaktion anders geplant werden, keine Tabellen etc.
• Begrenzte Gedächtnis-Kapazität berücksichtigen• Die für den Nutzer möglichen Reaktionen sind nicht
sichtbar – das muss kompensiert werden• Das System sollte Feedback zum verstandenen Text
geben• Sprachausgabe: Aufgenommene Äußerungen verwenden,
wenn alles Sagbare bekannt ist; Wiedergabe und Synthese nicht vermischen Lai & Yankelovich, S. 700ff
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 18
Speech-Conversation: mögliche Fehler
• Stimme ist deutlich anders als bei den gespeicherten Mustern (z.B. bei Kindern)
• Wörter sind nicht im Vokabular enthalten
• Sätze passen nicht zum Grammatikmodell des Systems
• Sprechen beginnt, bevor das System aufnahmebereit ist
• Wörter klingen zu ähnlich
• Zu lange Pausen
• Nutzer spricht nicht flüssig
• Akzent oder Heiserkeit
• Mikrophon ist nicht passend eingestellt
• Hintergrundgespräche oder ungewollte Artikulation (Lachen)
• Ein Gespräch mit anderen Personen kommt dazwischenLai & Yankelovich, S. 702
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 19
Speech- Conversation: Fehler und Fehler-behebung
• Rejection: Wort wird nicht erkannt, System sollte um Wiederholung bitten (wechselnde Paraphrasen der Aufforderung), Substitution: das gemeinte Wort wird durch ein anderes ersetzt
Paraphrasiert wiederholen• Insertion: nicht Gesprochenes wird eingesetzt
Hilfe: • Alternativen anbieten• Buchstabieren lassen (kann schwierig sein) • Das Naheliegendste anbieten • YES oder NO Fragen stellen
Lai & Yankelovich, S. 707ff
10.2
Vorlesung Hard- und Software-Ergonomie, WS 2011/2012 20
Multimodale Fehlerkorrektur
Bei multimodalen Korrekturmöglichkeiten schalten Benutzer auf alternative Korrekturmöglichkeiten um!
Suhm et al., S. 84
10.2