双方向音声案内デジタルサイネージ...

30
双方向音声案内デジタルサイネージ メイ タクミ 201865日(火)13:30名古屋工業大学 NITech Hall 1階 ホワイエ

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

双方向音声案内デジタルサイネージ

「メイ&タクミ」

2018年 6月5日(火)13:30~名古屋工業大学

NITech Hall 1階ホワイエ

Page 2: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

プロジェクトメンバー名古屋工業大学 国際音声言語技術研究所/情報基盤センター• 徳田恵一(教授) :総括• 李 晃伸(教授) :音声認識• 山本大介(准教授) :ウェブインタフェース• 酒向慎司(准教授) :手話対応• 大浦圭一郎(特任准教授):音声合成• 橋本 佳(特任准教授) :多言語化

大学事務局(企画広報課他)

アドバイザー:松尾啓志(教授)情報基盤センター、藤岡伸子(教授)ダイバーシティ推進センター、石松丈佳 (教授)

Page 3: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

旧「メイちゃん」

7年間に渡る常時運用により、寿命を全う

2>>

Page 4: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

名工大オープンソース・ソフトウェア• 最先端の音声関連技術を統合

3D-CG描画

音声インタラクション

制御HTS音声合成

音声モデル

言語モデル

音声認識

音声モデル

言語モデル

音声インタラクションシステム構築ツールキット

豊かな表情と動作、感情音声により生き生きとした対話を実現

Page 5: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

CREST uDialogueプロジェクト科学技術振興機構 (JST)戦略的創造研究推進事業 (CREST)

期間:2011年10月~2017年3月参加機関

• 名古屋工業大学 国際音声技術研究所• 名古屋工業大学 情報基盤センター• エジンバラ大学 音声技術研究センター• 国立情報学研究所

コンテンツ生成の循環系を軸とした次世代音声技術基盤の確立

参考

(ユーダイアログ)

Page 6: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

参考

Page 7: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

キャンパス案内• キャンパスの建物案内• 近隣の地理案内• 学科・専攻等の大学案内• 教員案内データベースから• 大学に関連した様々な情報の案内• 天気予報• 時刻や日時の確認 動的情報• 占い• 新着情報の案内/呼びかけ 人感センサによる• 予測される雑談的な問いかけへの対応• イベント情報の案内 ユーザー生成型コンテンツ

Page 8: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

情報基盤システムとの連携

デジタルサイネージ

統一データベースVoIPサーバ音声対話

コンテンツサーバ

ICカードスマートフォン

情報基盤システムとの密接な連携

授業情報出欠情報個人情報

掲示板 スケジュール カレンダー

教職員・学生が自由に登録! ^

^

Page 11: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

名工大の顔としての認知と利用

<<^^

Page 12: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

新「メイ&タクミ」

Page 13: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

新機軸:グローバル化・ダイバーシティ環境1. 国際化推進

• 英語・中国語による案内(橋本特任准教授総務省SCOPE)

2. アクセシビリティー・バリアフリー• 手話案内(酒向准教授中小企業庁戦略的基盤技術高度化支援事業)

3. 男女共同参画推進• 男性モデルの導入

4. 高度防災• 緊急地震速報との連携

5. 地域連携(進行中)• 近隣公共交通案内(名古屋市交通局連携、山本准教授総務省SCOPE)

2>>

Page 14: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

1.国際化推進• 日本語の音声対話に加えて英語・中国語に対応• 今後も対応言語を逐次追加

Good morning

早上好

おはようございます

Page 15: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

従来の音声翻訳システムの問題点1)翻訳先の言語によって異なる人物の声で音声が出力される2)誰が音声を入力しても翻訳先の言語が同じなら同じ声の音

声が出力される

声の個人性が保持された音声翻訳を実現するための大規模音声データと深層学習に基づく多言語音声合成技術に関する研究開発

総務省 戦略的情報通信研究開発推進事業(SCOPE)研究代表者: 橋本 佳 (名古屋工業大学)参画研究機関: 名古屋工業大学研究開発機関: 平成28年度~平成31年度

日本語

英語

ドイツ語

中国語

大規模音声データと深層学習に基づき・言語や話者によらない共通した特徴をモデル化・言語を超えて現れる話者の個人性を表す特徴をモデル化

多言語音声合成システム

おはよう。

Guten Morgen.

早上好

話者の特徴を獲得

話者の特徴を再現

Bonjour.

Good morning.

音声合成用モデル

上記の問題点を解決するために、本研究開発では、目的1)話者・言語が混在する大規模音声データから音声合成用モデルを学習する方法を確立する。目的2)音声を入力した話者の声であらゆる言語の音声を合成可能な多言語音声合成システムを

構築する方法を確立する。

入力音声の声を翻訳先の言語で再現することで声の個人性を保持した音声翻訳システムを構築⇒より自然なグローバルコミュニケーションを実現

参考

Page 16: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

2.アクセシビリティー・バリアフリー• 手話による案内を実現(音声と手話で応答)• 各種センサーを用いた手話認識技術を開発(今後、搭載予定)

Page 17: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

手話を認識し日本語へと翻訳するシステム開発における課題1)手話で表出される視覚特徴の取得2)多数の語彙への対応3)発話者の身体者や個人差への対応

手話の自動翻訳を実現させる高精度な動作検出と動作のパターンマッチングの技術開発

経済産業省 戦略的基盤技術高度化支援事業(サポイン事業)総括研究代表者(PL):青井 基行 株式会社ユニオンソフトウェアマネイジメント

副総括研究代表者(SL):酒向 慎司 名古屋工業大学

研究開発機関:平成28年度~平成30年度

・人物の体格や個人差を分類することで汎用性の高い認識モデルを獲得・多数の手話例文から手話特有の語彙や語彙の列を利用した文脈依存モデルを獲得

手話文脈依存モデル

手話特有の語彙の頻度を抽出

多様な話者に対応した認識モデル

上記のシステムを実現するための本研究開発の目的目的1)手話の手指動作の特徴を取得する精密3次元座標解析技術の開発目的2)手話例文と手話特有の語彙の列を利用した手話文脈依存モデルの開発目的3)様々な手話者データの収集とそれを利用した階層型認識モデルの構築

運用形態に合わせた手話認識モデル・文脈依存モデルを構築することで実用性の高い手話によるコミュニケーション支援環境を実現

参考

人物の身体差や個人差を分類

手話例文データベース多様な手話者データベース

Page 18: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

3.男女共同参画推進従来の3D CGキャラクター「メイ」の弟である「タクミ」が新たに加わりました。今後は「メイ&タクミ」として学校案内・イベント案内などを行います。

Page 19: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

4.高度防災緊急地震速報システムと連携することで、地震が発生した際、即座に震度を予測し、緊急回避行動を促します。

Page 20: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

5.地域連携(進行中)•「しゃべるバス停」プロジェクト(HP, 参考)

• 名古屋市交通局と連携し、近隣公共交通を案内

•その他:半田市「市役所ホール」,「蔵のまち観光案内所」,「クラシティ半田」,など

Page 21: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

公共空間での実利用を想定した課題を解決!(研究開発項目)

研究概要

公共空間での実利用を想定した「しゃべる」バス路線案内システムの実現

総務省 戦略的情報通信研究開発推進事業(SCOPE)研究代表者 :山本 大介 (名古屋工業大学)参画研究機関:名古屋工業大学

株式会社フコク東海研究開発機関:平成28年度~平成30年度

1. 環境雑音下に適した 多様な発話スタイルを持つ音声合成技術2. バス停を想定した分かりやすい動的 路線マップ自動生成 機能3. デジタルサイネージのための マルチモーダル音声インタラク

ション 基盤4. バス停型デジタルサイネージ ハードウェアの開発

多様な発話スタイルを持つ音声合成技術

伸縮自在な地図生成技術に基づくWebマップ技術

公共空間、放送局等で実証実験音声インタラクションシステム構築開発ツールキット

音声対話技術やWebマップ技術等を活用した、デジタルサイネージ型のバス停を開発する。見やすい路線マップや分かりやすい音声案内を実現すると同時に、3Dキャラクターや表現豊かな感情音声合成技術を搭載するなどしてバス停の魅力を高めることにより、バス停自身が旅行者や地域の住民にバスの利用を促す仕組みを持つ。これにより、バス路線の利用率が向上すると同時に、人々の往来を促し、地域の活性化にもつながると考えた。

社会実装に基づく実証的研究を実施申請者らによる社会実装の例

参考

<<

Page 22: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

6.融合研究推進

音声合成

3D CGエージェント

手話認識

音声認識 対話技術

ウェブマップ技術

AI関連技術の融合によるイノベーション創出

画像認識

Page 23: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

新ハードウェア(筐体)

75インチ 4K ディスプレイ×2

2台の広角カメラ(顔認識技術による視線追従)

2台の防滴スピーカー(合成音声による案内)

複合センサー(赤外線・深度情報による手話認識技術) 照度センサー

(天候を考慮した輝度調整機能)

Page 24: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

新ハードウェア(マイクスタンド)

案内用タッチディスプレイ

指認識センサー(指文字認識技術)

メインマイク(防滴)

カードリーダー(教職員証・学生証を用いた個人向け案内等)

4本のサブマイク(防滴)(多言語音声認識)

赤外線センサー(新着情報呼びかけ等)

レーザーレンジファインダ(新着情報呼びかけ等)

Page 25: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

本件に関するお問い合わせ:名古屋工業大学 教授 徳田恵一TEL: 052-735-5404 / 080-3733-4630E-mail: [email protected]

名古屋工業大学 企画広報課広報室TEL: 052-735-5316E-mail: [email protected]

ご清聴ありがとうございました!

Page 26: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化
Page 27: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

「メイ&タクミ」に話しかけてみよう• 「こんにちは」• 「あなたのお名前は?」• 「徳田先生のお部屋はどこですか?」• 「図書館はどこですか?」• 「2号館はどこですか?」• 「情報工学科について教えて」• 「明日の天気は?」• 「その他に何ができますか?」• 「今日の運勢は?」→「××座です」• 「お昼ご飯はどこで食べるの?」• 「趣味は?」• 「特技は?」→「早口言葉やって」

• 「好きな食べ物は?」• 「兄弟はいますか?」• 「メイちゃんは何歳ですか?」• 「彼氏はいますか?」• 「スリーサイズは?」• 「学長は誰ですか?」• 「最寄駅は?」• 「暑いね」• 「さようなら」• 「じゃ,またね」• 「メイちゃんに交代して」• 「タクミくんに交代して」

その他,いろいろな問いかけに答えられます!

Page 28: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

「メイ&タクミ」に話しかけてみよう(英語・中国語)• Nice to meet you• What’s your name?• Good Morning• Hello• Good evening• Thank you• Good night• It is fine today• It is raining

• 谢谢• 你好• 晚安• 早上好• 初次见面• 晚上好• 再见• 明天见• 天气真好

※ 2018年6月5日現在、英語、中国語に対応しているのは「メイ」のみです

Page 29: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

「メイ&タクミ」に話しかけてみよう(手話)• 手話で自己紹介して• 手話でお仕事教えて• 手話で大学教えて• 手話で古墳教えて• 手話で鶴舞公園教えて• 手話でキャンパスマップ教えて• 手話でお天気教えて• 手話できるの?

• 「おはよう」の手話は?• 「こんにちは」の手話は?• 「こんばんは」の手話は?• 「さようなら」の手話は?• 「お疲れ様」の手話は?• 「ありがとう」の手話は?• 「ありがと」の手話は?• 「ごめんなさい」の手話は?

※手話認識については実装中です(2018年6月5日現在)

Page 30: 双方向音声案内デジタルサイネージ 「メイ&タクミ」tokuda/20180605_press_release.pdf · 大規模音声データと深層学習に基づき ・言語や話者によらない共通した特徴をモデル化

24時間勤務の裏側