speech recognition and python 151122-v2-light
TRANSCRIPT
![Page 1: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/1.jpg)
音声認識と新しいComputing
Takuya Nishimoto, Ph.D.Chief Software Architecht
SomniQ, Inc.
![Page 2: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/2.jpg)
2013 年〜現在
• SomniQ, Inc. (シリコンバレー)–在宅でリモートワーク–ステルスモードのスタートアップ
• 使っている技術– Python, JavaScript, C/C++–音声対話、機械学習、デバイス、クラウド
• mindful living computer–新しい Computing の環境
![Page 3: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/3.jpg)
Python で音声認識
• 音声認識エンジンと通信、音声認識エンジンを Python でラップ–Windows 音声認識 , PocketSphinx, Julius
• クラウド API– wit.ai
• 音声認識を Python で実装– scipy, dtw–「実践 機械学習システム」 MFCC 分析
![Page 4: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/4.jpg)
音声認識は何のために?
• 過去の理由–キーボードは難しい– Command Line Interface から音声認識?
• GUI が登場、普及– Graphical User Interface
• 音声認識はやっぱり不要だった–技術も未成熟だったが–そもそも愛されなかった
![Page 5: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/5.jpg)
音声認識マニアの時代
• オープンソース–いつか誰かが必要とする技術
• アクセシビリティ–誰かにとっては必要な技術– IBM の VoiceType は障害者支援技術から
• 何が必要なのか–エンタテインメント?
![Page 6: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/6.jpg)
これが必要だった
• キラーデバイス・キラーアプリ–スマートフォン–インターネット検索エンジン
• 音声認識の技術者に作れたか
![Page 7: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/7.jpg)
音声認識が GUI を捨てられない
• ストレスを取り除けない–歩きスマホ–ガジェット疲れ
• GUI を捨てたらどんな Computing が?–エージェント、ロボット–人間に近づくことが重要か?–不気味の谷
• IoT (Internet of Things)
![Page 8: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/8.jpg)
2004 年
• 全世界で 100 万個以上を出荷• たぶん音声検出しかやってない
バンダイ「うなずきん」 ©rainbow spice!http://www.bandai.co.jp/releases/J2004090201.html
![Page 9: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/9.jpg)
1975 年
https://en.wikipedia.org/wiki/Pet_Rock
• 半年で 500 万個の売上–飼育マニュアル、血統書–人が勝手に感情移入して満足
![Page 10: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/10.jpg)
Computer = 脳の自転車
• マウス–押す、つかむ、動かす
• タッチ–加速度スクロール、ラバーバンド
• 作法が重要–人間の身体の経験–人工的・非現実だが慣れれば自然• アフォーダンス、心理学、認知科学
![Page 11: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/11.jpg)
人間の言語の経験
• 拡張できる–点字–手話
• 文法があるから拡張できる–音声学、言語学–アクセシビリティ
![Page 12: Speech recognition and Python 151122-v2-light](https://reader036.vdocuments.site/reader036/viewer/2022062502/58aa51d11a28ab10578b5453/html5/thumbnails/12.jpg)
新しい Computing• 新しい作法–新しいデバイス–新しいアプリケーション
• 源泉–オープンソース–アクセシビリティ– Python