雑音環境下のための音声案内システム 雑音レベルに...
TRANSCRIPT
平成25年度 卒業論文
雑音環境下のための音声案内システム: 周囲の
雑音レベルに合わせた音量の自動調整
指導教員 北 原 鉄 朗 専任講師
日本大学文理学部情報システム解析学科
吉 永 眞 宏 鈴 木 光
2014年2月 提出
i
概 要
現在,音声対話による音声検索や音声案内はニーズを増してきている.しかし,
雑音によって,使用者とシステムが対話をスムーズに行えないことが多くある.例
えば,周囲の雑音が大きく,使用者の発話内容をシステムが認識できなかったり,
システムの発話が使用者に伝わらない場面が挙げられる.円滑な音声対話を行うた
めには雑音環境に影響されずに音声認識を行い,より聞き取りやすい音声で発話
を行わなければならない.雑音に頑腱性を持たせる音声認識の研究は盛んに行わ
れているが,システムが生成した音声の聞き取りやすさを考慮した研究は少ない.
本研究では音声の発話音量を周囲の雑音量に合わせて自動調節したり雑音が静
かになるまで発話を延期することで音声案内を聞き取りやすくするシステムを提
案し構築する.発話音量の自動調節にはマイクロホンアレーを使用し,周囲の雑
音レベルを測定することで最適な音量で音声案内を行う.発話延期では,測定した
雑音レベルが音声再生に使用するスピーカーの最大音量を越える場合に行い,雑
音レベルが再生を阻害しないレベルに低下したら再生する.
また,提案手法によって本当に聞き取りやすさを改善出来たのかを確認するた
め,本研究では被験者実験を実施し,以下の結果を得た.周囲の雑音が静かになる
まで発話を延期し,発話音量を調整することによって聞き取り易くなったと感じ
た割合が 71%から 85%となり,14%上昇した.実際に発話内容を聞き取れたか
判定している四択形式の設問では正答率が 86%から 94%となり,8%上昇した.
iii
目 次
目 次 iii
図 目 次 v
表 目 次 vii
第 1章 序 論 1
1.1 本研究の背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 本研究の目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
第 2章 先行研究 3
2.1 山辺らの研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 伊積らの研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 外川らの研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4 先行研究の課題と解決策 . . . . . . . . . . . . . . . . . . . . . . . . 4
第 3章 システム構成 7
3.1 システムの概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 システムの各要素 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 雑音測定部 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2.2 音量制御・発話延期決定部 . . . . . . . . . . . . . . . . . . . 9
iv
3.2.3 音声合成部 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2.4 音声再生部 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 システムの実装に必要なパラメーター設定 . . . . . . . . . . . . . . 10
3.3.1 雑音測定部 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3.2 音量制御・発話延期決定部 . . . . . . . . . . . . . . . . . . . 12
第 4章 被験者実験 17
4.1 実験準備 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 実験内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3 被験者実験結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . 21
第 5章 結 論 29
参考文献 31
v
図 目 次
3.1 システム構成図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 全てのデータの散布図と近似式 . . . . . . . . . . . . . . . . . . . . 11
3.3 10個ごとのデータの平均の散布図と近似式 . . . . . . . . . . . . . . 12
3.4 RMSによる推定雑音の評価実験 . . . . . . . . . . . . . . . . . . . . 13
3.5 RMSによる推定雑音の評価実験まとめ . . . . . . . . . . . . . . . . 14
3.6 発話音量における雑音値 . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1 実験の様子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 実験時の機材の配置(単位はmm) . . . . . . . . . . . . . . . . . . 19
4.3 被験者Dで評価 2を回答したデータ . . . . . . . . . . . . . . . . . . 26
4.4 被験者 Jで評価 2を回答したデータ . . . . . . . . . . . . . . . . . . 26
vii
表 目 次
4.1 手法Aを用いた音声案内 . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 手法Bを用いた音声案内 . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 発話延期発生回数とその評価 . . . . . . . . . . . . . . . . . . . . . 25
4.4 手法Aにおける評価 3の詳細 . . . . . . . . . . . . . . . . . . . . . 27
1
第1章 序 論
1.1 本研究の背景
音声認識の技術が普及し,カーナビゲーションやインターネットでの情報検索
など,多くの場面で音声対話が活用されるようになっている [1].音声対話を円滑
に行うには,雑音下で音声認識を正確に行い,ユーザーに情報を正確に伝える必
要がある.音声認識の精度を上昇させるため,雑音に頑健な音声認識を行う研究
が数多くなされてきた [2][3][4][5].音声対話では,雑音下での音声認識だけではな
く,正確に情報を伝えることも重要である.ユーザーに情報を正確に伝えるため
には,音声による案内だけではなくモニターを利用した視覚情報を用いることが
一般である.しかし,それでは目の不自由な人が正確に情報を取得することが出
来ない.
明瞭に音声を聞き取るための研究としては伊積ら [6]によるスピーカーの位置や
間隔を変えるなど発話する場所によって音声の明瞭度の向上を図ったものや,水野
ら [7]による「通る声」の人がいることに着目し,雑音に強い周波数帯域の特徴を
調べることで個人の声質を変化させずに音声合成を行う研究がなされてきた.し
かし,これらの研究では周囲の雑音量が変化した時に対応することができない.こ
のように,周囲の雑音量を考慮してリアルタイムに音声を聞き取りやすくする研
究はなされていない.
現在のカーナビゲーションやインターネット検索といった、各個人で使用する
音声案内において,利用者が音声合成による発話を聞き取りづらく感じたときは
自ら音量を調節できるが,公共の場に設置された音声案内のシステムでは,音量
2 第 1章 序 論
を自由に調節できない場合が多々ある.特に視覚から情報を得ることの難しい視
覚障害者にとって,音量を調節する事は音声案内の発話を正確に聞き取る際に必
要不可欠になると考えられる。
1.2 本研究の目的
本研究では,視覚障害者が雑音下で音声対話を円滑に行うことを目標とする.音
声対話の中でもあまり研究のなされていない音声発話の明瞭化に焦点を当てたシ
ステムを構築する.
このシステムでは,7chのマイクロホンアレーから送られてきた音響信号から雑
音レベルを抽出し,その雑音レベルに合わせてシステムの発話音量を自動調整す
る.しかし,発話の音量にも限界があり,電車の通過音などの突発的な雑音が発
生した場合,音声案内は使用しているスピーカーが出力できる最大音量を超えて
しまう事がある.そこで,雑音量があまりにも大きい場合は発話を停止し,一定
時間後に再び発話をする.これにより,利用者は音声合成による発話を雑音下で
も聞き取りやすくなると予想される.このことは,雑音環境下で音声案内を円滑
に行うことのできるシステムの構築において,重要な要素となると予想される.
1.3 本論文の構成
本論文は次の構成からなる.第 2章では,先行研究とその問題点を提示しその問
題に対する改善案を提示する.第 3章では,その改善案に基づいて設計したシス
テムの構築について述べる.第 4章では,実験の方法を述べ,被験者実験の結果を
考察する. 第 5章では,本論文で述べてきた研究成果についてまとめ,本研究の今後
について考察する.
3
第2章 先行研究
発話音声の明瞭化に関する研究では,伊積らのように物理的な要因を検証する
ものと水野らのように音声の特徴量に注目して明瞭化を行うものの2種類に分け
られる.本章ではそれぞれの種類の先行研究を紹介し,その課題と解決方法につ
いて検討する.
2.1 山辺らの研究
山辺らの研究 [8]では,音の残響が後続する音の阻害をしていることに注目し,
明瞭度の改善を図っている.残響音はマスキング量という値によって現され,こ
の値が大きいほど後続の音素への影響が大きくなる.母音と子音を比較した場合,
一般的に母音の方がマスキング量が大きくなり,音声の聞き取り辛い雑音環境下
では音声明瞭度が低下してしまう.なので山辺らは,音声の母音部の振幅を抑圧
することで後続する音素へのマスキングの影響を軽減し,音声明瞭度の改善を達
成した.
2.2 伊積らの研究
伊積らの研究 [6]では,スピーカーを設置する高さや間隔を調整することで周囲
の雑音や反響音を抑え,明瞭度の改善をすることを図っている.駅コンコースに
設置されているスピーカーは指向性を有しており,スピーカーの向いている方向
ではある程度の明瞭度を得ることができるが,スピーカーの向いていない方向で
4 第 2章 先行研究
は雑音や反射音の影響を受けやすく,十分な明瞭度を得ることが出来ない.そこ
で,伊積らはスピーカーの設置位置と設置間隔を検証し,駅の案内放送が聞き取
り安くなる条件を明らかにした.スピーカーの設置位置は,スピーカーから 3m以
内の位置では天井に真下に向けて埋め込む方法が,3m以上離れた位置では床から
3mの地点に横向きで設置する方法が,明瞭度を改善出きることを明らかにした.
スピーカーの設置間隔は,天井の高さが 2.5mでは 4.8m以下,3mでは 6.7m以下,
4mでは 6.1m以下が適切な間隔であることを明らかにした.
2.3 外川らの研究
外川らの研究 [9]はスマートフォンでの通話を聞き取りやすくするために,通話
相手の声を強調することによって明瞭度を改善する事を図っている.これは,受話
者の周波数ごとのパワー(音声スペクトル)と,携帯電話の送話者のマイクを利用
して得られる周囲の雑音の周波数ごとのパワー(雑音スペクトル)に応じて,受
話者に聞きやすい音量に受話音を制御する.これにより,空港やレストラン,ガー
ド下など雑音環境によらず音声の聞き取りやすさを高める効果があることを確認
した.
2.4 先行研究の課題と解決策
山辺らの研究ではマスキングに着目して明瞭度を改善する事に成功した.しか
し,山辺らの研究では実験が行われておらず,実際の雑音環境下で実用性がある
のか確認できていない.また,伊積らの研究では雑音量が変化することを考慮し
ていないため,通勤のピーク時など雑音量が一定時間通常よりも大きくなった場
合に対処することができない.細川らの研究ではリアルタイムに処理を行い,雑
音の変化にも対応することができるが,スマートフォンによる通話を前提として
2.4. 先行研究の課題と解決策 5
いるため,スピーカー部分が耳に密着しており,スピーカーから再生できる音量
よりも大きな雑音がユーザーの耳に入ることが想定されていない.
本研究では,雑音の変化に対応する為に周囲の雑音レベルに合わせた自動音量
調節を行う.また,被験者実験を行い提案手法により明瞭度が改善されたのかを
確認する.
7
第3章 システム構成
本章では音量の自動調節や発話のタイミングを考慮するためのシステムの概要
及び構成,実装について述べる.システムの構成は大まかに,雑音測定部,音量
制御・発話延期決定部,音声合成部と音声再生部から構成されている.
3.1 システムの概要
提案するシステムでは,大きく4つの要素から構成されている図 (3.1).
• 雑音量をリアルタイムに算出する雑音推定部
• 雑音推定部の結果を参考に,発話のタイミング及び発話音量の制御を行う音
量制御・発話延期決定部
• 発話する文章の音声合成を行う音声合成部
• 音声発話するための音声再生を行う音声再生部
3.2 システムの各要素
システムの各要素について詳しく述べる.
8 第 3章 システム構成
図 3.1: システム構成図
3.2.1 雑音測定部
雑音測定部では,周囲の雑音量をリアルタイムに推定する.
周囲の雑音量を推定するには,HARK(HRI-JP Audition for Robots with Kyoto
University)[10]を用いて推定する事ができる.HARKとは,京都大学 大学院情
報学研究科 音声メディア分野 奥乃研究室が研究開発しているオープンソースのロ
ボット聴覚ソフトウェアである.システム構成は,音源定位モジュール・音源分離
モジュール・分離された音声信号の自動音声認識モジュールからできている.シ
ステムデータフロー処理にはデータフロー指向GUIプログラミング環境(ミドル
ウェア)である Flowdesignerを利用する.HARKからのデータの受け取りには,
HARKに標準搭載された HarkDataStreamSender(TCP/IP通信)を利用し,周
3.2. システムの各要素 9
囲の音響データをサンプリング周波数 10ミリ秒で受け取る.受け取った音響デー
タに対して,1000ミリ秒毎にRoot Mean Square(以下,RMS)を計算し,雑音
量(以下,振幅のRMS)を数値化する.RMSとは,複数のデータを二乗し平均を
求め,その平均の平方根を取ることをいう.
しかし,振幅のRMSのままでは,どの程度の雑音量かわかりにくいため,扱い
やすいデシベル値(以下,推定 dB値)に変換する.振幅のRMSを xRMSとする
と,この変換は,
xdB = a1 × ln xRMS + a2 (3.1)
により行う.a1,a2は,実際に本システムを利用する場所に置いて,様々な音量
で雑音を再現し,再現時に雑音計で計測して,推定 dB値と本システムで求めた振
幅のRMSを用いて推定する.
3.2.2 音量制御・発話延期決定部
音量制御・発話延期決定部(以下,音量制御部)では,主に 3つに分かれている.
• 雑音測定部で求めた値を用いて,発話可能か発話不可能かを処理する.
• 発話前:発話可能であれば音声再生する際に雑音量に対して適切な発話音量
を計算し,音量調整を行う.
• 発話中:音声発話環境下で発話に適した音量調整を行う.
音声発話する際に雑音量に対して適切な発話音量を推定するために,周囲の雑
音量から,発話音量に変換する.推定 dB値を xdBとすると,この変換は,
xvolume = b1 × xdB + b2 (3.2)
により行う.b1,b2は,実際に本システムを利用する場所に置いて,様々な音量で
雑音を再現し,再現時にシステムの発話内容が正確に聞き取れるときの発話音量
を計測して,発話音量と本システムで求めた推定 dB値を用いて推定する.
10 第 3章 システム構成
音声発話中では,システムの発話が雑音として認識された,式 (3.2)では対応で
きない.そのため,音声発話環境下で発話に適した音量調整を推定するために,発
話音量から,周囲の雑音量を推定する.発話音量を xvolumeとすると,この変換は,
xestimatedB = c1 × exp(xvolume × c2) (3.3)
により行う.c1,c2は,実際に本システムを利用する場所に置いて,システムの発
話を行い,その発話に対して推定 dB値の変化を計測して,発話音量と本システム
で求めた推定 db値を用いて推定する.
3.2.3 音声合成部
音声合成部では,音声再生したい文章を音声合成ソフトウェアを用いて,音声
合成を行う.
3.2.4 音声再生部
音声再生部では,音量制御部で処理された内容に応じて,音声合成部で音声合
成した音声を再生する.発話可能な状態なら,音声合成した音声を再生する.ま
た,発話可能でない状態なら,「静かになるまでお待ちください」という音声を再
生する.15秒後も発話できない状況であるならもう一度「静かになるまでお待ち
ください」を繰り返す.そして,発話可能な状態になったら,発話を開始する.
3.3 システムの実装に必要なパラメーター設定
本節では,3.2節で述べたシステムを実行する上で必要となるパラメータを実験
的に定めたので,その結果について述べる.
3.3. システムの実装に必要なパラメーター設定 11
3.3.1 雑音測定部
図 3.2: 全てのデータの散布図と近似式
3.2.1節で述べたRMSから dB値への変換式におけるパラメータ a1,a2を推定す
るため,予備計測を行った.実際に実験を行う環境(4章参照)において,実験に
用いる雑音を収録した時と同じ雑音量(最小 30dB,最大 100dB)で再生した.こ
の時の本システムが求めた RMSと雑音計によい計測した dB値の散布図を図 3.2
に示す.図 3.3は,図 3.2のデータをRMSの低い順にし,10個ごとのデータの平
均をとり,散布図にした.これらに対して最小二乗法により a1,a2を求めたとこ
ろ,図 3.2に対しては,a1 = 7.229990872, a2 = 8.2334032299となり,図 3.3に対
しては,a1 = 7.2131551714, a2 = 8.3598087494となった.以降の実験では,決定
係数の高い後者を用いることとする.この式により求めた dB値を雑音量の基準と
して利用する.
先の振幅のRMSから推定した雑音量が雑音計で測量した値がどの程度正しいか
に関して,の評価実験を行った.結果は,図 3.4のようになった.
図 3.4は,横軸が実際に雑音計で測量した dB値,縦軸が推定 dB値を示してい
12 第 3章 システム構成
図 3.3: 10個ごとのデータの平均の散布図と近似式
る.結果として,推定式が対数なので,雑音量が低い時はあっているが,雑音量
が 70dBを超えると値を正確には計る事ができない.
3.3.2 音量制御・発話延期決定部
発話可能か否かを判断するには以下の基準を設けた.発話できる状況は,以下
の条件を全て満たすときである.
• 現在の推定 dB値 < 64 dB
• 1秒前の推定 dB値 < 64 dB
• 2秒前の推定 dB値 < 69 dB
この条件に設定した値は,実験的に定めた.また,現在,1秒前よりも 2秒前が発
話可能な閾値が高い理由は,雑音量が下がり始め,今後も雑音量が下降するもし
くは上昇しない.つまり発話に適した雑音環境になる予想を考慮している.
3.3. システムの実装に必要なパラメーター設定 13
図 3.4: RMSによる推定雑音の評価実験
発話音量の決定には,まず雑音を流して,どの音量でシステムからの発話が聞
き取れるかを検証実験した.結果は図 3.5のようになる.
3.2.2節で述べた推定 dB値から発話音量への変換式におけるパラメータ b1,b2を
推定するため,予備計測を行った.実際に実験を行う環境(4章参照)において,
実験に用いる雑音を収録した時と同じ雑音量(最小 30dB,最大 100dB)で再
生した.この時の本システムが求めた推定 db値とシステムの発話が正確に聞き取
れた時の発話音量の散布図を図 3.5に示す.これらに対して最小二乗法により b1,
b2を求めたところ,b1 = 1.0549184024, b2 = −94.9943840151となった.以降の実
験では,発話開始時の音量調整にはこのパラメータを用いることとする.
3.2.2節で述べた発話音量から推定 dB値への変換式におけるパラメータ c1,c2を
推定するため,予備計測を行った.実際に実験を行う環境(4章参照)において,
行った.本システムの発話した時の発話音量と本システムが求めた推定 db値の
散布図を図 3.6に示す.これらに対して最小二乗法により c1,c2を求めたところ,
c1 = 69140.016808083, c2 = 0.1533534075となった.以降の実験では,発話開始
14 第 3章 システム構成
図 3.5: RMSによる推定雑音の評価実験まとめ
図 3.6: 発話音量における雑音値
中の擬似雑音量にはこのパラメータ(以下,発話中雑音量推定)を用いることと
する.この発話中雑音量推定と推定dB値を用いて,発話中雑音量推定推定 dB値
の値に応
じて,発話音量の増加,減少を行う.発話中雑音量推定推定 dB値
の音量制御する際の値は,
実験的に定めた.
• 発話中雑音量推定推定 dB値
≤ 0.5 の時,音量減少
3.3. システムの実装に必要なパラメーター設定 15
• 発話中雑音量推定推定 dB値
≥ 1.8 の時,音量増加
• 0.5 <発話中雑音量推定推定 dB値
< 1.8 の時,音量変化なし
17
第4章 被験者実験
本章では音量の自動調節や発話のタイミングを考慮した提案手法(以下,手法
A)と,考慮しない手法(以下,手法B)を用いて行った被験者実験の内容や結果
について述べる.
4.1 実験準備
本実験の目的は,雑音環境下での音声聞き取りにおいて,雑音が高い時に発話
を延期したり,音量調整をすることで,どれほど聞きやすさや正確に聞き取れる
ようになったかを,提案手法のシステムを用いて検証をする.
雑音の収録にはMicroconeを利用した.このMicroconeには,マイクが側面方
向 60度おきに計 6個と天井方向に 1個の合計 7個付いているマイクロフォンアレ
イである.収録に使用したチャンネルは,天井方向を除く側面 6方向のマイクを
利用し,環境を再現する際には,6個のスピーカーを利用した.
実験には常に静かであり、外部からの雑音が入りにくく遮音性の高い部屋を用
いる必要があるため,日本大学文理学部にある百周年記念館の会議室 3及び会議
室 4にて行った (図 4.1).機材図 4.2の通りに配置し,四角形は被験者を示してお
り,円形は雑音再生用スピーカーであり,被験者の周りに6個している.五角形
は音声案内用スピーカー,六角形はマイクロフォンアレイをそれぞれ示している.
実験には,下記の機材を利用した.
• 実験用 PC:Lenovo,ThinkPad,X121e(CPU Intel i3 1.40GHz, Memory
4033084kB, OS Linux Ubuntu 12.04 LTS)
18 第 4章 被験者実験
図 4.1: 実験の様子
• マイクロフォンアレイ:DevAudio Microcone (7ch)
• 音声案内再生用スピーカー:BOSE Computer MusicMonitor (6個)
• 雑音再生用スピーカー:BEHRINGER MONITOR SPEAKER 1C
• 雑音再生用オーディオアンプ:Pioneer VSA-921
• 音声合成ソフト:OpenJTalk1.0.6(女声)
実験用 PCからの音響出力は最大音量とし,雑音を再生する際のパイオニアのア
ンプの設定は-20.0dBとする.また,音声案内再生用スピーカーの音量設定は最大
とする.
被験者は 21歳から 24歳までの男性 7名と女性 7名の計 14名に協力して頂いた.
下記の手順で被験者実験を行った.
1. 実験環境に慣れてもらうために,スピーカーから雑音を 30秒間再生する.
2. 1の雑音環境下で手法Bでの音声案内を行い,アンケートに答えてもらう.
3. 1を再度繰り返す.
4.2. 実験内容 19
図 4.2: 実験時の機材の配置(単位はmm)
4. 1の雑音環境下で手法Aでの音声案内を行い,アンケートに答えてもらう.
4.2 実験内容
雑音はMicrocone を使って東京都内の駅のホームで録音したものを再生し,実
際の環境を再現する.再現する雑音は最大 96dB,平均 64dBとした.発話には
OpenJTalkを用いて女性の声を音声合成し,再生する. 発話頻度は再生中の発話
が終了してから 10秒後に次の発話を行う.発話回数は,各手法合計 21回行う. 被
験者は実験中に音声案内が聞こえたかどうかを 7段階で評価する. それぞれの評価
は以下のようにした.
1 まったく聞こえなかった
20 第 4章 被験者実験
2 声は聞こえるが何を言っているのかわからない
3 聞き取れるが,大部分が聞き取りにくい
4 聞き取れるが,一部聞き取りにくい
5 聞き取れる
6 聞き取れるが,音量が大きすぎる
7 聞き取れるが,音量が非常に大きすぎる
発話内容は,「○○から△△までの料金は□□円です.」や「○○から□□線に乗
り,△△に向かいます」など5種類用意し,毎回駅名や料金,手段を変えて案内を
行い,次のような4つの選択肢から聞き取ったものを選んでもらった.また,元々
料金や行き方を知っていることの効果を防ぐため,でたらめな料金や行き方を案
内することとした.
(例 1)
• 「青砥から青井までの料金は 230円です.」
• 「青井から青砥までの料金は 230円です.」
• 「青砥から青井までの料金は 530円です.」
• 「青井から青砥までの料金は 530円です.」
(例 2)
• 「亀有から西武多摩川線に乗り,亀戸へ向かいます.」
• 「亀戸から西武多摩川線に乗り,亀有へ向かいます.」
• 「亀有から西武多摩湖線に乗り,亀戸へ向かいます.」
4.3. 被験者実験結果と考察 21
• 「亀戸から西武多摩湖線に乗り,亀有へ向かいます.」
アンケートには下記の質問事項を用意した。
• 全体的に音量は適切でしたか?
• 「静かになるまでしばらくお待ちください」は有って良かったですか?
• 最後に一言実験の感想や良かったところ,悪かったところを頂けると幸い
です.
4.3 被験者実験結果と考察
手法Bの音声案内を再生した結果を表 4.1,手法Aの音声案内の結果を表 4.2に
示す.表は横軸が聞き取りやすさの違いによる 7段階の評価,縦軸がそれぞれの被
験者を表している. 結果の左側がそれぞれの評価が記録された回数,右側が類似
文章による選択問題の正答率となっている. それぞれの結果で,音声発話が正常に
行われなかったデータは削除している. また,7段階評価の評価 1 ,評価 2 につい
ては聞き取れなかった評価のため,4択問題による聞き取りやすさの判断は行わな
いものとした.
表 4.1の結果から,音量調節を行わない場合は 14人中 11人が評価 1 または評価
2 を回答してるため,聞き取りに困難を感じていると判断できる. 平均に着目する
と,すべての人が1回以上は聞き取りに困難を感じている結果となった. また,評
価 5を選択した回数は提案手法を用いた場合,通常再生より平均で 2.9 回増加し,
14人中 10人で評価 5を選択した回数が増加している. 類似文章による選択問題の
正答率も上昇していることから,提案手法によって聞き取りやすくなっていると
言える.
14人の被験者のうち,被験者B及びH, Nの 3人が提案手法を利用して適切
な音量で聞き取れたと回答した回数が低下した. ここで被験者 B の類似文章によ
22 第 4章 被験者実験
る選択問題の正答率に注目すると聞き取れ方が不安定な時の場合,手法Bの音声
案内の正解率が 50 %なのに対して手法Aの正答率は 100 %となった.また,被験
者 H及び Nの 2人についても注目すると,手法 Aでは,手法 Bの音声案内の聞
こえやすさの評価である評価 2 が無くなり,評価 4 が増えており,正答率も高く
なた.被験者Gに関しては,手法Bと手法Aで,聞こえやすさの評価 5 の回数は
変らないが,手法 Bの音声案内では,評価 2 と評価 3 があり正答率も 0%であっ
たが,手法Aでは評価 2 が無くなり評価 3 と評価 4 が多くなり正答率も 100%と
なった.
これらは聞き取りやすく感じた回数は低下したが,実際に正しく聞き取れた回
数は増加したことを意味している.また,聞き取りが不安定な時の正答率の平均が
低下した原因については以下のようなことが考えられる.手法Aが音量調節を行う
際に周囲の環境音が静かなときに必要以上に再生音量を小さくしてしまう. 実際
に,記述回答では手法Aで周りが静かになったときに音量が音声案内の音量が小
さくなりすぎていたとの回答が複数得られた.
手法Aによる延期が発生した発話のほとんどでが評価 5であった. その結果を
表 4.3に示す. 発話延期は平均で 28%の確率で起きており,最高で 33%,最低で
23%となった.この発話延期が起きると一発話につき平均 14秒の延期時間が生じ
る.一番長い延期(電車の相互通過など)で 25秒かかる.また一番短い延期(構
内アナウンスなど)では 8秒で発話を行っている.
各表は,左の列から「被験者」,「延期が発生した発話数」,「延期が発生した発
話で評価 5が記録された回数」,「延期が発生した発話で評価4が記録された回数」
となっている.
手法Bの音声案内と手法Aを比較すると,手法Aの方が評価5の出現回数が平
均 2.9回程度増加,出現確率では 13.8%程度上昇し,評価4以下の出現回数が平均
2.5 回減少,出現確率では 12.1%降下していることから発話の延期が行われるこ
とによって聞き取りづらく感じていた発話が聞き取りやすくなったと考えられる.
4.3. 被験者実験結果と考察 23
表 4.1: 手法Aを用いた音声案内
被験者 7[回] 7[%] 6[回] 6[%] 5[回] 5[%] 4[回] 4[%] 3[回] 3[%] 2[回] 2[%] 1[回] 1[%]
A 0 - 1 100 10 90 5 80 3 67 1 0 0 -
B 0 - 0 - 17 94 2 100 2 50 0 - 0 -
C 0 - 0 - 12 100 5 100 3 100 0 - 0 -
D 0 - 0 - 14 93 1 100 2 50 4 0 0 -
E 0 - 0 - 16 94 1 0 0 - 0 - 3 0
F 0 - 0 - 15 93 2 0 2 0 2 0 0 -
G 0 - 0 - 17 100 0 - 2 0 1 0 0 -
H 0 - 0 - 13 100 1 100 3 100 3 0 0 -
I 0 - 7 100 10 90 2 100 1 100 1 0 0 -
J 0 - 0 - 18 100 2 50 0 - 1 0 0 -
K 0 - 0 - 15 93 3 100 2 100 1 0 0 -
L 0 - 0 - 18 94 2 100 1 0 0 - 0 -
M 0 - 0 - 14 93 3 67 2 100 0 - 2 0
N 0 - 0 - 17 100 2 100 1 0 1 0 0 -
平均 0 - 0.6 100 14.7 95.6 2.2 80.7 1.7 62.5 1.07 0 0.4 0
手段Bの音声案内での全体の正答率は 85.8%に対して,手法Aでの全体の正答
率は 94.4%と 8.6%の正答率向上がみられた.発話の延期が行われることによって
しっかり聞き取りづらい発話が正確に聞き取りやすい発話になったと考えられる.
手法Aの結果,表 4.2から評価 2を回答したのが,2回(結果全体の 0.7%)あっ
た.この評価 2に関して注目すると,雑音や音量の変化は図 4.3,図 4.4のように
なる.
図 4.3,図 4.4に関してもシステムの発話直後に電車の通過音などにより聞き取
りにくい状態になっていたと考えられる.また,システム側の再生音量に関して,
雑音量に増加に応じてシステム側の音量が上昇せず,下降していることにより,余
24 第 4章 被験者実験
表 4.2: 手法Bを用いた音声案内
被験者 7[回] 7[%] 6[回] 6[%] 5[回] 5[%] 4[回] 4[%] 3[回] 3[%] 2[回] 2[%] 1[回] 1[%]
A 0 - 1 100 15 93 5 0 0 - 0 - 0 -
B 0 - 0 - 16 94 5 100 0 - 0 - 0 -
C 0 - 0 - 19 100 2 100 0 - 0 - 0 -
D 0 - 0 - 16 100 4 100 0 - 1 0 0 -
E 0 - 0 - 21 100 0 - 0 - 0 - 0 -
F 0 - 0 - 20 95 0 - 0 - 0 - 0 -
G 0 - 0 - 17 100 2 100 1 0 0 - 0 -
H 0 - 0 - 11 91 7 100 3 100 0 - 0 -
I 0 - 1 0 19 100 0 - 0 - 0 - 0 -
J 0 - 0 - 21 95 0 - 0 - 0 - 0 -
K 0 - 0 - 21 95 0 - 0 - 0 - 0 -
L 0 - 0 - 19 100 0 - 1 0 0 - 0 -
M 0 - 1 100 15 100 3 100 0 - 1 0 0 -
N 0 - 0 - 16 100 4 100 1 100 0 - 0 -
平均 0 - 0.21 66.7 17.6 97.5 2.3 84.4 0.43 66.7 0.14 0 0 -
計に聞きにくかったと考えられる.理想的な音量調整は図 4.3,図 4.4に図示した
通り,雑音の増加に対して音量を上げる処理をすることである.また,雑音量が
高いため音量調整だけでは対処できない可能性がある.再生中に雑音量が極端に
増加したら,再生を停止し再度発話をする仕組みが必要であると考えられる.
手法 Aの結果,表 4.2から聞き取れるが,大部分が聞き取りにくいという評価
3の回答が,6回(結果全体の 2.1%)あった.同様に,評価 3に関して注目する
と,雑音や音量の変化は表 4.4のようになる.
表 4.4より,合計 7回のデータを以下のように分類できる.
• 雑音に音量調整が追いついていない:2回
4.3. 被験者実験結果と考察 25
表 4.3: 発話延期発生回数とその評価
被験者 発生回数 発話延期率 平均延期時間 評価 7 評価 6 評価 5 評価 4 評価 3 評価 2 評価 1
A 6 28.6 16.0 0 0 5 1 0 0 0
B 6 28.6 14.7 0 0 5 1 0 0 0
C 6 28.6 13.3 0 0 6 0 0 0 0
D 7 33.3 11.4 0 0 6 1 0 0 0
E 7 33.3 11.4 0 0 7 0 0 0 0
F 6 30.0 16.0 0 0 5 1 0 0 0
G 6 30.0 10.0 0 0 6 0 0 0 0
H 6 28.6 18.3 0 0 6 0 0 0 0
I 5 25.0 15.0 0 1 4 0 0 0 0
J 5 23.8 17.8 0 0 5 0 0 0 0
K 5 23.8 17.0 0 0 5 0 0 0 0
L 5 25.0 11.4 0 0 4 0 1 0 0
M 5 25.0 14.4 0 0 4 1 0 0 0
N 5 23.8 14.2 0 0 4 1 0 0 0
平均 5.7 27.7 14.2 0 0.1 5.1 0.4 0.1 0 0
• 雑音はほとんど変らないが,勝手に音量が下がる:2回
• 雑音が上昇し,音量が下がる:3回
評価 2の時と同様に,システム側の再生音量に関して,雑音量に増加に応じてシ
ステム側の音量が上昇せず,下降している.又は雑音量に変化はないが,同じく
システム側の音量が下降しているため,大部分が聞きにくかったと考えられる.
26 第 4章 被験者実験
図 4.3: 被験者Dで評価 2を回答したデータ
図 4.4: 被験者 Jで評価 2を回答したデータ
4.3. 被験者実験結果と考察 27
表 4.4: 手法Aにおける評価 3の詳細
被験者 発話回数目 間違い箇所 雑音量 発話音量
E 16 駅名:両方 上昇 降下
G 17 駅名:片方 手段 上昇 降下
H 16 なし 変化なし→若干降下 降下
H 19 なし 変化なし→若干上昇 降下
H 20 なし 変化なし→若干上昇 変化なし
L 17 駅名:片方 少しずつ上昇→上昇 降下
N 16 なし 変化なし 降下
29
第5章 結 論
本研究では,合成音声の発話中に自動で音量調整や発話の延期を行うことでユー
ザーの聞き取りやすさに影響を与えることができるかを検証した.被験者実験を
行った結果,提案手法により,雑音量が高い時に発話を延期して,小さくなった
ら延期していた音声発話を再開したり,音量を調節することにより,聞き取れな
かった発話内容が聞きやすくなり,正答率も上昇した.発話内容の聞きやすさで
は,「聞き取れない」という回答が,7%から 0.7%となり 6%減少し,「聞き取りや
すい」という回答が 71%から 85%となり 14%の向上を計ることができた.また,
発話内容の正答率でも,平均正答率が 86%から 94%となり,8%の向上を計るこ
とができた.よって,提案手法によりユーザーの音声発話聞き取りを補助するこ
とが出来ることを確認した.
本来,音量調整システムは,マイクロフォンアレイから周囲の雑音のみの音量
を計算するのが望ましい.しかし現状では,周囲の雑音だけでなく,システムの
発話内容やユーザーの自己発話が入ってしまうため,設置場所が変わると対応で
きない可能性がある.様々な場所でも的確な音量調整をするには,周りの雑音と
自己発話の音を分離し,周囲の雑音を正確に計り,音量調整する必要がある.こ
れは,今後の課題である.
31
参考文献
[1] 角谷 直子:“カーナビの地名入力における誤認識時の訂正発話の分析と検出”,
情報処理学会研究報告, SLP, pp.61-66, 2001-7
[2] 中村 哲:“実音響環境に頑健な音声認識を目指して”, 電子情報通信学会,
EA2002-12, pp.31-36, 2002-4
[3] 小谷恭平:“SS法に基づくブラインド残響除去法による雑音残響下音声認識”,
日本音響学会 2011年秋季研究発表会講演論文集, , 2011-9
[4] 北岡 教英:“スペクトルサブトラクションと時間方向スムージングを用いた
雑音環境下音声認識”, 電子情報通信学会論文誌, pp.500-508, 2000-2
[5] 佐藤 幹:“Noise-Robust Auditory Systems for Human-Robot Communica-
tion”, 京都大学博士論文, 2010
[6] 伊積康彦:“駅コンコース案内放送の明瞭度向上手法”, RTRI REPOT, Vol.27,
No.6, pp.49-54, 2013
[7] 水Proc. Autumn Meet. Acoust. Soc. Jpn.野 秀之:“多様性豊かな音声合成技
術”, NTT技術ジャーナル, pp.29-32, 2013
[8] 山辺祐史:“音声定常部抑圧処理のリアルタイム化のためのアルゴリズムの検
討:雑音環境下における音声明瞭度改善に向けて”, Proc. of DSPS Educators
Conference, pp.47-50, 2010
32 第 5章 結 論
[9] 外川 太郎:“受話音を聞きやすくする音声強調技術/話速変換技術”, 電子情報
通信学会誌, Vol.97, No.11, pp.874-881, 2013
[10] 奥乃 博:“ロボット聴覚の現状と展望”, 日本ロボット学会誌, Vol.28, No.1,
pp.2-5, 2010
33
謝 辞
本研究は日本大学文理学部情報システム解析学科北原研究室の卒業研究の研究
テーマとして実施されました.本研究を進めるにあたり,ご指導を頂いた卒業論文
指導教員の北原鉄朗先生に感謝致します.また,研究の方針や被験者実験の方法に
関して,数多くの意見やコメントを下さいました被験者実験に協力頂いた方々,北
原研究室の先輩,同期,後輩の皆様に感謝致します.