icassp2017読み会 (acoustic modeling and adaptation)

22
SP-L8 Acoustic modeling and adaptation 東京大学 情報理工学系研究科 特任助教 高道 慎之介 ICASSP読み会(関東編)

Upload: shinnosuke-takamichi

Post on 22-Jan-2018

662 views

Category:

Science


4 download

TRANSCRIPT

Page 1: ICASSP2017読み会 (acoustic modeling and adaptation)

SP-L8

Acoustic modeling and adaptation

東京大学 情報理工学系研究科 特任助教

高道 慎之介

ICASSP読み会(関東編)

Page 2: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

本セッションのキーワード

2

Acoustic model (音響モデル)

– 音声音響特徴量と何かを対応付ける統計モデル

– 例:speech-to-text (音声認識)

• 多人数・多言語の speech/text データから学習される

Adaptation (適応)

– 少量のデータのみから,学習済みの音響モデルを適応させること

– 例:話者適応

音響モデル テキスト特徴量 音声特徴量

音響モデル 不特定多数の

話者の声を認識

音響モデル Aさんの声に

特化した認識 Aさんの声を

少量だけ準備

Page 3: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

論文一覧 (リンクは著者がアップロードした原稿. を紹介)

Zhang et al. (Cambridge), “Joint optimisation of tandem systems using Gaussian

mixture density neural network discriminative sequence training” (paper)

Gupta et al. (CMU), “Visual features for context-aware speech recognition” (video)

Sahraeian et al. (KU Leuven), “Exploiting sequential low-rank factorization for

multilingual DNNs” (paper)

Jyothi et al. (Indian Institute of Technology Bombay), “Low-resource grapheme-to-

phoneme conversion using recurrent neural networks” (paper)

Samarakoon et al. (National University of Singapore), “An investigation into learning

effective speaker subspaces for robust unsupervised DNN adaptation” (ググれば一応出てくる)

Zhao et al. (Microsoft), “Extended low-rank plus diagonal adaptation for deep and

recurrent neural networks,” (icassp2016のpaper)

3

Page 4: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

紹介する論文の概要

タスクは3つの論文で異なる

– [Sahraeian et al.] … 多言語音声認識における言語適応

– [Zhao et al.] … 単言語音声認識における話者適応

– [Samarakoon et al.] … 〃

DNN (Deep Neural Network) の利用 [全論文]

– DNNのモデルパラメータを減らして,適応を頑健にしたい(少ないデータでも動作させたい)

DNNの低ランク適応

– Sequential low-rank adaptation [Sahraeian et al.]

– Low-rank plus diagonal adaptation [Zhao et al.]

– SVD-based vs. FHL-based [Samarakoon et al.]

4

Page 5: ICASSP2017読み会 (acoustic modeling and adaptation)

従来法:SVD-based low-rank adaptation

5

Page 6: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

音声認識のためのDNN

6

音声認識のためのDNN

– 音声特徴量を入力として,テキストラベルにクラスタリング

Forward処理を式で書くと…

音声

特徴量

テキスト

特徴量

“a”

“i”

“z” 𝒉𝑙 𝒉𝑙−1

𝒉𝑙 = 𝑓𝑙 𝑾𝑙𝒉𝑙−1 + 𝒃𝑙

重み行列 バイアス

(非線形) アクティベーション

*以降では

バイアスを省略

・・・ ・・・

Page 7: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

部分的なモデルパラメータ更新に基づく

DNN適応

不特定話者用のDNNをベースにして,各話者のデータに適応するようにモデルパラメータを部分的に更新

7

・・・ ・・・ 不特定多数の

話者の声を認識

・・・ ・・・

𝑾𝑙

・・・ ・・・ ・・・ ・・・

𝑾𝑙(1)

𝑾𝑙(2)

𝑾𝑙(3)

各話者のデータを

使って更新

個人の声に

特化した認識

Page 8: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

SVDに基づく,重み行列の低ランク近似

特異値分解 (SVD)による,行列の低ランク近似

– N=512, n=64とすれば,パラメータ数を25%に減らせる

Wを更新したい場合,低ランク化された空間で更新

8

𝑾 ~ 𝑼𝑽 * 特異値の行列は,

Vに含まれるものとする

𝑁

𝑛

* 簡単化のため,

Wは正方行列とする

𝑾′ ~ 𝑼𝑫𝑽

更新すべきパラメータ数は 𝑛2

(SVDなしでは 𝑁2)

Page 9: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

SVDを利用した低ランク適応

9

・・・ ・・・ 不特定多数の

話者の声を認識

𝑾𝑙

𝑽𝑙 𝑫𝑙 𝑼𝑙

近似

より少量のパラメータで適応

→ 少量データだけで適応可能

・・・ ・・・ ・・・ ・・・ ・・・ ・・・

𝑫𝑙(1)

𝑫𝑙(2)

𝑫𝑙(3)

* 低ランク化と適応の順番は

論文によってまちまち

Page 10: ICASSP2017読み会 (acoustic modeling and adaptation)

Sahraeian et al.,

“Exploiting sequential low-rank factorization for multilingual DNNs”

10

Page 11: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

複数レイヤーの低ランク化

複数レイヤーを低ランク化して,モデルパラメータを削減したい

ただし,複数レイヤーを一度に低ランク化すると,誤差が爆発

– 1レイヤーだけなら誤差は小さいが,複数レイヤーを一度に処理すると,適応時に局所最小点にはまる(と著者は主張している)

– → Sequential low-rank adaptation を提案

11

・・・

Page 12: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

Sequential low-rank adaptation

低ランク化・適応をLayer-wiseに行う

Tips & 実験結果

– 各層の適応毎に適応データを分割することで,計算時間の増加を防ぐ

– 一度に低ランク化するより,適応が早く収束

– 一度に低ランク化する方法と比べて,相対認識率が数%向上

12

・・・

・・・

・・・

最終層だけを

低ランク化&適応

1つ前の層を

低ランク化&適応

Page 13: ICASSP2017読み会 (acoustic modeling and adaptation)

Zhao et al.,

“Extended low-rank plus diagonal adaptation for deep and

recurrent neural networks”

13

Page 14: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

適応行列の特徴に着目

SVDなしの話者適応時の適応行列が,ほぼ単位行列になる

– = 適応の効果が薄い

このままSVDしても,低ランク構造にしにくいが…

14

[Zhao et al.]

・・・ ・・・

𝑾𝑙(1)

高い次数でも特異値が大きいため,

低ランク近似したときの誤差が大きい

ただし,単位行列を引いて対角成分を

減らすと,低ランク近似しやすい!

Page 15: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

Low-rank plus diagonal adaptation

行列から対角行列 (単位行列で初期化) を引いたものを低ランク化

– 対角行列は,skip-connectionとして実現

15

𝑾 ~ 𝑨diag + 𝑼𝑽

𝑾 ~ 𝑨diag + 𝑼𝑫𝑽

ICASSP2016からの変更

𝑼 𝑽

𝑨diag

𝑨diag

𝑼 𝑽 𝑫

Page 16: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

Tipsや実験結果など

適応時の使用メモリ量や計算時間を減らしたい

– クラウドでの認識とクライアントでの認識があるが,今回は後者.

– 計算資源の限定された環境で適応したい

Bottleneck特徴量を利用した適応

– 話者依存レイヤー前後でモデルを分割

実験結果

– モデルサイズを82% (DNN) / 96% (LSTM) 削減

– 適応処理を 3.5倍 高速化

16

・・・ ・・・

一括読み込みで適応

Forward

Backward

モデル分割で適応

・・・

Forward

Backward

・・・

Forward

適応層より前は

Backpropagation不要

Page 17: ICASSP2017読み会 (acoustic modeling and adaptation)

Samarakoon et al.,

“An investigation into learning effective speaker subspaces

for robust unsupervised DNN adaptation”

17

Page 18: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

SVD以外の低ランク適応法

これまでは,SVDに基づく適応法を紹介した

– これ以外に,Factorized Hidden Layer (FHL) 適応法がある.

– どっちの方が性能がいい?

式の違いは…

– SVD-based … 話者Sの行列𝑾(𝑠)を,低ランク化した空間で制御

– FHL-based … 𝑾(𝑠)を,話者非依存の行列𝑾(SI)からの変化分で表現

18

𝑾(𝑠)~ 𝑼𝑫(𝑠)𝑽

𝑾(𝑠)~𝑾(SI) + 𝜞𝑫(𝑠)𝜱

𝑼 𝑽 𝑫(𝑠)

𝑼 𝑽 𝑫(𝑠)

Page 19: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

SVD-based と FHL-based の大きな違い (FHL-basedはbiasも適応するが省略)

𝑾(𝑠)は言語情報と話者情報の両方を有する

– これらの情報を分離するかしないかの違い

SVD-based … 分離しない

– 目的の話者の言語・話者情報を, 𝑫(𝑠)で表現しようとする

FHL-based … 分離する

– 話者適応によって,話者情報だけを更新する

– 𝑫(𝑠)は,話者表現ベクトル (i-vectorなど) で初期化される

19

𝑾(𝑠)~𝑾(SI) + 𝜞𝑫(𝑠)𝜱

話者依存項 言語依存項

Page 20: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

Tipsと実験結果 (しっかり読んでません…ごめんなさい)

FHL-basedにおける𝑫(𝑠)の条件

– 対角行列 (diag) … モデルサイズ 小,表現能力 小

– Full-rank行列 (full) … モデルサイズ 大,表現能力 大

実験結果

– 適応データ量が比較的多い(数十分程度)条件

– 誤認識率は,FHL (diag) > SVD > FHL (full)

20

𝑾(𝑠)~𝑾(SI) + 𝜞𝑫(𝑠)𝜱

Page 21: ICASSP2017読み会 (acoustic modeling and adaptation)

まとめ

21

Page 22: ICASSP2017読み会 (acoustic modeling and adaptation)

/22

まとめ

3つのDNN低ランク適応法を紹介

Sequential low-rank adaptation

– 複数レイヤーを順番に低ランク化

Low-rank plus diagonal adaptation

– 対角成分を引いて,それ以外の要素を低ランク化

FHL (Factorized Hidden Layer)-based adaptation

– 言語情報と話者情報の分離

22