icassp2017読み会 (acoustic modeling and adaptation)

SP-L8

Acoustic modeling and adaptation

東京大学情報理工学系研究科特任助教

高道慎之介

ICASSP読み会（関東編）

/22

本セッションのキーワード

2

Acoustic model (音響モデル)

– 音声音響特徴量と何かを対応付ける統計モデル

– 例：speech-to-text (音声認識)

• 多人数・多言語の speech/text データから学習される

Adaptation (適応)

– 少量のデータのみから，学習済みの音響モデルを適応させること

– 例：話者適応

–

音響モデルテキスト特徴量音声特徴量

音響モデル不特定多数の

話者の声を認識

音響モデル Aさんの声に

特化した認識 Aさんの声を

少量だけ準備

/22

論文一覧 (リンクは著者がアップロードした原稿．を紹介)

Zhang et al. (Cambridge), “Joint optimisation of tandem systems using Gaussian

mixture density neural network discriminative sequence training” (paper)

Gupta et al. (CMU), “Visual features for context-aware speech recognition” (video)

Sahraeian et al. (KU Leuven), “Exploiting sequential low-rank factorization for

multilingual DNNs” (paper)

Jyothi et al. (Indian Institute of Technology Bombay), “Low-resource grapheme-to-

phoneme conversion using recurrent neural networks” (paper)

Samarakoon et al. (National University of Singapore), “An investigation into learning

effective speaker subspaces for robust unsupervised DNN adaptation” (ググれば一応出てくる)

Zhao et al. (Microsoft), “Extended low-rank plus diagonal adaptation for deep and

recurrent neural networks,” (icassp2016のpaper)

3

http://mi.eng.cam.ac.uk/~cz277/doc/Conference-ICASSP2017-MDNN.pdf

https://www.clsp.jhu.edu/events/florian-metze-carnegie-mellon-university/.WUp4C2jyh3g

https://lirias.kuleuven.be/bitstream/123456789/565173/2/4153_final.pdf

https://www.cse.iitb.ac.in/~pjyothi/files/ICASSP2017.pdf

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/06/ICASSP2016_LRPD-1.pdf



/22

紹介する論文の概要

タスクは3つの論文で異なる

– [Sahraeian et al.] … 多言語音声認識における言語適応

– [Zhao et al.] … 単言語音声認識における話者適応

– [Samarakoon et al.] … 〃

DNN (Deep Neural Network) の利用 [全論文]

– DNNのモデルパラメータを減らして，適応を頑健にしたい（少ないデータでも動作させたい）

DNNの低ランク適応

– Sequential low-rank adaptation [Sahraeian et al.]

– Low-rank plus diagonal adaptation [Zhao et al.]

– SVD-based vs. FHL-based [Samarakoon et al.]

4

従来法：SVD-based low-rank adaptation

5

/22

音声認識のためのDNN

6

音声認識のためのDNN

– 音声特徴量を入力として，テキストラベルにクラスタリング

Forward処理を式で書くと…

音声

特徴量

テキスト

特徴量

“a”

“i”

“z” 𝒉𝑙 𝒉𝑙−1

𝒉𝑙 = 𝑓𝑙 𝑾𝑙𝒉𝑙−1 + 𝒃𝑙

重み行列バイアス

(非線形) アクティベーション

*以降では

バイアスを省略

・・・・・・

/22

部分的なモデルパラメータ更新に基づく

DNN適応

不特定話者用のDNNをベースにして，各話者のデータに適応するようにモデルパラメータを部分的に更新

7

・・・・・・不特定多数の


・・・・・・

𝑾𝑙

・・・・・・・・・・・・

𝑾𝑙(1)

𝑾𝑙(2)

𝑾𝑙(3)

各話者のデータを

使って更新

個人の声に

特化した認識

/22

SVDに基づく，重み行列の低ランク近似

特異値分解 (SVD)による，行列の低ランク近似

– N=512, n=64とすれば，パラメータ数を25%に減らせる

Wを更新したい場合，低ランク化された空間で更新

8

𝑾 ~ 𝑼𝑽 * 特異値の行列は，

Vに含まれるものとする

𝑁

𝑛

* 簡単化のため，

Wは正方行列とする

𝑾′ ~ 𝑼𝑫𝑽

更新すべきパラメータ数は 𝑛2

(SVDなしでは 𝑁2)

/22

SVDを利用した低ランク適応

9

・・・・・・不特定多数の


𝑾𝑙

𝑽𝑙 𝑫𝑙 𝑼𝑙

近似

より少量のパラメータで適応

→ 少量データだけで適応可能

・・・・・・・・・・・・・・・・・・

𝑫𝑙(1)

𝑫𝑙(2)

𝑫𝑙(3)

* 低ランク化と適応の順番は

論文によってまちまち

Sahraeian et al.,

“Exploiting sequential low-rank factorization for multilingual DNNs”

10

/22

複数レイヤーの低ランク化

複数レイヤーを低ランク化して，モデルパラメータを削減したい

ただし，複数レイヤーを一度に低ランク化すると，誤差が爆発

– １レイヤーだけなら誤差は小さいが，複数レイヤーを一度に処理すると，適応時に局所最小点にはまる（と著者は主張している）

– → Sequential low-rank adaptation を提案

11

・・・

/22

Sequential low-rank adaptation

低ランク化・適応をLayer-wiseに行う

Tips & 実験結果

– 各層の適応毎に適応データを分割することで，計算時間の増加を防ぐ

– 一度に低ランク化するより，適応が早く収束

– 一度に低ランク化する方法と比べて，相対認識率が数％向上

12

・・・

・・・

・・・

最終層だけを

低ランク化＆適応

1つ前の層を

低ランク化＆適応

Zhao et al.,

“Extended low-rank plus diagonal adaptation for deep and

recurrent neural networks”

13

/22

適応行列の特徴に着目

SVDなしの話者適応時の適応行列が，ほぼ単位行列になる

– ＝適応の効果が薄い

このままSVDしても，低ランク構造にしにくいが…

14

[Zhao et al.]

・・・・・・

𝑾𝑙(1)

高い次数でも特異値が大きいため，

低ランク近似したときの誤差が大きい

ただし，単位行列を引いて対角成分を

減らすと，低ランク近似しやすい！

/22

Low-rank plus diagonal adaptation

行列から対角行列 (単位行列で初期化) を引いたものを低ランク化

– 対角行列は，skip-connectionとして実現

15

𝑾 ~ 𝑨diag + 𝑼𝑽

𝑾 ~ 𝑨diag + 𝑼𝑫𝑽

ICASSP2016からの変更

𝑼 𝑽

𝑨diag

𝑨diag

𝑼 𝑽 𝑫

/22

Tipsや実験結果など

適応時の使用メモリ量や計算時間を減らしたい

– クラウドでの認識とクライアントでの認識があるが，今回は後者．

– 計算資源の限定された環境で適応したい

Bottleneck特徴量を利用した適応

– 話者依存レイヤー前後でモデルを分割

実験結果

– モデルサイズを82% (DNN) / 96% (LSTM) 削減

– 適応処理を 3.5倍高速化

16

・・・・・・

一括読み込みで適応

Forward

Backward

モデル分割で適応

・・・

Forward

Backward

・・・

Forward

適応層より前は

Backpropagation不要

Samarakoon et al.,

“An investigation into learning effective speaker subspaces

for robust unsupervised DNN adaptation”

17

/22

SVD以外の低ランク適応法

これまでは，SVDに基づく適応法を紹介した

– これ以外に，Factorized Hidden Layer (FHL) 適応法がある．

– どっちの方が性能がいい？

式の違いは…

– SVD-based … 話者Sの行列𝑾(𝑠)を，低ランク化した空間で制御

– FHL-based … 𝑾(𝑠)を，話者非依存の行列𝑾(SI)からの変化分で表現

18

𝑾(𝑠)~ 𝑼𝑫(𝑠)𝑽

𝑾(𝑠)~𝑾(SI) + 𝜞𝑫(𝑠)𝜱

𝑼 𝑽 𝑫(𝑠)

𝑼 𝑽 𝑫(𝑠)

/22

SVD-based と FHL-based の大きな違い (FHL-basedはbiasも適応するが省略)

𝑾(𝑠)は言語情報と話者情報の両方を有する

– これらの情報を分離するかしないかの違い

SVD-based … 分離しない

– 目的の話者の言語・話者情報を， 𝑫(𝑠)で表現しようとする

FHL-based … 分離する

– 話者適応によって，話者情報だけを更新する

– 𝑫(𝑠)は，話者表現ベクトル (i-vectorなど) で初期化される

19


話者依存項言語依存項

/22

Tipsと実験結果 (しっかり読んでません…ごめんなさい)

FHL-basedにおける𝑫(𝑠)の条件

– 対角行列 (diag) … モデルサイズ小，表現能力小

– Full-rank行列 (full) … モデルサイズ大，表現能力大

実験結果

– 適応データ量が比較的多い（数十分程度）条件

– 誤認識率は，FHL (diag) > SVD > FHL (full)

20


まとめ

21

/22

まとめ

３つのDNN低ランク適応法を紹介

Sequential low-rank adaptation

– 複数レイヤーを順番に低ランク化

Low-rank plus diagonal adaptation

– 対角成分を引いて，それ以外の要素を低ランク化

FHL (Factorized Hidden Layer)-based adaptation

– 言語情報と話者情報の分離

22

icassp2017読み会 (acoustic modeling and adaptation)

Science