div g ¦z è - 東京大学mine/paper/pdf/2009/mine-lab-po… · 分析プログラム開...
TRANSCRIPT
-
分析プログラム開発・データ解析
サーバークライアント方式の自律学習支援システム
豪話者の日本語教育システム
豪・グリフィス大学で稼働中の発音評価システム
-- ------- ----- - - ---- ------- ----- - - --
040404070707 06060603030305 050501010102020209 090910 1010 080808171717131313111111141414 121212 15 1515 18181816 1616
Acc
um
ula
ted D
isto
rtio
n
1
2
Wu Min Keija Yue
♪まずは理論の構築から♪
中国語方言に基づく話者の自動分類色々な方言の話者
...
構造的音響量
年齢・性別とは無関係に,方言差のみによる話者分類
♪音声を認知する基礎技術♪
♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪
音,それは単なる O2, N2, CO2 等の震動現象でしかない.この震動現象の中に,我々は様々な情報を埋め込み,伝搬し,そして抽出する.そう,音声,そして音楽のことである.サルとヒト「視覚の世界は両者で共通しているが,聴覚の世界は全く異なる」と言われている.何が違うのだろうか?ヒトは空気の震動に対する情報処理として,何を獲得し,音声言語を,音楽を所有するに至ったのだろうか?この謎解きをしながら,新しい技術を世界に発信している.
変形しても不変な情報・構造が潜んでいる・・直接見える・聞こえるモノではない,その裏側に潜んでいる構造を暴き出せ!
(x, y)
(u, v)
x
y
u
vA
B
p1(x, y)
p2(x, y)
P1(u, v)
P2(u, v)
fdivfdiv
変形・・それは空間写像 写像不変・・それはトポロジー(位相幾何学)
変形不変な f-divergence に基づく構造表象を通して様々なメディア情報処理を捉え直す.
サルからヒトへの変化を計算機上に実装すると計算機はどう変化する?
?
A scale in LilyPond
!" "" "" " #" " #$% &
"" '" "#
Music engraving by LilyPond 2.10.20—www.lilypond.org
A scale in LilyPond
!! !" ! #$ $ %! ! !& !$ ! !! !
Music engraving by LilyPond 2.10.20—www.lilypond.org
様々な変形を被っても,我々は容易に同一性を認知できる.(知覚の恒常性)サルは視覚刺激には強いが,聴覚刺激の変形には弱い.
空間写像に基づく手運動からの音声生成発話障害者支援技術
音声空間
b (b 1, b 2, b 3, … b n)
ジェスチャー空間
a (a 1, a 2, a 3, … a n)
舌の音色空間を手の動き空間に貼付ける
ぬ,ぬぁんと,口ではなく手でしゃべることができるようになる
音声の話者性の違いに表れる幾何学的特性の分析
音声の話者性の違いの大きな要因として声道長(喉の長さ)の違いがある.
この話者性の違いの特徴量空間における影響を数学的・幾何学的な観点から分析することで、新たな音声の情報表現を構築している.
RtR = RRt = Idet R = +1R2(θ)=
(cos θ − sin θsin θ cos θ
)
R′n(Θ)=
R2(θ1) · · · 0
.... . .
...0 · · · R2(θm)
-150-100
-50 0
50 100 150
0 50 100 150 200 250 300 350
Rotat
ion A
ngle
[deg]
Estimated Body Height [cm]
original height
eqn. 8
構築した理論を通して、実際の音声の分析結果と照らし合わせる.声道長の違いを表す行列を線形代数を通して分析する.すると多次元空間における回転という性質が見えてくる.
最適なセグメンテーション
ボトムアップクラスタリングによる音声の自動セグメンテーション
音声の構造表象に基づく音声認識話者が違えば,たとえ同じ言葉を話したとしても,音声の物理的実体は異なる.話者の体調,収録機器の音響特性,伝送路などによっても音声の物理的実体は歪む.
現在主流の音声の実体を直接的に比較する音声認識手法は,音声の歪み・変形に弱い.変形に不変な音声の構造的表象を用いることで音声の歪みに非常に頑健な音声認識が可能.即ち,声の変形に超強い情報処理を実装.音の変形に強いのがヒト,弱いのがサル
c1
c3c2
c1
c3c2c4
cD
c4
cD
3. Cepstrum distribution sequence (HMM)
5. Structure (distance matrix)
1. Speech waveforms
2. Cepstrum vector sequence
4. Bhattacharyya distances
00
00
0
s = (s , s , ... )1 2structure vector
f-div 距離
確率的セグメンテーションモデル
x1 … xe1
r1
xs2 … xe2
r2
… xsk … xek
rk
s1 s2 sk
Sequence X
Source R
x2
236cm73cm
「お?君の声,今日はなんだか すんごい,回転してる ね~~」
0
20
40
60
80
100
単語認識精度
従来手法
提案手法
長 ← 発声者の身長 → 短
英語発音クリニック
MtFボイストレーニングの技術的支援
完全なる変換不変量・それは f-divergence
シャドーイング音声(非常に崩れた音声)
学習者のTOEICスコアもズバリ予測!
シャドーイング音声の自動採点
音節の数を数え上げる(音節法)or
単語の数を数え上げる(Check-point法,全単語法)
長時間労働手動評価
凡そ音素に相当する大きさで音声を自動で分ける
or音響モデルと比較して発音
スコアを計算
自動評価PC上の分析
手動評価 ≒ 自動評価
誰の発音と比較したい?まずは先生を選ぼう!
フムフム,君はXXな癖があるな.
■お待ちかね。「あなた」の分析結果を見てみよう!分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。
♪♪チェックポイントはここ!!さあ,自分の発音を “自分で”チェックしてみよう!!♪♪• æと E この二つはいっつも仲良しです。あなたの発音はどうなってますか?• Iと i これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。• Iと,Eやæ その結果,Iは Eやæに似くるはずですが,あなたの発音ではどうなってます?• Aと O アメリカ英語では,これらが似ている方言もあります。母音図で Oが下がってきます。• @と,2や Aやæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。• @とÄ この二つが仲良し,という人もいるかもしれませんね~。どうです?あなたの場合。• Ä 実は rと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。
■さてさて,どこから直していこうか。よ~く,考えてみよう!あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示します。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか?
どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきます。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。結局,厳密には,み~んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。
ここから直すのが最短コースだ!
教師 教師一週間の発音矯正の効果は如何に?
一週間後
49M
62M
49F
45F
77F
22F
84M
22F
32F
23F
16M
66M
64F
22M
65M
38M
25M
61M
44M
16M
16M
27F
26M
26M
62M
76M
23M
38F
22M
26M
32M
22M
49F
36F
43M
36M
36F
26M
28M
30M
28M
60M
57F
57F
48M
38M
58M
24F
25F
24M
25M
42F
28M
51M
31F
24M
48F
45M
14F
68F
27F
08F
39M
69M
11M
35F
51F
54F
15M
46F
36M
42F
32M
44M
09F
33F
56M
38M
50M
25M
21M
23M
16F
17F
23M
46M
39F
52M
30M
50M
50F
47M
29F
32M
48M
16F
17F
38M
18M
24M
39M
34F
32M
28M
20M
50F
15F
10F
45M
21M
51F
23F
24M
23M
71M
63F
21M
21F
25F
27M
17F
17M
16M
17M
17M
45M
70M
51M
17M
17M
17M
17M
44M
31M
06M
56M
56F
23M
52M
19M
61M
43M
41F
29M
19F
19F
26M
42M
41F
28M
30M
50F
23M
23M
16M
57M
25M
25M
28F
58F
24F
30M
22M
24M
20M
24M
26M
24M
24F
27F
24M
49F
24F
38M
25M
54M
16F
17F
16F
16F
26M
55F
67M
30F
35F
57M
16M
17M
16M
17M
17M
17M
16M
16M
23M21F
25M
57F
57M
21F
49F
25F
37F
72M
40F
40F
80M
70M
21M
21M
22M
23M
31M
24M
22M
24M
65M
25M
25M
24M
27M
26F
26F
41F
20M
32M
27F
42M
35F
34M
08F
30F
11F
06M
43F
44M
50F
52M
44M
63M
58F
59F
68M
21M
26M
47F
21M
33F
25M
36M
47M
43F
66M
25M
24M
54F
21M
53M
20M
21M
21M
21M
21M
43F
51F
28F
35M
25M
66F
73M
29M
10F
38M
40M
21M
11F
12F
12F
44F
51M
39M
11F
14M
47M
07M
22M
11M
10M
09M
07M
28F
36M
27F
09M
37F
35M
17F
35F
35M
38M
33F
07F
36M
09F
12M
04F
35F
30F
24M
67F
24M
23M
30F
60F
60M
10M
09M
52M
21M
23M
22F
38F
44M
08M
10F
23M
36M
24M
39F
24F
24F
48F
52M
28M
45F
45M
32F
56F
61M
32M
38F
20F
22M
11F
43M
46F
12M
22M
21F
42F
12F
56M
25M
25M
59F
70M
64M
64F
67M
74M
31F
74M
60F
31F
24M
49F
73M
65F
42F
23M
17F
17F
17F
16F
17F
72M
71F
73M
75F
62M
70M
48M
23F
30M
61F
84M
16F
17F
29M
60F
23M
38F
70F
55F
36F
58F
24F
68M
29M
29M
22M
26F
24M
25M
22F
25F
35M
52F
22M
24M
25M
40M
35F
28F
10M
06M
45M
38F
71F
09F
33F
30F
05F
07M
11M
40M
16M
12M
51M
08M
42M
11M
24M
67M
68M
65M
64M
64M
69M
23M
38M
13M
13M
40F
14M
09F
10F
22M
22M
60M
56F
55M
47F
21M
22M
34F
10F
07M
57M
14F
21F
36M
19M
35F
06M
06F
53M
33F
47F
66M
63F
24F
25M
17M
31M
52F
14F
30F
29M
58F
28M
33F
32M
54F
62F
11F
18F
24M
36F
56M
46M
22M
38F
08F
22F
21M
54M
45M
41F
14F
06M
39F
09M
11M
44F
26F
44M
41F
16M
43M
24F
24F
63M
47M
05F
31F
33F
23M
24M
37M
34F
05F
36F
39M
53M
50F
24F
17M
24F
14M
13M
45F
12M
23F
27M
45F
21M
24M
47M
07F
25M
48M
14M
44F
44M
41F
22F
21M
46F
48M
33F
33M
27M
53F
11F
49F
53M
13M
14M
29F
21F
40F
10F
42F
476
145
537
422
317
073
184
394
067
051
309
088
364
036
004
125
401
553
329
390
166
434
180
484
149
562
223
183
057
557
464
486
094
091
455
539
042
093
228
488
481
475
559
368
117
519
081
026
498
007
467
500
062
083
197
490
393
536
307
165
515
379
052
556
319
092
469
550
264
517
441
038
105
459
331
524
283
101
179
190
292
178
206
384
354
491
020
507
089
104
237
174
558
226
318
041
446
440
087
230
298
034
528
449
102
188
356
258
176
462
186
013
480
256
413
460
235
185
451
560
147
175
225
327
325
220
404
454
313
443
112
311
285
456
096
079
116
275
334
080
240
479
453
128
084
115
086
123
518
497
333
540
100
561
071
140
068
164
531
261
015
525
134
544
514
085
130
078
168
167
182
503
064
472
017
132
200
009
196
156
234
533
495
294
049
324
312
420
030
273
155
122
373
276
513
511
243
399
416
535
002
305
564
520
326
151
008
247
129
194
106
474
218
076
381
146
161
308
328
542
269
315
019
142
300
281
239
336
056
158
219
229
439
343
534
349
505
111
272
127
438
153
452
496
545
046
010
163
499
304
429
299
144
216
538
148
351
131
095
187
066
314
437
414
138
382
522
110
423
376
271
217
386
397
403
489
385
555
552
448
532
527
371
137
274
353
143
063
268
551
241
458
358
427
195
478
530
012
363
032
359
372
378
322
267
392
303
493
502
279
124
266
365
260
370
417
426
025
339
341
024
109
442
410
350
463
321
108
193
316
282
465
050
074
521
288
082
406
444
023
054
504
029
408
072
293
501
543
432
133
323
152
090
512
357
204
263
070
251
157
295
249
412
398
253
421
375
407
061
278
021
297
419
425
286
352
547
055
150
139
395
236
445
003
181
457
428
529
028
516
011
257
214
018
201
044
208
246
494
006
470
238
287
171
369
099
310
211
377
209
103
523
320
338
374
345
265
361
306
330
040
433
136
159
033
212
262
367
177
043
296
477
466
250
192
402
222
233
198
468
436
098
411
207
430
337
506
097
415
435
342
053
224
391
380
546
396
383
447
005
347
485
119
554
022
355
366
059
526
114
245
047
077
284
563
060
302
189
487
160
118
141
172
252
270
215
016
126
069
290
232
332
121
387
035
548
221
280
027
277
335
289
014
346
259
291
255
037
510
492
227
173
549
340
405
107
450
162
203
231
065
389
213
254
045
191
113
058
202
205
431
242
301
362
541
135
031
509
473
248
409
483
039
482
210
169
344
120
348
170
154
360
471
418
075
461
048
244
508
400
199
388
424
001
Gxxgle Pronunciaton in Kashiwa Area
700名の日本人英語の発音分類/日本人英語の典型的な型の定義全人類の英語発音の分類とて,不可能ではない!
?
?
ま ず は 中 国 制 覇 か ら ?
関数 g を変えると様々な距離尺度に
テキスト音声合成においてアクセント結合を適切に処理
アクセント結合処理の高精度化
条件付き確率場を用いた統計的な手法により高精度なアクセント処理が可能
あ’か+えんぴつ → あかえ’んぴつ( ’:アクセントの位置)
複数単語が連結する際にアクセント位置が変化する・・・「アクセント結合」
より自然なテキスト読み上げ
構造表象に基づく音声合成幼児の音声模倣の実現
従来の音声合成は文字(音素)列から音声への変換.モデル化対象は学習話者の声そのもの.一方幼児は,両親の声の声帯模写はしない.幼児は両親の声からの音素抽出は困難.幼児研究によれば,単語全体の語形を抽出し,それを自らの小さな喉で再生しようとする.
話者不変の音声の構造表象に基づく音声模倣プロセスの計算機上の実装
構造+身体=音響身体性を捨てたモデル化
おはよう
おはよう
身体パラメータ→幾つかの絶対量を既知構造を空間に定位
距離関係と絶対量で得られる連立方程式を解く
複数の解を平均化
大きな喉
ちっちゃな喉
峯松研究室さぁ,はじけちまおうぜぃ!
よく学び,よく語り,よく遊び,よく飲み,よく食い,そして,よく出かける・・・
確率的線形回帰混合モデルを用いた音声変換音声変換とは,ある人の声を別の人の声に変換すること.
確率的線形回帰混合モデルとは
Source space Sx
…
Virtual spaces
(Gray level for
density p(x|k) )
S1 S2 SK
p(1|x)
Prb. Linear Regr. A1x A2x AKx
Mix. Of Prb. Linear Regression y=! p(k|x) Akx
…
Posterior Prb.
Prior Prb. p(1) p(2) p(K)
p(2|x) p(K|x)…
広瀬研の皆さんと
fdiv(p1, p2) =∮∮∮
p2(x)g(
p1(x)p2(x)
)dx