div g ¦z è - 東京大学mine/paper/pdf/2009/mine-lab-po… · 分析プログラム開...

分析プログラム開発・データ解析

サーバークライアント方式の自律学習支援システム

豪話者の日本語教育システム

豪・グリフィス大学で稼働中の発音評価システム

-- ------- ----- - - ---- ------- ----- - - --

040404070707 06060603030305 050501010102020209 090910 1010 080808171717131313111111141414 121212 15 1515 18181816 1616

Acc

um

ula

ted D

isto

rtio

n

1

2

Wu Min Keija Yue

♪まずは理論の構築から♪

中国語方言に基づく話者の自動分類色々な方言の話者

...

構造的音響量

年齢・性別とは無関係に，方言差のみによる話者分類

♪音声を認知する基礎技術♪

♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪

音，それは単なる O2, N2, CO2 等の震動現象でしかない．この震動現象の中に，我々は様々な情報を埋め込み，伝搬し，そして抽出する．そう，音声，そして音楽のことである．サルとヒト「視覚の世界は両者で共通しているが，聴覚の世界は全く異なる」と言われている．何が違うのだろうか？ヒトは空気の震動に対する情報処理として，何を獲得し，音声言語を，音楽を所有するに至ったのだろうか？この謎解きをしながら，新しい技術を世界に発信している．

変形しても不変な情報・構造が潜んでいる・・直接見える・聞こえるモノではない，その裏側に潜んでいる構造を暴き出せ！

(x, y)

(u, v)

x

y

u

vA

B

p1(x, y)

p2(x, y)

P1(u, v)

P2(u, v)

fdivfdiv

変形・・それは空間写像写像不変・・それはトポロジー（位相幾何学）

変形不変な f-divergence に基づく構造表象を通して様々なメディア情報処理を捉え直す．

サルからヒトへの変化を計算機上に実装すると計算機はどう変化する？

?

A scale in LilyPond

!" "" "" " #" " #$% &

"" '" "#

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond

!! !" ! #$ $ %! ! !& !$ ! !! !

Music engraving by LilyPond 2.10.20—www.lilypond.org

様々な変形を被っても，我々は容易に同一性を認知できる．（知覚の恒常性）サルは視覚刺激には強いが，聴覚刺激の変形には弱い．

空間写像に基づく手運動からの音声生成発話障害者支援技術

音声空間

b (b 1, b 2, b 3, … b n)

ジェスチャー空間

a (a 1, a 2, a 3, … a n)

舌の音色空間を手の動き空間に貼付ける

ぬ，ぬぁんと，口ではなく手でしゃべることができるようになる

音声の話者性の違いに表れる幾何学的特性の分析

音声の話者性の違いの大きな要因として声道長（喉の長さ）の違いがある．

この話者性の違いの特徴量空間における影響を数学的・幾何学的な観点から分析することで、新たな音声の情報表現を構築している．

RtR = RRt = Idet R = +1R2(θ)=

(cos θ − sin θsin θ cos θ

)

R′n(Θ)=

R2(θ1) · · · 0

.... . .

...0 · · · R2(θm)

-150-100

-50 0

50 100 150

0 50 100 150 200 250 300 350

Rotat

ion A

ngle

[deg]

Estimated Body Height [cm]

original height

eqn. 8

構築した理論を通して、実際の音声の分析結果と照らし合わせる．声道長の違いを表す行列を線形代数を通して分析する．すると多次元空間における回転という性質が見えてくる．

最適なセグメンテーション

ボトムアップクラスタリングによる音声の自動セグメンテーション

音声の構造表象に基づく音声認識話者が違えば，たとえ同じ言葉を話したとしても，音声の物理的実体は異なる．話者の体調，収録機器の音響特性，伝送路などによっても音声の物理的実体は歪む．

現在主流の音声の実体を直接的に比較する音声認識手法は，音声の歪み・変形に弱い．変形に不変な音声の構造的表象を用いることで音声の歪みに非常に頑健な音声認識が可能．即ち，声の変形に超強い情報処理を実装．音の変形に強いのがヒト，弱いのがサル

c1

c3c2

c1

c3c2c4

cD

c4

cD

3. Cepstrum distribution sequence (HMM)

5. Structure (distance matrix)

1. Speech waveforms

2. Cepstrum vector sequence

4. Bhattacharyya distances

00

00

0

s = (s , s , ... )1 2structure vector

f-div 距離

確率的セグメンテーションモデル

x1 … xe1

r1

xs2 … xe2

r2

… xsk … xek

rk

s1 s2 sk

Sequence X

Source R

x2

236cm73cm

「お？君の声，今日はなんだか　　　　すんごい，回転してる　　　　　　ね～～」

0

20

40

60

80

100

単語認識精度

従来手法

提案手法

長　←　発声者の身長　→　短

英語発音クリニック

MtFボイストレーニングの技術的支援

完全なる変換不変量・それは f-divergence

シャドーイング音声（非常に崩れた音声）

学習者のTOEICスコアもズバリ予測！

シャドーイング音声の自動採点

音節の数を数え上げる（音節法）or

単語の数を数え上げる（Check-point法，全単語法）

長時間労働手動評価

凡そ音素に相当する大きさで音声を自動で分ける

or音響モデルと比較して発音

スコアを計算

自動評価PC上の分析

手動評価　≒　自動評価

誰の発音と比較したい？まずは先生を選ぼう！

フムフム，君はXXな癖があるな．

■お待ちかね。「あなた」の分析結果を見てみよう！分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。

♪♪チェックポイントはここ！！さあ，自分の発音を “自分で”チェックしてみよう！！♪♪• æと E　この二つはいっつも仲良しです。あなたの発音はどうなってますか？• Iと i　これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。• Iと，Eやæ　その結果，Iは Eやæに似くるはずですが，あなたの発音ではどうなってます？• Aと O　アメリカ英語では，これらが似ている方言もあります。母音図で Oが下がってきます。• @と，2や Aやæ　後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。• @とÄ　この二つが仲良し，という人もいるかもしれませんね～。どうです？あなたの場合。• Ä　実は rと殆ど同じです。母音として使われるのか，子音として使われるのか，の違いだけ。

■さてさて，どこから直していこうか。よ～く，考えてみよう！あなたの分析結果を，あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示します。目標とする発音に到達するための最短コース，という訳です。スコアの高い母音（より左に示されている母音）ほど「重傷」で，緊急入院が必要な母音です。20程度であれば，ほおっておいて大丈夫ですよ。さてさて，どんな結果が出てますか？ゴールまでの道のりは長いですか？短いですか？

どちらの先生に近づきたいかによって，結果が少し異なるでしょう。英語は方言によって母音の音質・音色が変わりますから，先生が，どの地方の出身なのかによって直すべき母音が変わってきます。もちろん先生の発音は両親（異なる方言話者かもしれない）の発音の影響を強く受けています。結局，厳密には，み～んな一人一人違う発音になっています。大切なのは，相手の心に届く「あなた自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

ここから直すのが最短コースだ！

教師教師一週間の発音矯正の効果は如何に？

一週間後

49M

62M

49F

45F

77F

22F

84M

22F

32F

23F

16M

66M

64F

22M

65M

38M

25M

61M

44M

16M

16M

27F

26M

26M

62M

76M

23M

38F

22M

26M

32M

22M

49F

36F

43M

36M

36F

26M

28M

30M

28M

60M

57F

57F

48M

38M

58M

24F

25F

24M

25M

42F

28M

51M

31F

24M

48F

45M

14F

68F

27F

08F

39M

69M

11M

35F

51F

54F

15M

46F

36M

42F

32M

44M

09F

33F

56M

38M

50M

25M

21M

23M

16F

17F

23M

46M

39F

52M

30M

50M

50F

47M

29F

32M

48M

16F

17F

38M

18M

24M

39M

34F

32M

28M

20M

50F

15F

10F

45M

21M

51F

23F

24M

23M

71M

63F

21M

21F

25F

27M

17F

17M

16M

17M

17M

45M

70M

51M

17M

17M

17M

17M

44M

31M

06M

56M

56F

23M

52M

19M

61M

43M

41F

29M

19F

19F

26M

42M

41F

28M

30M

50F

23M

23M

16M

57M

25M

25M

28F

58F

24F

30M

22M

24M

20M

24M

26M

24M

24F

27F

24M

49F

24F

38M

25M

54M

16F

17F

16F

16F

26M

55F

67M

30F

35F

57M

16M

17M

16M

17M

17M

17M

16M

16M

23M21F

25M

57F

57M

21F

49F

25F

37F

72M

40F

40F

80M

70M

21M

21M

22M

23M

31M

24M

22M

24M

65M

25M

25M

24M

27M

26F

26F

41F

20M

32M

27F

42M

35F

34M

08F

30F

11F

06M

43F

44M

50F

52M

44M

63M

58F

59F

68M

21M

26M

47F

21M

33F

25M

36M

47M

43F

66M

25M

24M

54F

21M

53M

20M

21M

21M

21M

21M

43F

51F

28F

35M

25M

66F

73M

29M

10F

38M

40M

21M

11F

12F

12F

44F

51M

39M

11F

14M

47M

07M

22M

11M

10M

09M

07M

28F

36M

27F

09M

37F

35M

17F

35F

35M

38M

33F

07F

36M

09F

12M

04F

35F

30F

24M

67F

24M

23M

30F

60F

60M

10M

09M

52M

21M

23M

22F

38F

44M

08M

10F

23M

36M

24M

39F

24F

24F

48F

52M

28M

45F

45M

32F

56F

61M

32M

38F

20F

22M

11F

43M

46F

12M

22M

21F

42F

12F

56M

25M

25M

59F

70M

64M

64F

67M

74M

31F

74M

60F

31F

24M

49F

73M

65F

42F

23M

17F

17F

17F

16F

17F

72M

71F

73M

75F

62M

70M

48M

23F

30M

61F

84M

16F

17F

29M

60F

23M

38F

70F

55F

36F

58F

24F

68M

29M

29M

22M

26F

24M

25M

22F

25F

35M

52F

22M

24M

25M

40M

35F

28F

10M

06M

45M

38F

71F

09F

33F

30F

05F

07M

11M

40M

16M

12M

51M

08M

42M

11M

24M

67M

68M

65M

64M

64M

69M

23M

38M

13M

13M

40F

14M

09F

10F

22M

22M

60M

56F

55M

47F

21M

22M

34F

10F

07M

57M

14F

21F

36M

19M

35F

06M

06F

53M

33F

47F

66M

63F

24F

25M

17M

31M

52F

14F

30F

29M

58F

28M

33F

32M

54F

62F

11F

18F

24M

36F

56M

46M

22M

38F

08F

22F

21M

54M

45M

41F

14F

06M

39F

09M

11M

44F

26F

44M

41F

16M

43M

24F

24F

63M

47M

05F

31F

33F

23M

24M

37M

34F

05F

36F

39M

53M

50F

24F

17M

24F

14M

13M

45F

12M

23F

27M

45F

21M

24M

47M

07F

25M

48M

14M

44F

44M

41F

22F

21M

46F

48M

33F

33M

27M

53F

11F

49F

53M

13M

14M

29F

21F

40F

10F

42F

476

145

537

422

317

073

184

394

067

051

309

088

364

036

004

125

401

553

329

390

166

434

180

484

149

562

223

183

057

557

464

486

094

091

455

539

042

093

228

488

481

475

559

368

117

519

081

026

498

007

467

500

062

083

197

490

393

536

307

165

515

379

052

556

319

092

469

550

264

517

441

038

105

459

331

524

283

101

179

190

292

178

206

384

354

491

020

507

089

104

237

174

558

226

318

041

446

440

087

230

298

034

528

449

102

188

356

258

176

462

186

013

480

256

413

460

235

185

451

560

147

175

225

327

325

220

404

454

313

443

112

311

285

456

096

079

116

275

334

080

240

479

453

128

084

115

086

123

518

497

333

540

100

561

071

140

068

164

531

261

015

525

134

544

514

085

130

078

168

167

182

503

064

472

017

132

200

009

196

156

234

533

495

294

049

324

312

420

030

273

155

122

373

276

513

511

243

399

416

535

002

305

564

520

326

151

008

247

129

194

106

474

218

076

381

146

161

308

328

542

269

315

019

142

300

281

239

336

056

158

219

229

439

343

534

349

505

111

272

127

438

153

452

496

545

046

010

163

499

304

429

299

144

216

538

148

351

131

095

187

066

314

437

414

138

382

522

110

423

376

271

217

386

397

403

489

385

555

552

448

532

527

371

137

274

353

143

063

268

551

241

458

358

427

195

478

530

012

363

032

359

372

378

322

267

392

303

493

502

279

124

266

365

260

370

417

426

025

339

341

024

109

442

410

350

463

321

108

193

316

282

465

050

074

521

288

082

406

444

023

054

504

029

408

072

293

501

543

432

133

323

152

090

512

357

204

263

070

251

157

295

249

412

398

253

421

375

407

061

278

021

297

419

425

286

352

547

055

150

139

395

236

445

003

181

457

428

529

028

516

011

257

214

018

201

044

208

246

494

006

470

238

287

171

369

099

310

211

377

209

103

523

320

338

374

345

265

361

306

330

040

433

136

159

033

212

262

367

177

043

296

477

466

250

192

402

222

233

198

468

436

098

411

207

430

337

506

097

415

435

342

053

224

391

380

546

396

383

447

005

347

485

119

554

022

355

366

059

526

114

245

047

077

284

563

060

302

189

487

160

118

141

172

252

270

215

016

126

069

290

232

332

121

387

035

548

221

280

027

277

335

289

014

346

259

291

255

037

510

492

227

173

549

340

405

107

450

162

203

231

065

389

213

254

045

191

113

058

202

205

431

242

301

362

541

135

031

509

473

248

409

483

039

482

210

169

344

120

348

170

154

360

471

418

075

461

048

244

508

400

199

388

424

001

Gxxgle Pronunciaton in Kashiwa Area

700名の日本人英語の発音分類／日本人英語の典型的な型の定義全人類の英語発音の分類とて，不可能ではない！

？

？

ま　ず　　は　　　中　　　　国　　　　　制　　　　　　覇　　　　　　　か　　　　　　　　ら　　　　　　　　　？

関数 g を変えると様々な距離尺度に

テキスト音声合成においてアクセント結合を適切に処理

アクセント結合処理の高精度化

条件付き確率場を用いた統計的な手法により高精度なアクセント処理が可能

あ’か+えんぴつ → あかえ’んぴつ（ ’：アクセントの位置）

複数単語が連結する際にアクセント位置が変化する・・・「アクセント結合」

より自然なテキスト読み上げ

構造表象に基づく音声合成幼児の音声模倣の実現

従来の音声合成は文字（音素）列から音声への変換．モデル化対象は学習話者の声そのもの．一方幼児は，両親の声の声帯模写はしない．幼児は両親の声からの音素抽出は困難．幼児研究によれば，単語全体の語形を抽出し，それを自らの小さな喉で再生しようとする．

話者不変の音声の構造表象に基づく音声模倣プロセスの計算機上の実装

構造+身体=音響身体性を捨てたモデル化

おはよう

おはよう

身体パラメータ→幾つかの絶対量を既知構造を空間に定位

距離関係と絶対量で得られる連立方程式を解く

複数の解を平均化

大きな喉

ちっちゃな喉

峯松研究室さぁ，はじけちまおうぜぃ！

よく学び，よく語り，よく遊び，よく飲み，よく食い，そして，よく出かける・・・

確率的線形回帰混合モデルを用いた音声変換音声変換とは，ある人の声を別の人の声に変換すること．

確率的線形回帰混合モデルとは

Source space Sx

…

Virtual spaces

(Gray level for

density p(x|k) )

S1 S2 SK

p(1|x)

Prb. Linear Regr. A1x A2x AKx

Mix. Of Prb. Linear Regression y=! p(k|x) Akx

…

Posterior Prb.

Prior Prb. p(1) p(2) p(K)

p(2|x) p(K|x)…

広瀬研の皆さんと

fdiv(p1, p2) =∮∮∮

p2(x)g(

p1(x)p2(x)

)dx

div g ¦z è - 東京大学mine/paper/pdf/2009/mine-lab-po… · 分析プログラム開...

Documents