div g ¦z è - 東京大学mine/paper/pdf/2009/mine-lab-po… · 分析プログラム開...

1
分析プログラム開 発・データ解析 サーバークライアント方式 の自律学習支援システム 豪話者の日本語教育システム 豪・グリフィス大学で稼働 中の発音評価システム - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 04 04 04 07 07 07 06 06 06 03 03 03 05 05 05 01 01 01 02 02 02 09 09 09 10 10 10 08 08 08 17 17 17 13 13 13 11 11 11 14 14 14 12 12 12 15 15 15 18 18 18 16 16 16 Accumulated Distortion 1 2 Wu Min Keija Yue ♪まずは理論の構築から♪ 中国語方言に基づく話者の自動分類 色々な方言の話者 ... 構造的 音響量 年齢・性別とは無関係に,方言差のみによる話者分類 ♪音声を認知する基礎技術♪ ♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪ 音,それは単なる O2, N2, CO2 等の震動現象でしかない. この震動現象の中に,我々は様々な情報を埋め込み,伝搬し,そ して抽出する.そう,音声,そして音楽のことである. サルとヒト「視覚の世界は両者で共通しているが,聴覚の世界は 全く異なる」と言われている.何が違うのだろうか? ヒトは空気の震動に対する情報処理として,何を獲得し,音声言 語を,音楽を所有するに至ったのだろうか? この謎解きをしながら,新しい技術を世界に発信している. 変形しても不変な情報・構造が潜んでいる・・ 直接見える・聞こえるモノではない,その裏側に潜んでいる構造を暴き出せ! (x, y) (u, v) x y u v A B p1(x, y) p2(x, y) P1(u, v) P2(u, v) fdiv fdiv 変形・・それは空間写像 写像不変・・それはトポロジー(位相幾何学) 変形不変な f-divergence に 基づく構造表象を通して 様々なメディア情報 処理を捉え直す. サルからヒトへの変化を計算機上に実装 すると計算機はどう変化する? ? 様々な変形を被って も,我々は容易に同 一性を認知できる. (知覚の恒常性) サルは視覚刺激には 強いが,聴覚刺激の 変形には弱い. 空間写像に基づく手運動からの音声生成 発話障害者支援技術 音声空間 b (b 1, b 2, b 3, … b n) ジェスチャー空間 a (a 1, a 2, a 3, … a n) 舌の音色空間を手の動き空間に貼付ける ぬ,ぬぁんと, ではなくでしゃべることができるようになる 音声の話者性の違いに表れる 幾何学的特性の分析 音声の話者性の違いの大きな要因として声道長 (喉の長さ)の違いがある. この話者性の違いの特徴量空間における影響を数 学的・幾何学的な観点から分析することで、新た な音声の情報表現を構築している. R t R = RR t = I det R = +1 R2(θ)= cos θ - sin θ sin θ cos θ R n(Θ)= R2(θ1) ··· 0 . . . . . . . . . 0 ··· R2(θm) -150 -100 -50 0 50 100 150 0 50 100 150 200 250 300 350 Rotation Angle [deg] Estimated Body Height [cm] original height eqn. 8 構築した理論を通して、実際の音声の分析結果と照らし合わせる. 声道長の違いを表す行列を線形代数を通して分析する.すると多 次元空間における回転という性質が見えてくる. 最適なセグメンテーション ボトムアップクラスタリングによる 音声の自動セグメンテーション 音声の構造表象に基づく音声認識 話者が違えば,たとえ同じ言葉を話したとして も,音声の物理的実体は異なる話者の体調,収録機器の音響特性,伝送路など によっても音声の物理的実体は歪む現在主流の音声の実体を直接的に比較する音声 認識手法は,音声の歪み・変形に弱い変形に不変な音声の構造的表象を用いることで 音声の歪みに非常に頑健な音声認識が可能. 即ち,声の変形に超強い情報処理を実装. 音の変形に強いのがヒト,弱いのがサル c1 c3 c2 c1 c3 c2 c4 cD c4 cD 3. Cepstrum distribution sequence (HMM) 5. Structure (distance matrix) 1. Speech waveforms 2. Cepstrum vector sequence 4. Bhattacharyya distances 0 0 0 0 0 s = (s , s , ... ) 1 2 structure vector f-div 距離 確率的セグメンテーションモデル x 1 x e1 r 1 x s2 x e2 r 2 x sk x ek r k s 1 s 2 s k Sequence X Source R x 2 236cm 73cm 「お?君の声,今日はなんだか すんごい,回転してる ね~~」 0 20 40 60 80 100 従来手法 提案手法 長 ← 発声者の身長 → 短 英語発音クリニック MtFボイストレーニングの技術的支援 完全なる変換不変量・ それは f-divergence シャドーイング音声 (非常に崩れた音声) 学習者のTOEICスコアもズバリ予測! シャドーイング音声の自動採点 音節の数を数え上げる (音節法) or 単語の数を数え上げる (Check-point法,全単語法) 長時間労働 手動評価 凡そ音素に相当する大きさで 音声を自動で分ける or 音響モデルと比較して発音 スコアを計算 自動評価 PC上の分析 手動評価 ≒ 自動評価 誰の発音と比較したい? まずは先生を選ぼう! フムフム,君はXXな癖があるな. ここから直すのが最短コースだ! 教師 教師 一週間の発音矯正 の効果は如何に? 一週間後 Gxxgle Pronunciaton in Kashiwa Area 700名の日本人英語の発音分類/日本人英語の典型的な型の定義 全人類の英語発音の分類とて,不可能ではない! 関数 g を変えると 様々な距離尺度に テキスト音声合成においてアクセント結合を適 切に処理 アクセント結合処理の高精度化 条件付き確率場を用いた統計的な手法により高 精度なアクセント処理が可能 あ’か+えんぴつ → あかえ’んぴつ ( ’:アクセントの位置) 複数単語が連結する際にアクセント位置が変化 する・・・「アクセント結合より自然なテキスト読み上げ 構造表象に基づく音声合成 幼児の音声模倣の実現 従来の音声合成は文字(音素)列から音声への 変換.モデル化対象は学習話者の声そのもの. 一方幼児は,両親の声の声帯模写はしない. 幼児は両親の声からの音素抽出は困難.幼児研 究によれば,単語全体の語形を抽出し,それを 自らの小さな喉で再生しようとする. 話者不変の音声の構造表象に基づく 音声模倣プロセスの計算機上の実装 構造+身体=音響 身体性を捨てたモデル化 おはよう おはよう 身体パラメータ→幾つかの絶対量を既知 構造を空間に定位 距離関係と絶対量で得られる連立方程式を解く 複数の解を平均化 大きな喉 ちっちゃな喉 峯松研究室 さぁ,はじけちまおうぜぃ! よく学び,よく語り,よく遊び,よく飲み,よく食い,そして,よく出かける・・・ 確率的線形回帰混合モデルを用いた音声変換 音声変換とは,ある人の声を別の人の声に変換すること. 確率的線形回帰混合モデルとは Source space S x Virtual spaces (Gray level for density p(x|k) ) S1 S2 SK p(1|x) Prb. Linear Regr. A1x A2x AKx Mix. Of Prb. Linear Regression y=! p(k|x) Akx Posterior Prb. Prior Prb. p(1) p(2) p(K) p(2|x) p(K|x) 広瀬研の皆さんと f div (p 1 ,p 2 )= p 2 (x)g p 1 (x) p 2 (x) dx

Upload: others

Post on 13-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 分析プログラム開発・データ解析

    サーバークライアント方式の自律学習支援システム

    豪話者の日本語教育システム

    豪・グリフィス大学で稼働中の発音評価システム

    -- ------- ----- - - ---- ------- ----- - - --

    040404070707 06060603030305 050501010102020209 090910 1010 080808171717131313111111141414 121212 15 1515 18181816 1616

    Acc

    um

    ula

    ted D

    isto

    rtio

    n

    1

    2

    Wu Min Keija Yue

    ♪まずは理論の構築から♪

    中国語方言に基づく話者の自動分類色々な方言の話者

    ...

    構造的音響量

    年齢・性別とは無関係に,方言差のみによる話者分類

    ♪音声を認知する基礎技術♪

    ♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪

    音,それは単なる O2, N2, CO2 等の震動現象でしかない.この震動現象の中に,我々は様々な情報を埋め込み,伝搬し,そして抽出する.そう,音声,そして音楽のことである.サルとヒト「視覚の世界は両者で共通しているが,聴覚の世界は全く異なる」と言われている.何が違うのだろうか?ヒトは空気の震動に対する情報処理として,何を獲得し,音声言語を,音楽を所有するに至ったのだろうか?この謎解きをしながら,新しい技術を世界に発信している.

    変形しても不変な情報・構造が潜んでいる・・直接見える・聞こえるモノではない,その裏側に潜んでいる構造を暴き出せ!

    (x, y)

    (u, v)

    x

    y

    u

    vA

    B

    p1(x, y)

    p2(x, y)

    P1(u, v)

    P2(u, v)

    fdivfdiv

    変形・・それは空間写像 写像不変・・それはトポロジー(位相幾何学)

    変形不変な f-divergence に基づく構造表象を通して様々なメディア情報処理を捉え直す.

    サルからヒトへの変化を計算機上に実装すると計算機はどう変化する?

    ?

    A scale in LilyPond

    !" "" "" " #" " #$% &

    "" '" "#

    Music engraving by LilyPond 2.10.20—www.lilypond.org

    A scale in LilyPond

    !! !" ! #$ $ %! ! !& !$ ! !! !

    Music engraving by LilyPond 2.10.20—www.lilypond.org

    様々な変形を被っても,我々は容易に同一性を認知できる.(知覚の恒常性)サルは視覚刺激には強いが,聴覚刺激の変形には弱い.

    空間写像に基づく手運動からの音声生成発話障害者支援技術

    音声空間

    b (b 1, b 2, b 3, … b n)

    ジェスチャー空間

    a (a 1, a 2, a 3, … a n)

    舌の音色空間を手の動き空間に貼付ける

    ぬ,ぬぁんと,口ではなく手でしゃべることができるようになる

    音声の話者性の違いに表れる幾何学的特性の分析

    音声の話者性の違いの大きな要因として声道長(喉の長さ)の違いがある.

    この話者性の違いの特徴量空間における影響を数学的・幾何学的な観点から分析することで、新たな音声の情報表現を構築している.

    RtR = RRt = Idet R = +1R2(θ)=

    (cos θ − sin θsin θ cos θ

    )

    R′n(Θ)=

    R2(θ1) · · · 0

    .... . .

    ...0 · · · R2(θm)

    -150-100

    -50 0

    50 100 150

    0 50 100 150 200 250 300 350

    Rotat

    ion A

    ngle

    [deg]

    Estimated Body Height [cm]

    original height

    eqn. 8

    構築した理論を通して、実際の音声の分析結果と照らし合わせる.声道長の違いを表す行列を線形代数を通して分析する.すると多次元空間における回転という性質が見えてくる.

    最適なセグメンテーション

    ボトムアップクラスタリングによる音声の自動セグメンテーション

    音声の構造表象に基づく音声認識話者が違えば,たとえ同じ言葉を話したとしても,音声の物理的実体は異なる.話者の体調,収録機器の音響特性,伝送路などによっても音声の物理的実体は歪む.

    現在主流の音声の実体を直接的に比較する音声認識手法は,音声の歪み・変形に弱い.変形に不変な音声の構造的表象を用いることで音声の歪みに非常に頑健な音声認識が可能.即ち,声の変形に超強い情報処理を実装.音の変形に強いのがヒト,弱いのがサル

    c1

    c3c2

    c1

    c3c2c4

    cD

    c4

    cD

    3. Cepstrum distribution sequence (HMM)

    5. Structure (distance matrix)

    1. Speech waveforms

    2. Cepstrum vector sequence

    4. Bhattacharyya distances

    00

    00

    0

    s = (s , s , ... )1 2structure vector

    f-div 距離

    確率的セグメンテーションモデル

    x1 … xe1

    r1

    xs2 … xe2

    r2

    … xsk … xek

    rk

    s1 s2 sk

    Sequence X

    Source R

    x2

    236cm73cm

    「お?君の声,今日はなんだか    すんごい,回転してる      ね~~」

    0

    20

    40

    60

    80

    100

    単語認識精度

    従来手法

    提案手法

    長 ← 発声者の身長 → 短

    英語発音クリニック

    MtFボイストレーニングの技術的支援

    完全なる変換不変量・それは f-divergence

    シャドーイング音声(非常に崩れた音声)

    学習者のTOEICスコアもズバリ予測!

    シャドーイング音声の自動採点

    音節の数を数え上げる(音節法)or

    単語の数を数え上げる(Check-point法,全単語法)

    長時間労働手動評価

    凡そ音素に相当する大きさで音声を自動で分ける

    or音響モデルと比較して発音

    スコアを計算

    自動評価PC上の分析

    手動評価 ≒ 自動評価

    誰の発音と比較したい?まずは先生を選ぼう!

    フムフム,君はXXな癖があるな.

    ■お待ちかね。「あなた」の分析結果を見てみよう!分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。

    ♪♪チェックポイントはここ!!さあ,自分の発音を “自分で”チェックしてみよう!!♪♪• æと E この二つはいっつも仲良しです。あなたの発音はどうなってますか?• Iと i これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。• Iと,Eやæ その結果,Iは Eやæに似くるはずですが,あなたの発音ではどうなってます?• Aと O アメリカ英語では,これらが似ている方言もあります。母音図で Oが下がってきます。• @と,2や Aやæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。• @とÄ この二つが仲良し,という人もいるかもしれませんね~。どうです?あなたの場合。• Ä 実は rと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。

    ■さてさて,どこから直していこうか。よ~く,考えてみよう!あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示します。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか?

    どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきます。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。結局,厳密には,み~んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

    ここから直すのが最短コースだ!

    教師 教師一週間の発音矯正の効果は如何に?

    一週間後

    49M

    62M

    49F

    45F

    77F

    22F

    84M

    22F

    32F

    23F

    16M

    66M

    64F

    22M

    65M

    38M

    25M

    61M

    44M

    16M

    16M

    27F

    26M

    26M

    62M

    76M

    23M

    38F

    22M

    26M

    32M

    22M

    49F

    36F

    43M

    36M

    36F

    26M

    28M

    30M

    28M

    60M

    57F

    57F

    48M

    38M

    58M

    24F

    25F

    24M

    25M

    42F

    28M

    51M

    31F

    24M

    48F

    45M

    14F

    68F

    27F

    08F

    39M

    69M

    11M

    35F

    51F

    54F

    15M

    46F

    36M

    42F

    32M

    44M

    09F

    33F

    56M

    38M

    50M

    25M

    21M

    23M

    16F

    17F

    23M

    46M

    39F

    52M

    30M

    50M

    50F

    47M

    29F

    32M

    48M

    16F

    17F

    38M

    18M

    24M

    39M

    34F

    32M

    28M

    20M

    50F

    15F

    10F

    45M

    21M

    51F

    23F

    24M

    23M

    71M

    63F

    21M

    21F

    25F

    27M

    17F

    17M

    16M

    17M

    17M

    45M

    70M

    51M

    17M

    17M

    17M

    17M

    44M

    31M

    06M

    56M

    56F

    23M

    52M

    19M

    61M

    43M

    41F

    29M

    19F

    19F

    26M

    42M

    41F

    28M

    30M

    50F

    23M

    23M

    16M

    57M

    25M

    25M

    28F

    58F

    24F

    30M

    22M

    24M

    20M

    24M

    26M

    24M

    24F

    27F

    24M

    49F

    24F

    38M

    25M

    54M

    16F

    17F

    16F

    16F

    26M

    55F

    67M

    30F

    35F

    57M

    16M

    17M

    16M

    17M

    17M

    17M

    16M

    16M

    23M21F

    25M

    57F

    57M

    21F

    49F

    25F

    37F

    72M

    40F

    40F

    80M

    70M

    21M

    21M

    22M

    23M

    31M

    24M

    22M

    24M

    65M

    25M

    25M

    24M

    27M

    26F

    26F

    41F

    20M

    32M

    27F

    42M

    35F

    34M

    08F

    30F

    11F

    06M

    43F

    44M

    50F

    52M

    44M

    63M

    58F

    59F

    68M

    21M

    26M

    47F

    21M

    33F

    25M

    36M

    47M

    43F

    66M

    25M

    24M

    54F

    21M

    53M

    20M

    21M

    21M

    21M

    21M

    43F

    51F

    28F

    35M

    25M

    66F

    73M

    29M

    10F

    38M

    40M

    21M

    11F

    12F

    12F

    44F

    51M

    39M

    11F

    14M

    47M

    07M

    22M

    11M

    10M

    09M

    07M

    28F

    36M

    27F

    09M

    37F

    35M

    17F

    35F

    35M

    38M

    33F

    07F

    36M

    09F

    12M

    04F

    35F

    30F

    24M

    67F

    24M

    23M

    30F

    60F

    60M

    10M

    09M

    52M

    21M

    23M

    22F

    38F

    44M

    08M

    10F

    23M

    36M

    24M

    39F

    24F

    24F

    48F

    52M

    28M

    45F

    45M

    32F

    56F

    61M

    32M

    38F

    20F

    22M

    11F

    43M

    46F

    12M

    22M

    21F

    42F

    12F

    56M

    25M

    25M

    59F

    70M

    64M

    64F

    67M

    74M

    31F

    74M

    60F

    31F

    24M

    49F

    73M

    65F

    42F

    23M

    17F

    17F

    17F

    16F

    17F

    72M

    71F

    73M

    75F

    62M

    70M

    48M

    23F

    30M

    61F

    84M

    16F

    17F

    29M

    60F

    23M

    38F

    70F

    55F

    36F

    58F

    24F

    68M

    29M

    29M

    22M

    26F

    24M

    25M

    22F

    25F

    35M

    52F

    22M

    24M

    25M

    40M

    35F

    28F

    10M

    06M

    45M

    38F

    71F

    09F

    33F

    30F

    05F

    07M

    11M

    40M

    16M

    12M

    51M

    08M

    42M

    11M

    24M

    67M

    68M

    65M

    64M

    64M

    69M

    23M

    38M

    13M

    13M

    40F

    14M

    09F

    10F

    22M

    22M

    60M

    56F

    55M

    47F

    21M

    22M

    34F

    10F

    07M

    57M

    14F

    21F

    36M

    19M

    35F

    06M

    06F

    53M

    33F

    47F

    66M

    63F

    24F

    25M

    17M

    31M

    52F

    14F

    30F

    29M

    58F

    28M

    33F

    32M

    54F

    62F

    11F

    18F

    24M

    36F

    56M

    46M

    22M

    38F

    08F

    22F

    21M

    54M

    45M

    41F

    14F

    06M

    39F

    09M

    11M

    44F

    26F

    44M

    41F

    16M

    43M

    24F

    24F

    63M

    47M

    05F

    31F

    33F

    23M

    24M

    37M

    34F

    05F

    36F

    39M

    53M

    50F

    24F

    17M

    24F

    14M

    13M

    45F

    12M

    23F

    27M

    45F

    21M

    24M

    47M

    07F

    25M

    48M

    14M

    44F

    44M

    41F

    22F

    21M

    46F

    48M

    33F

    33M

    27M

    53F

    11F

    49F

    53M

    13M

    14M

    29F

    21F

    40F

    10F

    42F

    476

    145

    537

    422

    317

    073

    184

    394

    067

    051

    309

    088

    364

    036

    004

    125

    401

    553

    329

    390

    166

    434

    180

    484

    149

    562

    223

    183

    057

    557

    464

    486

    094

    091

    455

    539

    042

    093

    228

    488

    481

    475

    559

    368

    117

    519

    081

    026

    498

    007

    467

    500

    062

    083

    197

    490

    393

    536

    307

    165

    515

    379

    052

    556

    319

    092

    469

    550

    264

    517

    441

    038

    105

    459

    331

    524

    283

    101

    179

    190

    292

    178

    206

    384

    354

    491

    020

    507

    089

    104

    237

    174

    558

    226

    318

    041

    446

    440

    087

    230

    298

    034

    528

    449

    102

    188

    356

    258

    176

    462

    186

    013

    480

    256

    413

    460

    235

    185

    451

    560

    147

    175

    225

    327

    325

    220

    404

    454

    313

    443

    112

    311

    285

    456

    096

    079

    116

    275

    334

    080

    240

    479

    453

    128

    084

    115

    086

    123

    518

    497

    333

    540

    100

    561

    071

    140

    068

    164

    531

    261

    015

    525

    134

    544

    514

    085

    130

    078

    168

    167

    182

    503

    064

    472

    017

    132

    200

    009

    196

    156

    234

    533

    495

    294

    049

    324

    312

    420

    030

    273

    155

    122

    373

    276

    513

    511

    243

    399

    416

    535

    002

    305

    564

    520

    326

    151

    008

    247

    129

    194

    106

    474

    218

    076

    381

    146

    161

    308

    328

    542

    269

    315

    019

    142

    300

    281

    239

    336

    056

    158

    219

    229

    439

    343

    534

    349

    505

    111

    272

    127

    438

    153

    452

    496

    545

    046

    010

    163

    499

    304

    429

    299

    144

    216

    538

    148

    351

    131

    095

    187

    066

    314

    437

    414

    138

    382

    522

    110

    423

    376

    271

    217

    386

    397

    403

    489

    385

    555

    552

    448

    532

    527

    371

    137

    274

    353

    143

    063

    268

    551

    241

    458

    358

    427

    195

    478

    530

    012

    363

    032

    359

    372

    378

    322

    267

    392

    303

    493

    502

    279

    124

    266

    365

    260

    370

    417

    426

    025

    339

    341

    024

    109

    442

    410

    350

    463

    321

    108

    193

    316

    282

    465

    050

    074

    521

    288

    082

    406

    444

    023

    054

    504

    029

    408

    072

    293

    501

    543

    432

    133

    323

    152

    090

    512

    357

    204

    263

    070

    251

    157

    295

    249

    412

    398

    253

    421

    375

    407

    061

    278

    021

    297

    419

    425

    286

    352

    547

    055

    150

    139

    395

    236

    445

    003

    181

    457

    428

    529

    028

    516

    011

    257

    214

    018

    201

    044

    208

    246

    494

    006

    470

    238

    287

    171

    369

    099

    310

    211

    377

    209

    103

    523

    320

    338

    374

    345

    265

    361

    306

    330

    040

    433

    136

    159

    033

    212

    262

    367

    177

    043

    296

    477

    466

    250

    192

    402

    222

    233

    198

    468

    436

    098

    411

    207

    430

    337

    506

    097

    415

    435

    342

    053

    224

    391

    380

    546

    396

    383

    447

    005

    347

    485

    119

    554

    022

    355

    366

    059

    526

    114

    245

    047

    077

    284

    563

    060

    302

    189

    487

    160

    118

    141

    172

    252

    270

    215

    016

    126

    069

    290

    232

    332

    121

    387

    035

    548

    221

    280

    027

    277

    335

    289

    014

    346

    259

    291

    255

    037

    510

    492

    227

    173

    549

    340

    405

    107

    450

    162

    203

    231

    065

    389

    213

    254

    045

    191

    113

    058

    202

    205

    431

    242

    301

    362

    541

    135

    031

    509

    473

    248

    409

    483

    039

    482

    210

    169

    344

    120

    348

    170

    154

    360

    471

    418

    075

    461

    048

    244

    508

    400

    199

    388

    424

    001

    Gxxgle Pronunciaton in Kashiwa Area

    700名の日本人英語の発音分類/日本人英語の典型的な型の定義全人類の英語発音の分類とて,不可能ではない!

    ま ず  は   中    国     制      覇       か        ら         ?

    関数 g を変えると様々な距離尺度に

    テキスト音声合成においてアクセント結合を適切に処理

    アクセント結合処理の高精度化

    条件付き確率場を用いた統計的な手法により高精度なアクセント処理が可能

    あ’か+えんぴつ → あかえ’んぴつ( ’:アクセントの位置)

    複数単語が連結する際にアクセント位置が変化する・・・「アクセント結合」

    より自然なテキスト読み上げ

    構造表象に基づく音声合成幼児の音声模倣の実現

    従来の音声合成は文字(音素)列から音声への変換.モデル化対象は学習話者の声そのもの.一方幼児は,両親の声の声帯模写はしない.幼児は両親の声からの音素抽出は困難.幼児研究によれば,単語全体の語形を抽出し,それを自らの小さな喉で再生しようとする.

    話者不変の音声の構造表象に基づく音声模倣プロセスの計算機上の実装

    構造+身体=音響身体性を捨てたモデル化

    おはよう

    おはよう

    身体パラメータ→幾つかの絶対量を既知構造を空間に定位

    距離関係と絶対量で得られる連立方程式を解く

    複数の解を平均化

    大きな喉

    ちっちゃな喉

    峯松研究室さぁ,はじけちまおうぜぃ!

    よく学び,よく語り,よく遊び,よく飲み,よく食い,そして,よく出かける・・・

    確率的線形回帰混合モデルを用いた音声変換音声変換とは,ある人の声を別の人の声に変換すること.

    確率的線形回帰混合モデルとは

    Source space Sx

    Virtual spaces

    (Gray level for

    density p(x|k) )

    S1 S2 SK

    p(1|x)

    Prb. Linear Regr. A1x A2x AKx

    Mix. Of Prb. Linear Regression y=! p(k|x) Akx

    Posterior Prb.

    Prior Prb. p(1) p(2) p(K)

    p(2|x) p(K|x)…

    広瀬研の皆さんと

    fdiv(p1, p2) =∮∮∮

    p2(x)g(

    p1(x)p2(x)

    )dx