音声の符号化 - tohoku university official english...

44
音声の符号化 音(アナログ量)デジタルデータに変換 コンピュータで扱える デジタル回線での伝送 どうやってデジタル化するか? 目標 アナログに戻したときの音質がよい方がいい デジタルデータにしたときのビット数が少ない方がいい 方法 音声のいろいろな性質を利用する 1

Upload: others

Post on 29-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声の符号化 音(アナログ量)→デジタルデータに変換

コンピュータで扱える

デジタル回線での伝送

どうやってデジタル化するか? 目標

アナログに戻したときの音質がよい方がいい

デジタルデータにしたときのビット数が少ない方がいい

方法 音声のいろいろな性質を利用する

1

Page 2: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声符号化の基本事項

サンプリング 時間的に連続する信号の「とびとび」の時間での値だけを観測する

「とびとび」の速さ:サンプリング周波数 fs

入力信号がfs/2以下の周波数成分だけを含む場合

には,サンプリングされたデータから元の信号が復元できる(サンプリング定理)

2

Page 3: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

サンプリング定理に関する注意 「8kHzでサンプリングすれば4kHzの音まで再生できる」→一部間違い

正しくは「元の音が4kHzまでの成分しか含んでいなければ、8kHzでサンプリングした時に元の音を完全に再現できる」

元の音が4kHz以上の音を含んでいた場合は歪みとなる(折り返し歪み、aliasing)

通常はAD変換の前にアナログフィルタをかませて高域成分をカットする

3

Page 4: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声符号化の基本事項 量子化

信号の大きさを「とびとび」の値に丸める整数で値を表現できる

「とびとび」の幅:量子化幅量子化した信号と元の信号の差:量子化誤差

4

Page 5: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

サンプリングと量子化

サンプリング周波数:どの程度の高さの音まで再現するかで決まる電話:8kHz (4kHzの音まで再現)

高品位音声:16kHz (8kHzの音まで再現)

CD:44.1kHz (22.05kHzの音まで再現)

量子化:どの程度の雑音まで許容するかで決まる音の符号化とはつまり「どう量子化するか」

5

Page 6: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

PCM符号化

PCM(Pulse Code Modulation) 量子化した値をそのまま2進数の数字として符号化

PCMの要素 1サンプルあたり何ビット使うか 量子化の間隔をどうするか

等間隔に量子化:線形量子化(linear quantization) 等しくない間隔で量子化:非線形量子化(nonlinear

quant.)

PCM符号の例 CD:16bit線形量子化 VoIP(G.711): 8bit 非線形量子化

6

Page 7: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

非線形量子化

多くのサンプルは0に近い値を持つ→0付近を細かく量子化すれば全体の誤差が減らせる

0

5

10

-5

-10

0

5

10

-5

-10

7

Page 8: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

非線形量子化の例:G.711 64kbit/sのデジタル回線での音声通信用

8kHzサンプリング,8bit非線形量子化 μ-Law(日本,アメリカ),A-Law(ヨーロッパ) μ-Law: 14bit線形量子化の値→8bit非線形量子化の値

-150

-100

-50

0

50

100

150

-8000 -6000 -4000 -2000 0 2000 4000 6000 8000

8bit m

u-L

aw

14bit linear

𝑦 = 128 sign(𝑥)log 1 +

255|𝑥|8192

log 256

8

Page 9: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

ディジタル交換◦ディジタル化された信号を多重化・転送

◦途中の回線の通信速度はディジタル化された音声の速度(64kbit/s)よりも十分速いと仮定

◦ディジタル化された信号は一定数のサンプルの塊(フレーム)ごとに転送される

9

Page 10: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

時分割多重(TDM)◦複数の回線を時間的に切り替えて送受信

10

入力側の回線より十分高速な回線

• 入力回線を決められた順序で順番に転送(同期転送)

• 通信がない回線の時間は空きになる

Page 11: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

インターネットの利用◦ IP(Internet Protocol)によるデータ転送◦ データの塊に宛先情報を付加したものが基本単位(パケット)◦ データ中継装置(ルータ)がパケット転送先を判断して転送する◦ データ転送が回線容量を超えた場合(輻輳)やビット誤りでデータが壊れた場合はパケットを廃棄する

11

Page 12: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

TCP/IPとOSI参照モデル階層 説明 例

アプリケーション層 通信サービス(ファイル転送,メッセージ転送など)

HTTP, FTP, SMTP

プレゼンテーション層 データの表現方法(符号化方式など)

セッション層 1回ごとの通信制御手順(再接続など)

トランスポート層 エラー訂正,データ再送など TCP, UDP, RTP

ネットワーク層 複数の機器にまたがるデータの中継と生著

IP, ARP

データリンク層 直接接続されている機器間の通信 Ethernet

物理層 物理的接続 100base-T

12

Page 13: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

IPによるデータ転送◦ IP (Internet Protocol)◦ IPv4 (version 4) と IPv6 (version 6)がある現在までv4が主流

◦データの塊(パケット)による通信

◦機器につけられた固有の番号(IP address)を使って通信を行う◦ IPv4では0~255の4つの数字の組

◦ IP addressによってネットワーク間でパケットを転送(ルーティング)

13

Page 14: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

IPパケット◦ IPv4のパケット構造

14

Page 15: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

ルーティング◦パケットの宛先アドレスと経路表によってパケットを異なるネットワーク間で転送する

15

Page 16: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

パケットの廃棄◦ IPではすべてのパケットがルーティングされるとは限らない

◦パケットが廃棄される場合◦内容が壊れている(チェックサムが合わない)

◦送信側のネットワークが混んでいる(輻輳)◦受信側と送信側のネットワークの通信速度が同じとは限らない

◦送信側の方が遅ければ,ネットワークが混んでいなくてもパケット廃棄が起きうる

16

Page 17: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

17

IP上での通信プロトコルTCP (Transmission Control Protocol)◦現在最も多く用いられている◦ 1対1の通信(ユニキャスト)◦パケット再送により信頼性の高い通信を行う◦ リアルタイム性は低い

UDP (User Datagram Protocol)◦ 1対1および1対多(マルチキャスト)通信が可能◦プロトコルにはパケット再送機能はない

RTP (Realtime Transport Protocol)◦ UDPの上位プロトコル◦ リアルタイム通信をサポート

HTTP, FTP, SMTPなど

BIND, NTP など

VoIP など

Page 18: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

18

TCPによる音楽・映像配信良い点◦パケット欠落を考えなくてよい

悪い点◦通信効率◦ ハンドシェイクのための通信が発生

◦ リアルタイム性に問題◦ パケ ッ ト 再 送が あ るの で , パ ケ ッ ト 到 着時間の保証が な い→キャッシュを使う→再生遅延

◦ユニキャストのみ◦ 放送をする場合は視聴者数だけコネクションが必要→サーバの負荷・通信容量の増大

Page 19: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

19

UDP・RTPでの音楽・映像配信良い点◦通信効率が良い◦送るデータの分(+ヘッダ)だけの通信

◦リアルタイム性◦マルチキャストが可能◦多数の端末に対して1つのパケットを送るだけでよい

悪い点◦パケット到達の保証がない◦パケットロス時の処理はアプリケーション依存

Page 20: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

20

マルチキャストでのパケットロスの例

どのくらいの人がパケットロスを経験するのか?◦ Mboneでのネット会議でのパケットロス調査 [M. Handley,

1997]

Page 21: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

Voice over IP (VoIP)◦ IPネットワークで音声通信◦ IP上の通常の通信(Webなど)はデータ再送を行う(TCP/IP)→電話のようなリアルタイム通信には向かない

◦リアルタイム用の通信方式(RTP/IP)を利用◦パケットが廃棄されたときの音声を復元する技術が必要(パケットロス隠蔽)

◦通常のPCM音声のほか、高効率音声符号化も利用できる

21

Page 22: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

高効率音声符号化◦通常の電話用PCM音声符号化◦G.711, 64kbit/s

◦初期の携帯電話網はディジタルデータの転送速度が低かった◦GSM (1987~): 9.6k~22.8kbit/s

◦ PDC (1991~): 9.6kbit/s

◦ 3G (1999~): 144kbit/s~2Mbit/s

◦ 3.9G/LTE (2010~): 25M~50Mbit/s

◦ 4G (2010~): 50M~1Gbit/s

22

Page 23: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

さまざまな高効率音声符号化規格◦ LD-CELP (Low-Delay CELP)◦ G.728 16kbit/s

◦ CS-ACELP (Conjugate Structure Algebraic CELP)◦ G.729 8kbit/s

◦ RPE-LTP (Regular Pulse Excitation with Long Term Prediction)◦ GSM標準 13kbit/s

◦ VSELP (Vector Sum Excitation LP)◦ PDC標準 6.7kbit/s

◦ PSI-CELP (Pitch Synchronous Innovation CELP)◦ PDCハーフレート標準 3.45kbit/s

◦ ACELP (Algebraic CELP)◦ GSM改訂標準 7.4kbit/s

23

Page 24: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

高レベル音声符号化ディジタルデータ

「声」の特徴

音韻 単語/文 意味

ディジタルデータ

「声」の特徴

音韻 単語/文 意味

音声

音声

PCM系(固定電話等)

CELP系(携帯電話等)

研究段階 要約電話?

AD/DA ボコーダ 音声合成 Text-to-

Speech

24

Page 25: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声の生成モデル

声帯 声道

喉頭唇

鼻腔

放射特性

𝑋(𝜔)

𝑆(𝜔) 𝑇(𝜔) 𝑅(𝜔)

𝑋 𝜔 = 𝑆 𝜔 𝑇 𝜔 𝑅(𝜔)

25

Page 26: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声の生成モデル

𝑆 𝜔

26

Page 27: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声の生成モデル

𝑆(𝜔)

𝑇 𝜔 𝑅(𝜔)

27

Page 28: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

分析合成による音声の伝送

圧縮伝送

音声分析合成系(ボコーダ) 声帯音源と声道特性を分離することによって「音声を表現する最小限の要素」だけを伝送できる

𝑋(𝜔)

𝑆(𝜔)

𝑇 𝜔 𝑅(𝜔)

𝑆′(𝜔)

𝑇′ 𝜔 𝑅′(𝜔)

𝑋′(𝜔)

28

Page 29: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

出力からのシステム推定

音声符号化の際に手に入るのはX(w)だけ

X(w)を観測しただけで,S(w)と T(w)R(w)が分離できるか?

𝑆(𝜔) 𝑇 𝜔 𝑅(𝜔) 𝑋(𝜔)

Page 30: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

出力からのシステム推定

仮定:システムへの入力はパルス列(スペクトルが平坦) 実際の声帯音源と声道特性とは違うが、特性の分離はできる

手法:線形予測(LPC)分析

𝐸(𝜔) 𝐻(𝜔) 𝑋(𝜔)

Page 31: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

CELPの構成LPC

分析量子化

コードベクトル選択

残差信号コードブック

信号利得コードブック

LPC

合成+

-

聴覚重み付け距離距離最小の

コードベクトルを選ぶ

bitstream

作成

出力

Page 32: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

インターネットと音声◦現在、インターネットはすべての通信のインフラになりつつある◦文字・画像の通信◦ World Wide Web

◦電子メール、メッセージング

◦音声の通信◦ VoIP、音楽配信

◦映像の配信

32

Page 33: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

高効率オーディオ符号化◦音楽を配信するための方式◦主に音楽(音声とは限らない)を圧縮する◦ CELPのような「音声専用」の方法は使えない

◦パケット通信への対応◦入力信号をパケットに分けることが前提

33

Page 34: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

オーディオ符号化の基本的な枠組み

34

Page 35: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

SB-ADPCM◦ 16kHz 高品質音声・中品質オーディオ符号化方式

(G.722)◦ Sub-Band ADPCM の略◦信号を高域と低域に分離し,それぞれADPCM符号化◦共役ミラーフィルタ(QMF)による帯域分離・合成◦ ADPCM符号化:高域2bit,低域4~6ビット (48~

64kbit/s)

35

Page 36: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

MPEG1 Audio◦映像符号化規格MPEGの音声部分◦ Layer 1 (MP1), layer 2 (MP2), layer 3 (MP3)がある

◦周波数分析,心理聴覚モデル,非線形スカラ量子化

36

Page 37: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

MP1◦MPEG1 audio layer 1◦ポリフェーズフィルタバンクによる周波数分析◦12サンプルごとに正規化+スカラ量子化

37

Page 38: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

MP3◦ポリフェーズフィルタバンク+MDCTによる分析◦可変フレーム長(標準18点)◦エントロピー符号化

38

Page 39: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

電話で音楽◦同じ符号化方式(コーデック)で音声と音楽の両方が符号化できる方式◦AMR-WB(Adaptive Multi-Rate Wideband)◦ G.722.2

◦ 16kHzサンプリング、7kHzまでの音声を符号化

◦ 6.6k~23.85kbit/s

◦ビットレートに応じてさまざまな符号化アルゴリズムを切り替えて使う

39

Page 40: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大48kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する(帯域拡張技術)

40

低周波と

高周波に分割

AMR-WBによる符号化

スペクトル概形のみ符号化

ビットストリーム形成

Page 41: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大4kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する(帯域拡張技術)

41

帯域合成

完全な低周波信号

スペクトル概形

ビットストリーム分解

高周波信号

Page 42: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

電話の未来

42

ディジタルデータ

「声」の特徴

音韻 単語/文 意味

ディジタルデータ

「声」の特徴

音韻 単語/文 意味

音声

音声

PCM系(固定電話等)

CELP系(携帯電話等)

研究段階 要約電話?

AD/DA ボコーダ 音声合成 Text-to-

Speech

Page 43: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

電話の未来

43

ディジタルデータ

「声」の特徴

音韻 単語/文 意味

ディジタルデータ

「声」の特徴

音韻 単語/文 意味

音声

音声

PCM系(固定電話等)

CELP系(携帯電話等)

研究段階

AD/DA ボコーダ 音声合成 Text-to-

Speech

機械翻訳

Page 44: 音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

自動翻訳電話の研究1986: ATR自動翻訳電話研究所設立◦ASURAによる翻訳通信実験◦語彙サイズ約1500

1993: ATR音声翻訳通信研究所

2001: ATR音声言語通信研究所◦TOEIC換算値 540

2013: 翻訳アプリ

44