wavenet

WaveNet 安田裕介

Upload: tanukkii

Post on 16-Apr-2017

216 views

Category:

Technology

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

WaveNet安田裕介

WaveNetとは？DeepMindが開発したDNNを使った

音響データ生成モデル

https://arxiv.org/pdf/1609.03499.pdf

WaveNetの驚きポイント

• 従来の手法よりも自然な音声を生成

• 特徴抽出やvocoderがいらない．入力も出力も音響波．

• 同じアーキテクチャで音声だけでなく音楽も生成可能

• RNNではなくCNNを使っている

従来の音声合成

WaveNetの中身

音響波の同時確率

• 音響波形は過去の履歴に依存する • 音響波は過去に取ったすべての値の条件付き確率の同時確率で表せる

causal convolution

• causal convolutionでは予測　　　　　　は未来の値に依存しない • 条件付き確率分布はレイヤーの積み重ねで表現される • 出力層は入力層と同じ次元tをもつ • ソフトマックス層で２５６の値に分類される

dilated convolution

• dilated convolutionは入力を何ステップかスキップする • dilated convolutionは少ない層数で大きな受容野をもつことを可能にする • 受容野とは神経細胞の中で入力を受け取る部分 • 実験では受容野の大きさはおよそ300ミリ秒で、２-３音素分に相当

受容野

CNNのメリット/デメリット

• 再帰的コネクションを持っていないため、RNNよりも学習が速い

• 受容野を広げるためにたくさんの層や巨大なフィルターが必要

条件付きWaveNet

• 音響データ以外に入力を与えることもできる • 入力変数で条件付けすることで、特定の特徴をもった音響波を出力することができる

• 条件にはグローバル条件（e.g. 話者）と時系列のローカル条件（e.g. 言語学的情報）がある

実験結果

複数話者音声生成• 109話者44時間のデータを学習

• 話者IDで条件付け

• テキストでは条件付けしていない

• →人の声のように聞こえるが、意味のない発言

• →１つのモデルですべての話者を再現可能

• →呼吸、口の動き、録音環境も再現されるhttps://deepmind.com/blog/wavenet-generative-model-raw-audio/

TTS• １話者、24時間のデータを学習

• 入力テキストの言語学的情報で条件付け

• 他のモデルで予測したF0と音素継続長も補助情報として条件付け

• →ユニットセレクションやHMM/LSTM-RNNパラメトリック合成よりもよいスコア

音楽生成• ジャンルや楽器などでタグ付けされた２００時間の音楽/６０時間のYoutubeにあるピアノ音楽を学習

• →無条件でも和音で構成された聞き心地のよい音楽を生成

• →数秒の受容野をもってしても長期間の整合性は維持できない（秒単位でジャンルや楽器が変わってしまう）

感想• 現実的に情報量が多く汎用性の高い強力なモデルを作ることが可能なところがすごい

• F0や音素継続長など長期依存性をもつものは従来の手法を使わなければならないのが残念

• 受容野の拡大に期待

• tensorflow/magentaで実装公開に期待

Unsupervised speech representation learning using …...WaveNet + VAE The WaveNet uses information from: 1. The past recording 2. The latent vectors 3. Other conditioning, e.g. about

Natural TTS Synthesis by Conditioning WaveNet on Mel ... · [2] Oord, Aaron van den, et al. "Parallel WaveNet: Fast High-Fidelity Speech Synthesis.", Section 2.1 J. Shen, et al. |

WaveNet - Wireless Network Engines

WaveNet Guide for Students - Pepperdine University · 2019-11-25 · Page 1 of 7 WaveNet Guide for Students You’ve applied for the Free Application for Federal Student Aid (FAFSA)

CURRENNT WaveNet Implementation - GitHub Pagestonywangx.github.io › pdfs › CURRENNT_WAVENET.pdf · 2019-12-29 · CURRENNT WaveNet Implementation 1 Xin WANG National Institute

WaveNet Vocoder and its Applications in Voice Conversion · WaveNet vocoder to these voice conversion models and to introduce the WaveNet vocoder to the domestic speech processing

SimonsVoss Handbuch 2:WaveNet-Handbuch · 4Sicherheit und Alarme ... WN.RN.ER, WN.RN.WC, WN.RN.WR. – USB, für die Datenübertragung zwischen einem PC und dem WaveNet CentralNode

Unsupervised speech representation learning using WaveNet ... · contrast, dictionary learning techniques, such as sparse [36] and non-negative [35] decompositions, express each input

Subband WaveNet with overlapped single-sideband ﬁlterbanks · 2019-02-05 · Subband WaveNet with overlapped single-sideband ﬁlterbanks Takuma OKAMOTO1, Kentaro Tachibana1, Tomoki

Wavenet uVAS (Uniﬁed Value Added Services)

InTech-Wavelet Pid and Wavenet Pid Theory and Applications

Speech Synthesis: WaveNet (D4L3 Deep Learning for Speech and Language UPC 2017)

Wavenet Backup Service Overview › hubfs › Rebranded Assets › OVERVIEW... · 2019-03-12 · Wavenet Backup Service Powered By Redstor 3 Data Restoration Data can be restored

Forecasting User Demand of Uber with Wavenet · WaveNet. Results: Experiments & Methodology Internal and public datasets Two years of data from NYC Target variable is completed trips

Vision-Infused Deep Audio Inpainting - CVF Open Accessopenaccess.thecvf.com/.../Zhou_Vision-Infused_Deep_Audio_Inpainti… · are sent into the pretrained WaveNet decoder to generate

G:DWGC-SIZE6800C-6813D.dwg Model (1) - …...The WaveNet controller can be placed in either 12V or 24V electrical systems. 3.1 SAFETY INFORMATION (CONT’D) 3.2 WAVENET 12/24VDC SYSTEM

WaveNET Hydrodynamic Analysis - MaRINET2 · The WaveNET is a unique modular wave energy conversion system that utilises the relative motion between a series of wave interacting bodies

EOS v.3 PLUS installation guide - Wavenet

Unsupervised speech representation learning using WaveNet ... · Creating good data representations is important. The deep learning revolution was triggered by the development of

WaveNet Brochure... · 2017-07-12 · The “WaveNet” Wireless Monitoring System consists of 1-32 battery-powered SenSmart 7000 “WaveCast Monitors” (WCM) and at least one 32

Wavelet PID and Wavenet PID: Theory and Applications › pdfs › 34304 › InTech-Wavelet_pid... · 2018-09-25 · 0 Wavelet PID and Wavenet PID: Theory and Applications José Alberto

Control PID Wavenet Discreto para Sistemas No Lineales

Microsoft Teams + Wavenet Case Study · Microsoft Teams + Wavenet Case Study. Solution Replacing their telephony system was the answer, but the type of telephony solution was the

Thoughts on WaveNet

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

SimonsVoss Handbuch 2:WaveNet-Handbuch · SimonsVossSimonsVoss Handbuch 2:1 | WaveNet-Funknetzwerk5 / 89 WaveNet-Handbuch WaveNet-Funknetzwerk1 Im Folgenden wird bei den Komponenten

WaveNet WIRELESS MONITORING SYSTEMS€¦ · WaveNet Wireless Monitoring System User's Manual Document: UM-1002 Revision Level A 1 INSTRUCTION MANUAL R.C. SYSTEMS CO. INC. WaveNet

[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Steve Renals Automatic Speech Recognition – ASR Lecture 19 ... · WaveNet Steve Renals Automatic Speech Recognition – ASR Lecture 19 30 March 2017 A van den Oord et al, “WaveNet:

IdentificaciÃ³n Y Control Wavenet Para Sistemas MIMO ...amca.mx/memorias/amca2012/paginas/Papers/0099[1].pdf · control PID autosintonizable, interfaz h aptica.´ ... PID discreto

WaveNet & D2L Navigation Guide · WaveNet Navigation 4 Course Registration 8 Desire2Learn Student Reference Guide 12 Who To Contact For Help 19. 3 OCampuN- S The most common types

INTRODUCING WAVENET – GETTING STARTED › documents › academics › high... · This is the first tab you will see when you log into WaveNet; as such it contains a large amount

FloWaveNet : A Generative Flow for Raw Audioproceedings.mlr.press/v97/kim19b/kim19b.pdf · 2019-09-16 · WaveNet. Parallel WaveNet (Van Den Oord et al.,2017) uses MoL distribution

A Wavenet for Speech Denoising - Jordi Ponsjordipons.me › media › Wavenet-denoising_Pandora_Dolby.pdf · 2017-07-29 · A Wavenet for Speech Denoising Jordi Pons work done in

Parallel WaveNet: Fast High-Fidelity Speech Synthesis · PDF fileParallel WaveNet: Fast High-Fidelity Speech Synthesis Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan,