関連サイト
本書の関連ページが用意されています。
内容紹介
「音声合成」とは、人間の音声を人工的に作り出す、音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では、従来の統計的音声合成システムの基礎について解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また、実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムを作るための実装の解説も行っています。本書は、2020年8月24日刊の『Pythonで学ぶ音源分離』、2021年5月20日刊の『Pythonで学ぶ音声認識』に続く、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の3冊目です。中級者以上向け。
書誌情報
- 著者: 山本龍一, 高道慎之介
- 発行日: 2021-08-12 (紙書籍版発行日: 2021-08-12)
- 最終更新日: 2021-08-12
- バージョン: 1.0.0
- ページ数: 352ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
音声処理のエンジニア・研究者、理系の大学生、機械学習や音声処理に興味のある人
著者について
山本龍一
LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社(現職)。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。
高道慎之介
東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教(現職)。博士(工学)。音声合成変換、音声信号処理の研究に従事。
目次
序章
第1章 音声合成とは?
- 第1節 音声・言語とは?
- 第2節 広義の音声合成
- 第3節 テキスト音声合成
- COLUMN 音声研究者をクビにすべき?
第2章 音声の情報と物理
- 第1節 音声の情報的側面:音声の内包する情報
- COLUMN イントネーションとアクセントは違う?
- COLUMN 朗読音声に現れにくい要素
- 第2節 音声の物理的側面:音声生成の物理モデル
- 第3節 本章のまとめ
- COLUMN 音声分析合成システムWORLDの由来
第3章 統計的音声合成
- 第1節 統計モデルに基づく音声合成
- 第2節 統計的パラメトリック音声合成
- 第3節 一貫学習に基づく音声合成
- 第4節 本章のまとめ
- COLUMN 音声合成モデルの学習には大規模データが必要?
第4章 Pythonによる音声信号処理
- 第1節 Python環境の準備
- 第2節 数値計算のためのPythonライブラリ
- 第3節 音声ファイルの読み込み
- 第4節 音声のフーリエ変換
- 第5節 音声の短時間フーリエ変換とその逆変換
- 第6節 メルスペクトログラム
- 第7節 Griffin-Limのアルゴリズムに基づく位相復元
- COLUMN 音声合成のためのライブラリnnmnkwiiを作った経緯
第5章 深層学習に基づく統計的パラメトリック音声合成
- 第1節 はじめに
- 第2節 DNN音声合成に必要なデータ
- 第3節 フルコンテキストラベルとは?
- 第4節 言語特徴量の抽出
- 第5節 音響特徴量の抽出
- 第6節 音声波形の生成
第6章 日本語DNN音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 プログラム実装の前準備
- 第3節 継続長モデルのための前処理
- 第4節 音響モデルのための前処理
- 第5節 特徴量の正規化
- 第6節 ニューラルネットワークの実装
- 第7節 学習スクリプトの実装
- 第8節 継続長モデルの学習
- 第9節 音響モデルの学習
- 第10節 学習済みモデルを用いてテキストから音声を合成
- COLUMN JSUTコーパスを作った経緯と反省
第7章 WaveNet:深層学習に基づく音声波形の生成モデル
- 第1節 WaveNetとは?
- 第2節 自己回帰に基づく音声波形の生成モデル
- 第3節 WaveNetにおける音声波形の扱い
- 第4節 因果的な膨張畳み込み
- COLUMN 再帰型ニューラルネットワークではだめなの?
- 第5節 ゲート付き活性化関数を用いた1次元畳み込み
- 第6節 条件付け特徴量のアップサンプリング
- 第7節 WaveNetの実装
- COLUMN WaveNetが生まれるまでの経緯
第8章 日本語WaveNet音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 データの前処理
- 第3節 継続長モデルの学習
- 第4節 対数F0予測モデルの学習
- 第5節 WaveNetの学習スクリプトの実装
- 第6節 WaveNetの学習
- 第7節 学習済みモデルを用いてテキストから音声を合成
第9章 Tacotron 2:一貫学習を狙った音声合成
- 第1節 Tacotronとは?
- 第2節 注意機構付きsequence-to-sequenceモデル
- 第3節 エンコーダ
- 第4節 注意機構
- 第5節 デコーダ
- 第6節 Post-Net
- 第7節 Tacotron 2の実装
- COLUMN 音声合成とペルソナ
第10章 日本語Tacotronに基づく音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 Tacotron 2を日本語に適用するための変更
- 第3節 データの前処理
- 第4節 Tacotronの学習スクリプトの実装
- 第5節 Tacotronの学習
- 第6節 WaveNetボコーダ学習
- 第7節 学習済みモデルを用いてテキストから音声を合成
- COLUMN Tacotronとその発展
第11章 音声合成システムを新たに作るときに
- 第1節 新しい音声コーパスを作るとき
- 第2節 より高度な音声合成手法・タスク