ギフトで購入

Pythonで学ぶ音声合成機械学習実践シリーズ

山本龍一, 高道慎之介

インプレス

3,850円 (3,500円+税)

本書では従来の統計的音声合成システムの基礎を解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムの実装も行っています。

【注意】本書のEPUB版は固定レイアウト型になっております。文字の大きさの変更や検索、引用などはお使いいただけません。画面の大きい端末でご利用ください。

内容紹介

「音声合成」とは、人間の音声を人工的に作り出す、音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では、従来の統計的音声合成システムの基礎について解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また、実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムを作るための実装の解説も行っています。本書は、2020年8月24日刊の『Pythonで学ぶ音源分離』、2021年5月20日刊の『Pythonで学ぶ音声認識』に続く、特定の技術分野のアルゴリズムの紹介と、そのアルゴリズムを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」の3冊目です。中級者以上向け。

書誌情報

著者: 山本龍一, 高道慎之介
発行日: 2021-08-12 (紙書籍版発行日: 2021-08-12)
最終更新日: 2021-08-12
バージョン: 1.0.0
ページ数: 352ページ(PDF版換算)
対応フォーマット: PDF, EPUB
出版社: インプレス

対象読者

音声処理のエンジニア・研究者、理系の大学生、機械学習や音声処理に興味のある人

著者について

山本龍一

LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社（現職）。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。

高道慎之介

東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教（現職）。博士（工学）。音声合成変換、音声信号処理の研究に従事。

第1節音声の情報的側面：音声の内包する情報
COLUMN イントネーションとアクセントは違う？
COLUMN 朗読音声に現れにくい要素
第2節音声の物理的側面：音声生成の物理モデル
第3節本章のまとめ
COLUMN 音声分析合成システムWORLDの由来

第3章統計的音声合成

第1節統計モデルに基づく音声合成
第2節統計的パラメトリック音声合成
第3節一貫学習に基づく音声合成
第4節本章のまとめ
COLUMN 音声合成モデルの学習には大規模データが必要？

第4章 Pythonによる音声信号処理

第1節 Python環境の準備
第2節数値計算のためのPythonライブラリ
第3節音声ファイルの読み込み
第4節音声のフーリエ変換
第5節音声の短時間フーリエ変換とその逆変換
第6節メルスペクトログラム
第7節 Griffin-Limのアルゴリズムに基づく位相復元
COLUMN 音声合成のためのライブラリnnmnkwiiを作った経緯

第5章深層学習に基づく統計的パラメトリック音声合成

第1節はじめに
第2節 DNN音声合成に必要なデータ
第3節フルコンテキストラベルとは？
第4節言語特徴量の抽出
第5節音響特徴量の抽出
第6節音声波形の生成

第6章日本語DNN音声合成システムの実装

第1節本章の日本語音声合成システムの実装
第2節プログラム実装の前準備
第3節継続長モデルのための前処理
第4節音響モデルのための前処理
第5節特徴量の正規化
第6節ニューラルネットワークの実装
第7節学習スクリプトの実装
第8節継続長モデルの学習
第9節音響モデルの学習
第10節学習済みモデルを用いてテキストから音声を合成
COLUMN JSUTコーパスを作った経緯と反省

第7章 WaveNet：深層学習に基づく音声波形の生成モデル

第1節 WaveNetとは？
第2節自己回帰に基づく音声波形の生成モデル
第3節 WaveNetにおける音声波形の扱い
第4節因果的な膨張畳み込み
COLUMN 再帰型ニューラルネットワークではだめなの？
第5節ゲート付き活性化関数を用いた1次元畳み込み
第6節条件付け特徴量のアップサンプリング
第7節 WaveNetの実装
COLUMN WaveNetが生まれるまでの経緯

第8章日本語WaveNet音声合成システムの実装

第1節本章の日本語音声合成システムの実装
第2節データの前処理
第3節継続長モデルの学習
第4節対数F0予測モデルの学習
第5節 WaveNetの学習スクリプトの実装
第6節 WaveNetの学習
第7節学習済みモデルを用いてテキストから音声を合成

第9章 Tacotron 2：一貫学習を狙った音声合成

第1節 Tacotronとは？
第2節注意機構付きsequence-to-sequenceモデル
第3節エンコーダ
第4節注意機構
第5節デコーダ
第6節 Post-Net
第7節 Tacotron 2の実装
COLUMN 音声合成とペルソナ

第10章日本語Tacotronに基づく音声合成システムの実装

第1節本章の日本語音声合成システムの実装
第2節 Tacotron 2を日本語に適用するための変更
第3節データの前処理
第4節 Tacotronの学習スクリプトの実装
第5節 Tacotronの学習
第6節 WaveNetボコーダ学習
第7節学習済みモデルを用いてテキストから音声を合成
COLUMN Tacotronとその発展

第11章音声合成システムを新たに作るときに

第1節新しい音声コーパスを作るとき
第2節より高度な音声合成手法・タスク

参考文献

索引

Home 〉書籍一覧〉 Pythonで学ぶ音声合成機械学習実践シリーズ ▲ ページトップへ戻る

Pythonで学ぶ音声合成機械学習実践シリーズ

関連サイト

内容紹介

書誌情報

対象読者

著者について

山本龍一

高道慎之介

目次

序章

第1章音声合成とは？

第2章音声の情報と物理

第3章統計的音声合成

第4章 Pythonによる音声信号処理

第5章深層学習に基づく統計的パラメトリック音声合成

第6章日本語DNN音声合成システムの実装

第7章 WaveNet：深層学習に基づく音声波形の生成モデル

第8章日本語WaveNet音声合成システムの実装

第9章 Tacotron 2：一貫学習を狙った音声合成

第10章日本語Tacotronに基づく音声合成システムの実装

第11章音声合成システムを新たに作るときに

参考文献

索引

Pythonで学ぶ音声合成 機械学習実践シリーズ

関連サイト

内容紹介

書誌情報

対象読者

著者について

山本龍一

高道慎之介

目次

序章

第1章 音声合成とは？

第2章 音声の情報と物理

第3章 統計的音声合成

第4章 Pythonによる音声信号処理

第5章 深層学習に基づく統計的パラメトリック音声合成

第6章 日本語DNN音声合成システムの実装

第7章 WaveNet：深層学習に基づく音声波形の生成モデル

第8章 日本語WaveNet音声合成システムの実装

第9章 Tacotron 2：一貫学習を狙った音声合成

第10章 日本語Tacotronに基づく音声合成システムの実装

第11章 音声合成システムを新たに作るときに

参考文献

索引

Pythonで学ぶ音声合成機械学習実践シリーズ

第1章音声合成とは？

第2章音声の情報と物理

第3章統計的音声合成

第5章深層学習に基づく統計的パラメトリック音声合成

第6章日本語DNN音声合成システムの実装

第8章日本語WaveNet音声合成システムの実装

第10章日本語Tacotronに基づく音声合成システムの実装

第11章音声合成システムを新たに作るときに