関連サイト
本書の関連ページが用意されています。
内容紹介
「音声認識」とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的としています。まず手法の目的やアルゴリズムの概要を解説し、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「そもそもその手法は何を目的として生み出されたのか」という経緯と、「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。本書は中級者以上に向けた、特定の技術分野のアルゴリズムの紹介と、それを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」です。
書誌情報
- 著者: 高島遼一
- 発行日: 2021-05-20 (紙書籍版発行日: 2021-05-20)
- 最終更新日: 2022-09-11
- バージョン: 1.2.0
- ページ数: 352ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
・音声認識の研究者、これから研究する人・理系の大学生・自分で音声認識システムを作ってみたい人
著者について
高島遼一
2013年神戸大学大学院システム情報学研究科博士後期課程修了(博士(工学))。2011年4月~2013年3月日本学術振興会特別研究員(DC2)。2013年4月に(株)日立製作所研究開発グループに入社し、装置の異常検知や音声認識のための雑音除去など、音声・音響信号処理に関する研究開発に従事。2016年10月~2018年9月に国立研究開発法人情報通信研究機構へ出向し、音声認識に関する研究開発に従事。2019年4月より神戸大学都市安全研究センター兼同大学院システム情報学研究科准教授に着任。現在、音声認識を始めとした音声処理・機械学習技術とその福祉分野への応用に関する研究に従事。
目次
本書の前提
目次
序章
第1章 音声認識とは?
- 第1節 音声認識とは? どんなことに使える?
- 第2節 音声を認識するとは?─音声認識のしくみ─
- 第3節 本書の目的と構成
第2章 音声認識の基礎知識
- 第1節 音声認識と確率
- 第2節 音声認識の問題を数式で定義する
- 第3節 テキストの種類と発音辞書-音素・かな・文字・単語-
- 第4節 2種類の音声認識実験
- 第5節 音声認識実験の大まかな流れ
第3章 音声処理の基礎と特徴量抽出
- 第1節 データの準備
- 第2節 音声ファイルを読み込んでみよう
- 第3節 フーリエ変換を使って音声を周波数分解しよう
- 第4節 音声を短時間フーリエ変換してスペクトログラムを作成しよう
- 第5節 対数メルフィルタバンク特徴量
- 第6節 メル周波数ケプストラム特徴量
- 第7節 特徴量の平均と標準偏差を計算してみよう
第4章 音声認識の初歩-DPマッチング-
- 第1節 音声認識につきまとう、アライメント問題
- 第2節 DPマッチング
- 第3節 DPマッチングを実装してみよう
第5章 GMM-HMMによる音声認識
- 第1節 テンプレートから分布と尤度という考え方へ
- 第2節 正規分布と最尤推定法によるパラメータ推定
- 第3節 混合正規分布(GMM)とEMアルゴリズム
- 第4節 隠れマルコフモデル(HMM)
- 第5節 GMM-HMMを実装してみよう
第6章 DNN-HMMによる音声認識
- 第1節 分布からディープニューラルネットワークへ
- 第2節 ディープニューラルネットワーク
- 第3節 DNNとHMMを組み合わせたDNN-HMMハイブリッドシステム
- 第4節 DNN-HMMをPythonとPytorchで実装してみよう
- 第5節 HMMベース方式における大語彙連続音声認識
第7章 End-to-Endモデルによる連続音声認識
- 第1節 ハイブリッドシステムからフルニューラルネットワークモデルへ
- 第2節 リカレントニューラルネットワーク
- 第3節 Connectionist temporal classification(CTC)
- 第4節 CTCをPythonとPytorchで実装してみよう
- 第5節 Attention encoder-decoderモデル
- 第6節 AttentionモデルをPythonとPytorchで実装してみよう
- 第7節 その他のテクニックと音声認識モデル
- 第8節 参考文献