ギフトで購入

実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装

工藤拓

~~3,850円~~ 2,695円《特価》 → セールサイト

言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化等を扱いつつ、辞書やコーパスなどの言語資源の構築・利用についてもカバー。

内容紹介

本書は、汎用形態素解析システムMeCabを開発した著者が、言語において意味を成す最小の要素である「形態素」の解析方法について、技術者向けにその理論や実装方法を網羅的、体系的に解説する。実装や高速化なども扱う点がユニークであるが、辞書やコーパスなどの言語資源の構築・利用といった形態素解析では外せないテーマもきちんと解説している。

本書を読めば、解析ツールを「ブラックボックス」として使っている人も中身を理解したうえで拡張・改良できる道筋ができ、ひいては独自の辞書の作成を目指せるようになる。C++11を使った具体的な実装方法も掲載。AI・自然言語処理関係の技術者、研究者には必携の書である。

書誌情報

著者: 工藤拓
発行日: 2018-09-30 (紙書籍版発行日: 2018-09-30)
最終更新日: 2018-09-30
バージョン: 1.0.0
ページ数: 207ページ(PDF版換算)
対応フォーマット: PDF
出版社: 近代科学社

対象読者

形態素解析,MeCab,辞書,自然言語処理システム,コーパス,テキスト処理,文字コード,辞書引きアルゴリズム,最小コスト法,点予測,未知語処理,未知語,評価,解析に興味がある人

著者について

工藤拓

1999 年　京都大学工学部電気電子工学科卒業
2001 年　奈良先端科学技術大学院大学情報科学研究科博士前期課程修了
2004 年　奈良先端科学技術大学院大学情報科学研究科博士後期課程修了（工学博士）
2004 年　NTT コミュニケーション科学基礎研究所リサーチアソシエイト
2005 年　Google 合同会社ソフトウェアエンジニア
現在に至る

1.1 形態素解析
1.2 実践MeCab：インストールと実行
1.3 主な形態素解析・単語分割システム
1.3.1 JUMAN
1.3.2 ChaSen
1.3.3 MeCab
1.3.4 KyTea
1.3.5 Sudachi
1.3.6 ウェブサービスとしての形態素解析
1.3.7 ブラウザ上で動く単語分割
1.3.8 SentencePiece
1.4 まとめ

第2章言語資源

2.1 辞書
2.1.1 自然言語処理システムにおける辞書
2.1.2 辞書を使うか使わないか
2.1.3 品詞
2.1.4 可能性に基づく品詞体系
2.1.5 活用
2.1.6 動的活用展開と静的活用展開
2.1.7 超短単位
2.2 コーパス
2.2.1 生コーパス
2.2.2 注釈付きコーパス
2.3 形態素解析のための辞書
2.3.1 JUMAN 辞書
2.3.2 ipadic
2.3.3 NAIST-jdic
2.3.4 UniDic
2.3.5 NEologd
2.4 形態素解析のための注釈付きコーパス
2.4.1 京都大学テキストコーパス・KNB/KWDLC コーパス
2.4.2 RWC コーパス
2.4.3 現代日本語書き言葉均衡コーパス(BCCWJ)
2.4.4 日本語話し言葉コーパス(CSJ)
2.5 辞書の選び方
2.5.1 最適な辞書は応用ごとに変わる
2.5.2 単語長
2.5.3 何の曖昧性を解消しようとしているのか?
2.6 まとめ

第3章テキスト処理の基礎

3.1 文字コード
3.2 Unicode とUTF-8
3.3 UCS 正規化とCSI
3.4 UTF-8 によるUCS正規化
3.5 文字種の判定
3.6 文字の正規化
3.7 波ダッシュ，全角チルダ問題
3.8 まとめ

第4章辞書引きアルゴリズム

4.1 辞書引きの難しさ
4.2 擬似トライ
4.3 共通接頭辞検索とトライ
4.4 ダブル配列
4.4.1 ダブル配列による共通接頭辞検索
4.4.2 ダブル配列の圧縮
4.4.3 ダブル配列の構築
4.4.4 Darts-clone を用いた辞書引きの具体例
4.5 メモリマップトファイル
4.6 辞書のみを用いた単語分割法：最長一致法
4.7 まとめ

第5章最小コスト法

5.1 ラティス
5.2 生起コストと連接コスト
5.3 ビタビアルゴリズム
5.4 最小コスト法の例：MeCab
5.5 コスト推定法
5.5.1 人手によるコスト設定
5.5.2 隠れマルコフモデル
5.5.3 拡張隠れマルコフモデル
5.5.4 構造学習
5.5.5 構造学習の例：MeCab
5.5.6 パーセプトロンによる学習
5.5.7 目的関数と最適化
5.5.8 構造化サポートベクトルマシン
5.5.9 条件付き確率場
5.5.10 パーセプトロンと条件付き確率場の関係
5.5.11 事前計算による高速化
5.5.12 正則化
5.6 選択的トライグラム
5.7 連語登録
5.8 高速化のための工夫
5.8.1 ゼロコピー
5.8.2 メモリプールによるノードの管理
5.8.3 連接表の実装
5.9 まとめ

第6章点予測

6.1 点予測による単語分割
6.2 点予測による品詞推定
6.3 点予測の特徴
6.3.1 実装の容易さと頑健性
6.3.2 不完全な入力からの解析
6.3.3 言語資源の有効活用
6.3.4 単語長による影響
6.3.5 辞書の役割
6.3.6 分割の一貫性
6.4 構造学習による点予測の学習
6.5 まとめ

第7章未知語処理

7.1 未知語
7.2 解析時未知語処理
7.2.1 最小コスト法における解析時未知語処理
7.2.2 解析時未知語処理の例：MeCab
7.2.3 既知語から派生した未知語の自動認識
7.2.4 点予測における解析時未知語処理
7.2.5 未知語処理の学習
7.3 辞書拡充
7.4 新語のコスト推定
7.5 まとめ

第8章評価

8.1 分割正解率
8.2 精度・再現率・F 値
8.3 品詞出力の評価
8.4 分割の一貫性
8.5 回帰評価
8.6 mecab-system-eval を用いた評価
8.7 まとめ

第9章高度な解析

9.1 n-best 解析
9.1.1 n-best 解析の例：MeCab
9.1.2 最小コスト法におけるn-best 解析
9.1.3 点予測法におけるn-best 解析
9.2 ソフト分かち書き
9.2.1 ソフト分かち書きの例：MeCab
9.2.2 最小コスト法におけるソフト分かち書き
9.2.3 点予測法におけるソフト分かち書き
9.3 制約付き解析
9.3.1 制約付き解析の例：MeCab
9.3.2 最小コスト法における制約付き解析
9.3.3 点予測法における制約付き解析
9.4 部分注釈付きコーパスからの学習
9.4.1 最小コスト法における部分注釈からの学習
9.4.2 点予測法における部分注釈からの学習
9.5 まとめ

付録

A.1 条件付き確率場の勾配の導出方法

A.2 logsumexp

参考文献

索引

Home 〉書籍一覧〉実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装 ▲ ページトップへ戻る

実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装

関連サイト

内容紹介

書誌情報

対象読者

著者について

工藤拓

目次

まえがき

第1章形態素解析の概要

第2章言語資源

第3章テキスト処理の基礎

第4章辞書引きアルゴリズム

第5章最小コスト法

第6章点予測

第7章未知語処理

第8章評価

第9章高度な解析

付録

A.1 条件付き確率場の勾配の導出方法

A.2 logsumexp

参考文献

索引

実践・自然言語処理シリーズ 第2巻 形態素解析の理論と実装

関連サイト

内容紹介

書誌情報

対象読者

著者について

工藤 拓

目次

まえがき

第1章 形態素解析の概要

第2章 言語資源

第3章 テキスト処理の基礎

第4章 辞書引きアルゴリズム

第5章 最小コスト法

第6章 点予測

第7章 未知語処理

第8章 評価

第9章 高度な解析

付録

A.1 条件付き確率場の勾配の導出方法

A.2 logsumexp

参考文献

索引

実践・自然言語処理シリーズ第2巻　形態素解析の理論と実装

工藤拓

第1章形態素解析の概要

第2章言語資源

第3章テキスト処理の基礎

第4章辞書引きアルゴリズム

第5章最小コスト法

第6章点予測

第7章未知語処理

第8章評価

第9章高度な解析