関連サイト
本書の関連ページが用意されています。
内容紹介
社会の中で日々蓄積されていく電子データの多くは自然言語で書かれたテキストであり、情報社会の伝達手段や知識源として使われている。 これらの情報をデータベースとして整理・構造化し、活用するには、拡散した情報を適切に抽出し関係づける必要がある。このプロセスを(半)自動化する技術が「情報抽出」である。その際、各分野固有の自然言語表現をいかに的確にとらえて関係づけるかが重要となる。 本書では、固有表現抽出技術と、固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。
書誌情報
- 著者: 岩倉 友哉, 関根 聡
- 発行日: 2020-03-31 (紙書籍版発行日: 2020-03-31)
- 最終更新日: 2020-03-31
- バージョン: 1.0.0
- ページ数: 140ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: 近代科学社
対象読者
AI,人工知能,自然言語処理,非構造データ,情報抽出,固有表現抽出,関係抽出,情報抽出器,機械学習,ルールベース,コーパス,アノテーション,リカレントニューラルネットワーク,LSTM,素性ベクトル,半教師あり学習,パーセプトロンに興味がある人
著者について
岩倉 友哉
2003年 株式会社富士通研究所
2011年 東京工業大学大学院総合理工学研究科物理情報システム専攻博士課程修了 博士(工学)
2015年− 株式会社富士通研究所 主任研究員
2018年− 理化学研究所革新知能統合研究センター ユニットリーダー
関根 聡
1992年 英国マンチェスター大学計算言語学部修士号
1998年 ニューヨーク大学コンピューターサイエンス学部博士号
1998−2007年 ニューヨーク大学研究助教授
2000年− ランゲージクラフト設立
2007年− ニューヨーク大学研究准教授
2010−2014年 楽天技術研究所ニューヨーク所長
2017年− 理化学研究所革新知能統合研究センター チームリーダー
その他,松下電業産業株式会社(現パナソニック),ソニーCSL,マイクロソフト研究所などでの研究職を歴任.技術顧問企業多数.
目次
まえがき
第1章 情報抽出
第2章 情報抽出のためのコーパス作成
- 2.1 固有表現と関係の定義
- 2.2 アノテーションの実施
- 2.3 アノテーションの誤り・漏れの影響
- 2.4 アノテーションの品質改善
- 2.5 アノテーション実施時の注意点
第3章 固有表現抽出
- 3.1 辞書による固有表現抽出
- 3.2 ルールベースによる固有表現抽出
- 3.3 機械学習による固有表現抽出のための準備
- 3.3.1 機械学習による固有表現抽出のためのクラスラベル定義22
- 3.3.2 教師データからのラベル付き単語列への変換
- 3.4 機械学習による単語分類による固有表現抽出
- 3.4.1 学習事例から素性ベクトルの生成
- 3.4.2 固有表現抽出のための分類器の学習
- 3.4.3 抽出
- 3.5 線形構造学習による固有表現抽出
- 3.5.1 学習事例の定義
- 3.5.2 素性ベクトルの生成
- 3.5.3 抽出・学習
- 3.6 セミマルコフモデルによる固有表現抽出
- 3.6.1 学習事例の定義
- 3.6.2 素性ベクトルへの変換
- 3.6.3 抽出・学習
- 3.7 リカレントニューラルネットワークによる固有表現抽出
- 3.7.1 単語分散表現
- 3.7.2 LSTM
- 3.7.3 LSTM による固有表現抽出のための入力生成
- 3.7.4 LSTM によるエンコード
- 3.7.5 出力層の計算
- 3.7.6 学習
第4章 関係抽出
- 4.1 ルールベースによる関係抽出
- 4.2 機械学習のための関係クラスラベルの定義
- 4.3 機械学習を用いた分類による関係抽出
- 4.3.1 素性ベクトルヘの変換
- 4.3.2 学習
- 4.3.3 抽出
- 4.3.4 機械学習による関係抽出の利点・欠点
- 4.4 構造学習による関係抽出
- 4.4.1 学習事例の定義
- 4.4.2 素性ベクトルへの変換
- 4.4.3 抽出・学習
- 4.5 リカレントニューラルネットワークによる単語列を用いた関係抽出
- 4.5.1 入力の生成
- 4.5.2 LSTM によるエンコード
- 4.5.3 注意機構の計算
- 4.5.4 出力層の計算
- 4.5.5 学習
- 4.6 リカレントニューラルネットワークによる最短依存構造パスを用いた関係抽出
- 4.6.1 LSTM による関係抽出の入力の生成
- 4.6.2 LSTM によるエンコード
- 4.6.3 出力層の計算
- 4.6.4 学習
第5章 評価方法
- 5.1 評価のためのデータの準備
- 5.2 固有表現抽出の評価方法
- 5.3 関係抽出の評価
付録
- A.1 固有表現抽出・関係抽出のコーパス
- A.1.1 固有表現抽出のコーパス
- A.1.2 関係抽出コーパス
- A.2 固有表現抽出の補足
- A.2.1 固有表現表現のチャンク表現方法
- A.2.2 固有表現抽出における適切なラベル列の逐次的決定方法95
- A.2.3 固有表現タグ付きテキストからの変換処理
- A.2.4 単語と固有表現境界が一致しない場合の変換処理
- A.2.5 単語の一部が固有表現となる場合の抽出方法
- A.2.6 その他の固有表現抽出方法
- A.3 関係抽出の付録
- A.3.1 固有表現の制約を用いた関係クラスの制限
- A.3.2 その他の関係抽出手法
- A.4 情報抽出における複数タスクの学習
- A.4.1 同時学習
- A.4.2 マルチタスク学習
- A.5 情報抽出におけるラベルなしテキストの利用
- A.5.1 固有表現抽出のための半教師あり学習
- A.5.2 関係抽出のための半教師あり学習
- A.5.3 Distant Supervison
- A.5.4 事前学習
- A.6 固有表現抽出の実装に向けて
- A.6.1 固有表現抽出におけるパーセプトロンの学習の動作例. 106
- A.6.2 線形構造化パーセプトロンの動作・実装例
- A.6.3 セミマルコフパーセプトロンの動作・実装例