ギフトで購入

実践・自然言語処理シリーズ第4巻　情報抽出・固有表現抽出のための基礎知識

岩倉友哉, 関根聡

近代科学社

3,300円 (3,000円+税)

自然言語テキストを抽出・活用！本シリーズ第4巻に位置付けられる書。本書では、固有表現抽出技術と，固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。

【注意】本書のEPUB版は固定レイアウト型になっております。文字の大きさの変更や検索、引用などはお使いいただけません。画面の大きい端末でご利用ください。

内容紹介

社会の中で日々蓄積されていく電子データの多くは自然言語で書かれたテキストであり、情報社会の伝達手段や知識源として使われている。これらの情報をデータベースとして整理・構造化し、活用するには、拡散した情報を適切に抽出し関係づける必要がある。このプロセスを（半）自動化する技術が「情報抽出」である。その際、各分野固有の自然言語表現をいかに的確にとらえて関係づけるかが重要となる。本書では、固有表現抽出技術と、固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。

書誌情報

著者: 岩倉友哉, 関根聡
発行日: 2020-03-31 (紙書籍版発行日: 2020-03-31)
最終更新日: 2020-03-31
バージョン: 1.0.0
ページ数: 140ページ(PDF版換算)
対応フォーマット: PDF, EPUB
出版社: 近代科学社

対象読者

AI,人工知能,自然言語処理,非構造データ,情報抽出,固有表現抽出,関係抽出,情報抽出器,機械学習,ルールベース,コーパス,アノテーション,リカレントニューラルネットワーク,LSTM,素性ベクトル,半教師あり学習,パーセプトロンに興味がある人

著者について

岩倉友哉

2003年　株式会社富士通研究所
2011年　東京工業大学大学院総合理工学研究科物理情報システム専攻博士課程修了　博士（工学）
2015年− 株式会社富士通研究所主任研究員
2018年− 理化学研究所革新知能統合研究センター　ユニットリーダー

関根聡

1992年　英国マンチェスター大学計算言語学部修士号
1998年　ニューヨーク大学コンピューターサイエンス学部博士号
1998−2007年ニューヨーク大学研究助教授
2000年− ランゲージクラフト設立
2007年− ニューヨーク大学研究准教授
2010−2014年　楽天技術研究所ニューヨーク所長
2017年− 理化学研究所革新知能統合研究センター　チームリーダー
その他，松下電業産業株式会社（現パナソニック），ソニーCSL，マイクロソフト研究所などでの研究職を歴任．技術顧問企業多数．

3.1 辞書による固有表現抽出
3.2 ルールベースによる固有表現抽出
3.3 機械学習による固有表現抽出のための準備
3.3.1 機械学習による固有表現抽出のためのクラスラベル定義22
3.3.2 教師データからのラベル付き単語列への変換
3.4 機械学習による単語分類による固有表現抽出
3.4.1 学習事例から素性ベクトルの生成
3.4.2 固有表現抽出のための分類器の学習
3.4.3 抽出
3.5 線形構造学習による固有表現抽出
3.5.1 学習事例の定義
3.5.2 素性ベクトルの生成
3.5.3 抽出・学習
3.6 セミマルコフモデルによる固有表現抽出
3.6.1 学習事例の定義
3.6.2 素性ベクトルへの変換
3.6.3 抽出・学習
3.7 リカレントニューラルネットワークによる固有表現抽出
3.7.1 単語分散表現
3.7.2 LSTM
3.7.3 LSTM による固有表現抽出のための入力生成
3.7.4 LSTM によるエンコード
3.7.5 出力層の計算
3.7.6 学習

第4章関係抽出

4.1 ルールベースによる関係抽出
4.2 機械学習のための関係クラスラベルの定義
4.3 機械学習を用いた分類による関係抽出
4.3.1 素性ベクトルヘの変換
4.3.2 学習
4.3.3 抽出
4.3.4 機械学習による関係抽出の利点・欠点
4.4 構造学習による関係抽出
4.4.1 学習事例の定義
4.4.2 素性ベクトルへの変換
4.4.3 抽出・学習
4.5 リカレントニューラルネットワークによる単語列を用いた関係抽出
4.5.1 入力の生成
4.5.2 LSTM によるエンコード
4.5.3 注意機構の計算
4.5.4 出力層の計算
4.5.5 学習
4.6 リカレントニューラルネットワークによる最短依存構造パスを用いた関係抽出
4.6.1 LSTM による関係抽出の入力の生成
4.6.2 LSTM によるエンコード
4.6.3 出力層の計算
4.6.4 学習

第5章評価方法

5.1 評価のためのデータの準備
5.2 固有表現抽出の評価方法
5.3 関係抽出の評価

付録

A.1 固有表現抽出・関係抽出のコーパス
A.1.1 固有表現抽出のコーパス
A.1.2 関係抽出コーパス
A.2 固有表現抽出の補足
A.2.1 固有表現表現のチャンク表現方法
A.2.2 固有表現抽出における適切なラベル列の逐次的決定方法95
A.2.3 固有表現タグ付きテキストからの変換処理
A.2.4 単語と固有表現境界が一致しない場合の変換処理
A.2.5 単語の一部が固有表現となる場合の抽出方法
A.2.6 その他の固有表現抽出方法
A.3 関係抽出の付録
A.3.1 固有表現の制約を用いた関係クラスの制限
A.3.2 その他の関係抽出手法
A.4 情報抽出における複数タスクの学習
A.4.1 同時学習
A.4.2 マルチタスク学習
A.5 情報抽出におけるラベルなしテキストの利用
A.5.1 固有表現抽出のための半教師あり学習
A.5.2 関係抽出のための半教師あり学習
A.5.3 Distant Supervison
A.5.4 事前学習
A.6 固有表現抽出の実装に向けて
A.6.1 固有表現抽出におけるパーセプトロンの学習の動作例. 106
A.6.2 線形構造化パーセプトロンの動作・実装例
A.6.3 セミマルコフパーセプトロンの動作・実装例

参考文献

索引

Home 〉書籍一覧〉実践・自然言語処理シリーズ第4巻　情報抽出・固有表現抽出のための基礎知識 ▲ ページトップへ戻る

実践・自然言語処理シリーズ第4巻　情報抽出・固有表現抽出のための基礎知識

関連サイト

内容紹介

書誌情報