関連サイト
本書の関連ページが用意されています。
内容紹介
機械学習システム構築で経験を積んだ先鋭たちによる執筆! MLワークフローの基礎と実践ノウハウを解説―本書の中心テーマは、理論や数式、コーディングではありません。機械学習ワークフローにおける作業の基礎と応用について解説します。
ワークフローはプロジェクト全体の流れを形作るものであり、成果物としてよりよいシステムの構築を目的とします。本書の前半は、ビジネス上の機械学習の利点や課題のほか、データの収集/整備、モデルの構築/評価/最適化など各作業の基本的な考え方を説明。後半は、実データによるケーススタディや予測スループットの改善、大容量データへの対応など応用力の強化を目的に解説します。機械学習ワークフローの全容を見通したい方、改めて理解しておきたい方などにお勧めの一冊です。
―原著への読者の声―「よく書かれたオリジナルな本」「データと機械学習のベストプラクティスを提示」―
※本書は『Real-World Machine Learning』の翻訳書です。Pythonについては一定の知識がある方を想定しています。
書誌情報
- 著者: Henrik Brink, Joseph W. Richards, Mark Fetherolf(著), 株式会社クイープ(訳)
- ページ数: 328ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
機械学習システムの構築に興味のある技術者や研究者/学生。プログラマー、データアナリスト、データサイエンティスト。
著者について
Henrik Brink
ビジネスとアカデミックの両方で機械学習の実装経験を幅広く積んだデータサイエンティスト兼ソフトウェア開発者。
Joseph W. Richards
応用統計学と予測分析を専門としているシニアデータサイエンティスト。HenrikとJosephは、機械学習ソリューションを提供するwise.ioの開発リーダー兼共同創設者。
Mark Fetherolf
データマネジメントと予測分析を手掛けるNuminary Data Scienceの創設者兼プレジデント。以前は、統計学者および分析データベース開発者として、化学エンジニアリング、ケーブルテレビ、オンライン広告アプリなどさまざまな分野の企業に勤務。
株式会社クイープ
1995年、米国サンフランシスコに設立。コンピュータシステムの開発、ローカライズ、コンサルティングを手がけている。2001年に日本法人を設立。主な訳書に『TensorFlow機械学習クックブック Pythonベースの活用レシピ60+』『Python機械学習プログラミング 達人データサイエンティストによる理論と実践』『Scala関数型デザイン&プログラミング―Scalazコントリビューターによる関数型徹底ガイド』『CUDA Cプロフェッショナルプログラミング』などがある(いずれもインプレス発行)。www.quipu.co.jp
目次
本書に寄せて
まえがき
謝辞
はじめに
PartⅠ 機械学習ワークフローの基礎
第1章 機械学習とは何か—長所と課題、データ収集から運用までのステップ、性能の改善
- 1.1 機械学習の仕組みを理解する
- 1.2 データに基づく意思決定
- 1.2.1 従来のアプローチ
- 1.2.2 機械学習のアプローチ
- 1.2.3 機械学習の5つの利点
- 1.2.4 機械学習の課題
- 1.3 機械学習ワークフロー:データから展開まで
- 1.3.1 データの収集と準備
- 1.3.2 データからモデルを学習する
- 1.3.3 モデルの性能を評価する
- 1.3.4 モデルの性能を最適化する
- 1.4 高度な手法を使ってモデルの性能を改善する
- 1.4.1 データの前処理と特徴エンジニアリング
- 1.4.2 オンライン学習を使ってモデルを継続的に改善する
- 1.4.3 データのサイズと発生量に基づくモデルのスケーリング
- 1.5 まとめ
- 1.6 本章のキーワード
第2章 現実世界のデータ—データの取得/整備、可視化
- 2.1 機械学習に取り組むための準備:データの収集
- 2.1.1 トレーニングセットに追加すべき入力特徴量はどれか
- 2.1.2 目的変数のグラウンドトルースを取得するにはどうすればよいか
- 2.1.3 トレーニングデータの量はどれくらい必要か
- 2.1.4 トレーニングセットの典型性は十分か
- 2.2 機械学習モデルを構築するためのデータの前処理
- 2.2.1 カテゴリ値の特徴量
- 2.2.2 欠測値への対処
- 2.2.3 単純な特徴エンジニアリング
- 2.2.4 データの正規化
- 2.3 データビジュアライゼーションの使用
- 2.3.1 モザイク図
- 2.3.2 箱ひげ図
- 2.3.3 密度図
- 2.3.4 散布図
- 2.4 まとめ
- 2.5 本章のキーワード
第3章 モデルの構築と予測
- 3.1 基本的な機械学習モデルの構築
- 3.1.1 入力特徴量と目的変数の関係を突き止める
- 3.1.2 よいモデルを突き止めるために
- 3.1.3 モデル構築手法の種類
- 3.1.4 教師あり学習と教師なし学習
- 3.2 分類:カテゴリを予測する
- 3.2.1 分類器の構築と予測値の出力
- 3.2.2 複雑な非線形データの分類
- 3.2.3 複数のクラスに分類する
- 3.3 回帰:数値を予測する
- 3.3.1 回帰器の構築と予測値の出力
- 3.3.2 複雑な非線形データでの回帰
- 3.4 まとめ
- 3.5 本章のキーワード
第4章 モデルの評価と最適化
- 4.1 モデルの汎化:新しいデータでの予測性能の評価
- 4.1.1 問題:過学習と楽観的なモデル
- 4.1.2 解決策:交差検証
- 4.1.3 交差検証を使用するときの注意点
- 4.2 分類モデルの評価
- 4.2.1 クラスごとの正解率と混同行列
- 4.2.2 予測性能のトレードオフとROC曲線
- 4.2.3 多クラス分類モデルの評価
- 4.3 回帰モデルの評価
- 4.3.1 回帰モデルの単純な性能指標を使用する
- 4.3.2 残差を調べる
- 4.4 チューニングパラメータによるモデルの最適化
- 4.4.1 機械学習のアルゴリズムとチューニングパラメータ
- 4.4.2 グリッドサーチ
- 4.5 まとめ
- 4.6 本章のキーワード
第5章 特徴エンジニアリングの基礎
- 5.1 特徴エンジニアリングはなぜ有効なのか
- 5.1.1 特徴エンジニアリングとは何か
- 5.1.2 特徴エンジニアリングを使用する5つの理由
- 5.1.3 特徴エンジニアリングと専門知識
- 5.2 特徴エンジニアリングの基本的なプロセス
- 5.2.1 例:イベントレコメンデーション
- 5.2.2 日付と時刻の特徴量の処理
- 5.2.3 単純なテキスト特徴量の操作
- 5.3 特徴選択
- 5.3.1 変数増加法と変数減少法
- 5.3.2 データ探索のための特徴選択
- 5.3.3 例:現実世界での特徴選択
- 5.4 まとめ
- 5.5 本章のキーワード
PartⅡ 機械学習ワークフローの応用
第6章 NYCタクシーデータのケーススタディ
- 6.1 NewYorkCityTaxiTrips/Faresデータ
- 6.1.1 データを可視化する
- 6.1.2 問題を定義し、データを準備する
- 6.2 モデルの構築
- 6.2.1 基本的な線形モデル
- 6.2.2 非線形分類モデル
- 6.2.3 カテゴリ値の特徴量を使用する
- 6.2.4 日時を表す特徴量を使用する
- 6.2.5 モデルの知見
- 6.3 まとめ
- 6.4 本章のキーワード
第7章 高度な特徴エンジニアリング
- 7.1 高度なテキスト特徴量
- 7.1.1 BoWモデル
- 7.1.2 トピックモデルの構築
- 7.1.3 内容の拡張
- 7.2 画像特徴量/7.2.1 単純な画像特徴量
- 7.2.2 物体と形状を抽出する
- 7.3 時系列特徴量
- 7.3.1 2種類の時系列データ
- 7.3.2 時系列データでの予測
- 7.3.3 従来の時系列データの特徴量
- 7.3.4 イベントストリームの特徴エンジニアリング
- 7.4 まとめ
- 7.5 本章のキーワード
第8章 高度な自然言語処理の例—映画レビューの感情分析
- 8.1 データとユースケースを調べる
- 8.1.1 第一印象でのデータセット
- 8.1.2 データセットを調べる
- 8.1.3 ユースケースは何か
- 8.2 基本的なNLP特徴量の抽出と最初のモデルの構築
- 8.2.1 BoWの特徴量
- 8.2.2 ナイーブベイズアルゴリズムを使ってモデルを構築する
- 8.2.3 BoWの特徴量をTF-IDFアルゴリズムで正規化する
- 8.2.4 モデルのパラメータを最適化する
- 8.3 高度なアルゴリズムとモデルを展開するときの注意点
- 8.3.1 word2vecの特徴量
- 8.3.2 ランダムフォレストモデル
- 8.4 まとめ
- 8.5 本章のキーワード
第9章 機械学習ワークフローのスケーリング
- 9.1 スケールアップする前に
- 9.1.1 重要な側面を特定する
- 9.1.2 トレーニングデータのサブサンプリング
- 9.1.3 スケーラブルなデータ管理システム
- 9.2 機械学習モデル構築のスケーリング
- 9.2.1 機械学習アルゴリズムのスケーリング
- 9.3 予測値のスケーリング
- 9.3.1 予測値の量のスケーリング
- 9.3.2 予測値の速度のスケーリング
- 9.4 まとめ
- 9.5 本章のキーワード
第10章 デジタルディスプレイ広告のケーススタディ
- 10.1 ディスプレイ広告
- 10.2 デジタル広告データ
- 10.3 特徴エンジニアリングとモデル構築戦略
- 10.4 データのサイズと形状
- 10.5 特異値分解(SVD)
- 10.6 リソースの推測と最適化
- 10.7 モデルの構築
- 10.7.1 k最近傍法(KNN)
- 10.7.2 ランダムフォレスト
- 10.8 実際の環境に導入するときの注意点
- 10.9 まとめ
- 10.10 本章のキーワード
- 10.11 本書のまとめ