関連サイト
本書の関連ページが用意されています。
内容紹介
機械学習の考え方とRの活用をわかりやすく解説!
Rは、統計解析のためのプログラミング言語・開発環境であり、機械学習で利用できるライブラリが数多く提供されています。膨大なデータの処理よりもプロトタイピングや検証に適しており、先進IT企業では、あるモデルでうまく動作するかを判断するため、まずRでプロトタイプを作成・確認するというケースもあります。本書ではまず、機械学習の考え方や、その基礎となる統計をわかりやすく説明します。それを踏まえて、代表的な機械学習の理論を押さえながら、Rのさまざまな活用法を解説します。本書を読んで、Rによる機械学習の試行や検証を始めてみましょう。
◇以下「はじめに」より抜粋・要約◇
筆者は、これまで2年以上にわたって、オープンソースの統計解析ソフトウェア「R(アール)」を用いた機械学習のセミナーを実施してきました。いつも参加者は満員となり、ニーズの高さを実感しています。Rの場合、何ギガバイトもの膨大なデータ量を処理することにはあまり適していません。むしろ、重要なのは、Rの特性を見極め、どのような機械学習の局面でどのように活用するか、にあると言えます。それが本書のコンセプトであり、代表的な機械学習の理論を押さえながら、Rによる実践について解説します。2年間のセミナーのなかで、受講者の皆様から、わかりにくいポイント、現場で利用するためのポイントなど、様々なフィードバックやリクエストをいただき、本書に反映しました。したがって本書は、実際の現場で利用されるデータサイエンティスト、これからRで機械学習の実施を検討される技術者の方などにお勧めできます。
書誌情報
- 著者: 長橋賢吾
- 発行日: 2017-09-08 (紙書籍版発行日: 2017-09-08)
- 最終更新日: 2017-09-08
- バージョン: 1.0.0
- ページ数: 344ページ(PDF版換算)
- 対応フォーマット: EPUB
- 出版社: インプレス
対象読者
実際の現場でRを利用されるデータサイエンティスト、Rによる機械学習を検討される技術者、プロトタイピングや検証を手軽に行いたい方、Rで機械学習を試してみたい方
著者について
長橋賢吾
フューチャーブリッジパートナーズ株式会社代表取締役、株式会社アプリックス代表取締役兼取締役社長。慶應義塾大学環境情報学部卒業。同大学院政策・メディア研究科修了、2005年東京大学大学院情報理工学研究科修了。博士(情報理工学)。英国ケンブリッジ大学コンピュータ研究所訪問研究員を経て、2006年日興シティグループ証券(現シティグループ証券)にてITサービス・ソフトウェア担当の証券アナリストとして勤務したのち、2009年3月にフューチャーブリッジパートナーズ株式会社を設立。経営の視点から、企業戦略の策定、経営管理、IR支援、M&A、資金調達、データ活用を実施する。2014年12月より株式会社インプレスと共同で「データサイエンス基礎講座」を開催。広い視点でわかりやすい講習指導をモットーとし、どの回も満席の好評を得る。
共著に「使って学ぶIPv6」(アスキー、2002年4月)、著書に「これならわかるネットワーク―インターネットはなぜつながるのか?(ブルーバックス)」(講談社、2008年5月)、「図解入門 ビジネス最新ネット企業の新技術と戦略がよ~くわかる本」(秀和システム、2011年9月)、「ビッグデータ戦略」(秀和システム、2012年3月)、「図解スマートフォンビジネスモデル」(秀和システム、2012年9月)、「システム開発は絶滅危惧業種になってしまうのか? アジャイル的50の生き残り術」(秀和システム、2014年5月)、「図解入門ビジネス FinTechの基本と仕組みがよ~くわかる本」(秀和システム、2016年12月)などがある。
目次
商標と正誤について
はじめに
本書について
第1章 Rと機械学習の基礎
- 1-1 機械学習とは何か?
- 1-1-1 機械学習の4つのモデル
- 1-1-2 機械学習活用 虎の巻
- 1-1-3 モデルの組み合わせによるデータ分析
- 1-2 Rとは何か?
- 1-2-1 機械学習を実現するソフトウェア・プラットフォーム
- 1-2-2 RとPythonの違い
- 1-2-3 Rの限界
- 1-3 Rのインストールと利用前の設定
- 1-3-1 Rのダウンロード
- 1-3-2 Rのインストール
- 1-3-3 Rの起動
- 1-4 Rの基本的な利用方法
- 1-4-1 Rのコンソール
- 1-4-2 変数の利用
- 1-4-3 グラフの描画
- 1-4-4 ファイルの読み込み
- 1-4-5 変数の概要を把握する
- 1-5 Rを使った統計量とデータの把握
- 1-5-1 平均・分散・標準偏差
- 1-5-2 Rスクリプトの利用
- 1-5-3 ヒストグラムを作成する
- 1-5-4 正規分布の考え方
- 1-5-5 t分布
- 1-5-6 指数の表示
- 1-5-7 Rの変数の型
- 1-5-8 クロス集計
- 1-6 第1章のまとめ:マスターすべきポイント
- 1-6-1 [機械学習]次へのステップ
- コラム 統計本を読む3つのコツ
第2章 回帰分析で目的変数の値や発生確率を予測
- 2-1 単回帰分析
- 2-1-1 回帰分析の4つのステップ
- 2-1-2 ステップ1:データの準備ならびに目的変数、説明変数の決定
- 2-1-3 ステップ2:回帰モデルの生成ならびに結果の検討
- 2-1-4 ステップ3:モデルをもとに値を予測する
- 2-1-5 ステップ4:信頼区間と予測区間を求める
- 2-2 重回帰分析
- 2-2-1 相関行列をCSVに書き出す
- 2-2-2 重回帰分析のモデル作成
- 2-2-3 説明変数を減らすアプローチ
- 2-3 ロジスティック回帰分析
- 2-3-1 ロジスティック回帰モデルの作成
- 2-3-2 ロジスティック回帰の結果の見方
- 2-3-3 オッズ比の推定
- 2-3-4 機械学習としてのロジスティック回帰
- 2-3-5 誤検知率の算出
- 2-3-6 AICによる説明変数の削除
- 2-4 ポアソン回帰
- 2-4-1 ポアソン分布を求める
- 2-4-2 ポアソン回帰とは?
- 2-4-3 ポアソン回帰モデルの生成
- 2-4-4 AICによる目的変数の削減
- 2-5 第2章のまとめ:マスターすべきポイント
- 2-5-1 [回帰分析]次へのステップ
- コラム 回帰分析の実際のビジネスへの応用
第3章 クラスタリング分析の3つの手法でデータを分類
- 3-1 クラスタリングの3つの手法
- 3-2 階層化クラスタリング
- 3-2-1 ユークリッド距離で似た者同士をまとめる
- 3-2-2 ユークリッド距離をもとにグループに分割
- 3-2-3 クラスタリングの併合過程
- 3-2-4 樹系図をプロットする
- 3-2-5 クラスターの距離の計算
- 3-2-6 各クラスターの形成過程
- 3-2-7 完全連結法によるクラスタリング形成過程
- 3-2-8 各計算手法による樹系図
- 3-2-9 階層化クラスタリングのまとめ
- 3-3 非階層化クラスタリングとk平均法
- 3-3-1 k平均法によるクラスター形成
- 3-3-2 kmeansによるクラスタリング
- 3-3-3 k平均法での結果のプロット
- 3-3-4 ギャップ統計量で妥当なクラスター数を予測する
- 3-3-5 機械学習としてのk平均法
- 3-3-6 k平均法の実行とプロット
- 3-3-7 シルエット分析
- 3-3-8 k平均法のまとめ
- 3-4 モデルベースクラスタリング
- 3-4-1 EMアルゴリズムについて
- 3-4-2 モデルベースクラスタリングのまとめ
- 3-5 第3章のまとめ:マスターすべきポイント
- 3-5-1 [クラスタリング分析]次へのステップ
- コラム クラスタリングの応用
第4章 主成分分析・因子分析で属性を削減し因子を特定
- 4-1 主成分分析とは?
- 4-1-1 主成分分析のステップ
- 4-1-2 機械学習としての主成分分析
- 4-1-3 主成分分析のまとめ
- 4-2 因子分析
- 4-2-1 固有値と固有ベクトルを求める
- 4-2-2 factanalによる因子分析
- 4-2-3 回転による因子負荷量の違い
- 4-2-4 因子分析のまとめ
- 4-3 第4章のまとめ:マスターすべきポイント
- 4-3-1 [主成分分析]次へのステップ
- コラム 主成分分析とフランス印象派
第5章 アソシエーション分析で関連性がある物事を見極める
- 5-1 アソシエーション分析に使われるアソシエーション・ルールとは
- 5-1-1 アソシエーション・ルールの考え方
- 5-2 arulesによるアソシエーション分析
- 5-2-1 支持度、確信度、リフト値
- 5-2-2 アソシエーション・ルールの抽出
- 5-2-3 アソシエーション・ルールの可視化
- 5-2-4 アソシエーション・ルールのクラスタリング分析
- 5-3 第5章のまとめ:マスターすべきポイント
- コラム アソシエーション分析の応用
第6章 サポートベクターマシンでクラス分類
- 6-1 線引きによるクラス分類
- 6-1-1 サポートベクターマシンの仕組み
- 6-1-2 Rによるサポートベクターマシン
- 6-2 カーネル法
- 6-2-1 線形分離の限界
- 6-2-2 カーネル関数
- 6-2-3 ハードマージンとソフトマージン
- 6-3 サポートベクターマシンによる機械学習
- 6-3-1 サポートベクターマシンによるクラス分類の流れ
- 6-3-2 サポートベクターマシンによる多クラス識別
- 6-4 第6章のまとめ:マスターすべきポイント
- 6-4-1 [サポートベクターマシン]次へのステップ
- コラム 1クラスサポートベクターマシン
第7章 アンサンブル学習と正則化―モデルの組み合わせと過学習の解決
- 7-1 過学習とは?
- 7-1-1 ノーフリーランチ定理
- 7-1-2 バイアス・バリアンス理論
- 7-1-3 過学習を抑える3つの方法
- 7-2 正則化
- 7-2-1 L1正則化とL2正則化
- 7-2-2 L1正則化
- 7-2-3 RによるL1正則化、L2正則化
- 7-2-4 glmnetによるL1正則化
- 7-2-5 L2正則化のプロット
- 7-2-6 λの分布を求める
- 7-3 アンサンブル学習
- 7-3-1 バイアスと両立させるアンサンブル学習
- 7-3-2 決定木によるアンサンブル学習
- 7-3-3 Rによる決定木の構築
- 7-3-4 ジニ不純度で決定木を分岐する
- 7-3-5 ジニ不純度のプロット
- 7-3-6 決定木分析と回帰分析
- 7-3-7 アンサンブル学習1:バギング
- 7-3-8 Rによるバギング
- 7-3-9 バギングのクラス判定ロジック
- 7-3-10 モデルの精度を検証
- 7-3-11 アンサンブル学習2:アダブースト
- 7-3-12 アダブーストでの処理の流れ
- 7-3-13 Rによるアダブースト
- 7-3-14 アダブーストとバギングのエラー率を求める
- 7-3-15 ランダムフォレスト
- 7-3-16 Rによるランダムフォレスト
- 7-3-17 ランダムフォレストで説明変数の重要度を表示
- 7-4 第7章のまとめ:マスターすべきポイント
- 7-4-1 [正則化・アンサンブル学習]次へのステップ
- コラム ランダムフォレストのひと手間
第8章 ベイズ推定とMCMC―事後確率や状態確率を求める
- 8-1 ベイズ推定と主観確率
- 8-1-1 通行人の性別予測の確率分布
- 8-1-2 ベイズ更新
- 8-1-3 ベイズ推定の仕組み
- 8-1-4 Rによる事前確率・事後確率
- 8-1-5 回数を変えた場合の確率分布
- 8-1-6 回数固定で発生確率を変えた場合の確率分布
- 8-1-7 ベータ分布
- 8-1-8 事前分布、尤度関数から事後分布を求める
- 8-2 MCMCの導入
- 8-2-1 モンテカルロ法
- 8-2-2 マルコフ連鎖とMCMC
- 8-2-3 Rによる推移確率
- 8-2-4 マルコフ連鎖の斉次性
- 8-2-5 マルコフ連鎖の不変分布
- 8-3 Stanを利用したベイズ推定
- 8-3-1 Stanのインストール
- 8-3-2 Stanによるモデル設計・分析
- 8-4 第8章のまとめ:マスターすべきポイント
- 8-4-1 [ベイズ推定とMCMC]次へのステップ
- コラム ネットと相性が良いベイズ推定
第9章 ニューラルネットワークとディープラーニング
- 9-1 ニューラルネットとは?
- 9-1-1 パーセプトロンとは?
- 9-1-2 活性化関数によるクラス識別
- 9-1-3 多層パーセプトロン
- 9-2 ディープラーニングとニューラルネットワークの手法
- 9-2-1 ドロップアウト
- 9-2-2 neuralnetパッケージによるニューラルネットワーク
- 9-2-3 損失関数
- 9-2-4 勾配降下法
- 9-2-5 確率的勾配降下法
- 9-2-6 ディープラーニング
- 9-2-7 h2oによるモデルの作成
- 9-2-8 h2oパッケージによる予測
- 9-3 第9章のまとめ:マスターすべきポイント
- 9-3-1 [ニューラルネットワークとディープラーニング]次へのステップ
- コラム 畳み込みニューラルネットワーク