試験公開中

このエントリーをはてなブックマークに追加

Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る

インプレス

3,960円 (3,600円+税)

機械学習の考え方とRの活用をわかりやすく解説! 本書ではまず、機械学習の考え方や、その基礎となる統計をわかりやすく説明。それを踏まえて、代表的な機械学習の理論を押さえながら、Rのさまざまな活用法を解説します。

関連サイト

本書の関連ページが用意されています。

内容紹介

機械学習の考え方とRの活用をわかりやすく解説!

Rは、統計解析のためのプログラミング言語・開発環境であり、機械学習で利用できるライブラリが数多く提供されています。膨大なデータの処理よりもプロトタイピングや検証に適しており、先進IT企業では、あるモデルでうまく動作するかを判断するため、まずRでプロトタイプを作成・確認するというケースもあります。本書ではまず、機械学習の考え方や、その基礎となる統計をわかりやすく説明します。それを踏まえて、代表的な機械学習の理論を押さえながら、Rのさまざまな活用法を解説します。本書を読んで、Rによる機械学習の試行や検証を始めてみましょう。

◇以下「はじめに」より抜粋・要約◇

筆者は、これまで2年以上にわたって、オープンソースの統計解析ソフトウェア「R(アール)」を用いた機械学習のセミナーを実施してきました。いつも参加者は満員となり、ニーズの高さを実感しています。Rの場合、何ギガバイトもの膨大なデータ量を処理することにはあまり適していません。むしろ、重要なのは、Rの特性を見極め、どのような機械学習の局面でどのように活用するか、にあると言えます。それが本書のコンセプトであり、代表的な機械学習の理論を押さえながら、Rによる実践について解説します。2年間のセミナーのなかで、受講者の皆様から、わかりにくいポイント、現場で利用するためのポイントなど、様々なフィードバックやリクエストをいただき、本書に反映しました。したがって本書は、実際の現場で利用されるデータサイエンティスト、これからRで機械学習の実施を検討される技術者の方などにお勧めできます。

書誌情報

  • 著者: 長橋賢吾
  • 発行日: (紙書籍版発行日: 2017-09-08)
  • 最終更新日: 2017-09-08
  • バージョン: 1.0.0
  • ページ数: 344ページ(PDF版換算)
  • 対応フォーマット: EPUB
  • 出版社: インプレス

対象読者

実際の現場でRを利用されるデータサイエンティスト、Rによる機械学習を検討される技術者、プロトタイピングや検証を手軽に行いたい方、Rで機械学習を試してみたい方

著者について

長橋賢吾

フューチャーブリッジパートナーズ株式会社代表取締役、株式会社アプリックス代表取締役兼取締役社長。慶應義塾大学環境情報学部卒業。同大学院政策・メディア研究科修了、2005年東京大学大学院情報理工学研究科修了。博士(情報理工学)。英国ケンブリッジ大学コンピュータ研究所訪問研究員を経て、2006年日興シティグループ証券(現シティグループ証券)にてITサービス・ソフトウェア担当の証券アナリストとして勤務したのち、2009年3月にフューチャーブリッジパートナーズ株式会社を設立。経営の視点から、企業戦略の策定、経営管理、IR支援、M&A、資金調達、データ活用を実施する。2014年12月より株式会社インプレスと共同で「データサイエンス基礎講座」を開催。広い視点でわかりやすい講習指導をモットーとし、どの回も満席の好評を得る。
共著に「使って学ぶIPv6」(アスキー、2002年4月)、著書に「これならわかるネットワーク―インターネットはなぜつながるのか?(ブルーバックス)」(講談社、2008年5月)、「図解入門 ビジネス最新ネット企業の新技術と戦略がよ~くわかる本」(秀和システム、2011年9月)、「ビッグデータ戦略」(秀和システム、2012年3月)、「図解スマートフォンビジネスモデル」(秀和システム、2012年9月)、「システム開発は絶滅危惧業種になってしまうのか? アジャイル的50の生き残り術」(秀和システム、2014年5月)、「図解入門ビジネス FinTechの基本と仕組みがよ~くわかる本」(秀和システム、2016年12月)などがある。

目次

商標と正誤について

はじめに

本書について

第1章 Rと機械学習の基礎

  • 1-1 機械学習とは何か?
  • 1-1-1 機械学習の4つのモデル
  • 1-1-2 機械学習活用 虎の巻
  • 1-1-3 モデルの組み合わせによるデータ分析
  • 1-2 Rとは何か?
  • 1-2-1 機械学習を実現するソフトウェア・プラットフォーム
  • 1-2-2 RとPythonの違い
  • 1-2-3 Rの限界
  • 1-3 Rのインストールと利用前の設定
  • 1-3-1 Rのダウンロード
  • 1-3-2 Rのインストール
  • 1-3-3 Rの起動
  • 1-4 Rの基本的な利用方法
  • 1-4-1 Rのコンソール
  • 1-4-2 変数の利用
  • 1-4-3 グラフの描画
  • 1-4-4 ファイルの読み込み
  • 1-4-5 変数の概要を把握する
  • 1-5 Rを使った統計量とデータの把握
  • 1-5-1 平均・分散・標準偏差
  • 1-5-2 Rスクリプトの利用
  • 1-5-3 ヒストグラムを作成する
  • 1-5-4 正規分布の考え方
  • 1-5-5 t分布
  • 1-5-6 指数の表示
  • 1-5-7 Rの変数の型
  • 1-5-8 クロス集計
  • 1-6 第1章のまとめ:マスターすべきポイント
  • 1-6-1 [機械学習]次へのステップ
  • コラム 統計本を読む3つのコツ

第2章 回帰分析で目的変数の値や発生確率を予測

  • 2-1 単回帰分析
  • 2-1-1 回帰分析の4つのステップ
  • 2-1-2 ステップ1:データの準備ならびに目的変数、説明変数の決定
  • 2-1-3 ステップ2:回帰モデルの生成ならびに結果の検討
  • 2-1-4 ステップ3:モデルをもとに値を予測する
  • 2-1-5 ステップ4:信頼区間と予測区間を求める
  • 2-2 重回帰分析
  • 2-2-1 相関行列をCSVに書き出す
  • 2-2-2 重回帰分析のモデル作成
  • 2-2-3 説明変数を減らすアプローチ
  • 2-3 ロジスティック回帰分析
  • 2-3-1 ロジスティック回帰モデルの作成
  • 2-3-2 ロジスティック回帰の結果の見方
  • 2-3-3 オッズ比の推定
  • 2-3-4 機械学習としてのロジスティック回帰
  • 2-3-5 誤検知率の算出
  • 2-3-6 AICによる説明変数の削除
  • 2-4 ポアソン回帰
  • 2-4-1 ポアソン分布を求める
  • 2-4-2 ポアソン回帰とは?
  • 2-4-3 ポアソン回帰モデルの生成
  • 2-4-4 AICによる目的変数の削減
  • 2-5 第2章のまとめ:マスターすべきポイント
  • 2-5-1 [回帰分析]次へのステップ
  • コラム 回帰分析の実際のビジネスへの応用

第3章 クラスタリング分析の3つの手法でデータを分類

  • 3-1 クラスタリングの3つの手法
  • 3-2 階層化クラスタリング
  • 3-2-1 ユークリッド距離で似た者同士をまとめる
  • 3-2-2 ユークリッド距離をもとにグループに分割
  • 3-2-3 クラスタリングの併合過程
  • 3-2-4 樹系図をプロットする
  • 3-2-5 クラスターの距離の計算
  • 3-2-6 各クラスターの形成過程
  • 3-2-7 完全連結法によるクラスタリング形成過程
  • 3-2-8 各計算手法による樹系図
  • 3-2-9 階層化クラスタリングのまとめ
  • 3-3 非階層化クラスタリングとk平均法
  • 3-3-1 k平均法によるクラスター形成
  • 3-3-2 kmeansによるクラスタリング
  • 3-3-3 k平均法での結果のプロット
  • 3-3-4 ギャップ統計量で妥当なクラスター数を予測する
  • 3-3-5 機械学習としてのk平均法
  • 3-3-6 k平均法の実行とプロット
  • 3-3-7 シルエット分析
  • 3-3-8 k平均法のまとめ
  • 3-4 モデルベースクラスタリング
  • 3-4-1 EMアルゴリズムについて
  • 3-4-2 モデルベースクラスタリングのまとめ
  • 3-5 第3章のまとめ:マスターすべきポイント
  • 3-5-1 [クラスタリング分析]次へのステップ
  • コラム クラスタリングの応用

第4章 主成分分析・因子分析で属性を削減し因子を特定

  • 4-1 主成分分析とは?
  • 4-1-1 主成分分析のステップ
  • 4-1-2 機械学習としての主成分分析
  • 4-1-3 主成分分析のまとめ
  • 4-2 因子分析
  • 4-2-1 固有値と固有ベクトルを求める
  • 4-2-2 factanalによる因子分析
  • 4-2-3 回転による因子負荷量の違い
  • 4-2-4 因子分析のまとめ
  • 4-3 第4章のまとめ:マスターすべきポイント
  • 4-3-1 [主成分分析]次へのステップ
  • コラム 主成分分析とフランス印象派

第5章 アソシエーション分析で関連性がある物事を見極める

  • 5-1 アソシエーション分析に使われるアソシエーション・ルールとは
  • 5-1-1 アソシエーション・ルールの考え方
  • 5-2 arulesによるアソシエーション分析
  • 5-2-1 支持度、確信度、リフト値
  • 5-2-2 アソシエーション・ルールの抽出
  • 5-2-3 アソシエーション・ルールの可視化
  • 5-2-4 アソシエーション・ルールのクラスタリング分析
  • 5-3 第5章のまとめ:マスターすべきポイント
  • コラム アソシエーション分析の応用

第6章 サポートベクターマシンでクラス分類

  • 6-1 線引きによるクラス分類
  • 6-1-1 サポートベクターマシンの仕組み
  • 6-1-2 Rによるサポートベクターマシン
  • 6-2 カーネル法
  • 6-2-1 線形分離の限界
  • 6-2-2 カーネル関数
  • 6-2-3 ハードマージンとソフトマージン
  • 6-3 サポートベクターマシンによる機械学習
  • 6-3-1 サポートベクターマシンによるクラス分類の流れ
  • 6-3-2 サポートベクターマシンによる多クラス識別
  • 6-4 第6章のまとめ:マスターすべきポイント
  • 6-4-1 [サポートベクターマシン]次へのステップ
  • コラム 1クラスサポートベクターマシン

第7章 アンサンブル学習と正則化―モデルの組み合わせと過学習の解決

  • 7-1 過学習とは?
  • 7-1-1 ノーフリーランチ定理
  • 7-1-2 バイアス・バリアンス理論
  • 7-1-3 過学習を抑える3つの方法
  • 7-2 正則化
  • 7-2-1 L1正則化とL2正則化
  • 7-2-2 L1正則化
  • 7-2-3 RによるL1正則化、L2正則化
  • 7-2-4 glmnetによるL1正則化
  • 7-2-5 L2正則化のプロット
  • 7-2-6 λの分布を求める
  • 7-3 アンサンブル学習
  • 7-3-1 バイアスと両立させるアンサンブル学習
  • 7-3-2 決定木によるアンサンブル学習
  • 7-3-3 Rによる決定木の構築
  • 7-3-4 ジニ不純度で決定木を分岐する
  • 7-3-5 ジニ不純度のプロット
  • 7-3-6 決定木分析と回帰分析
  • 7-3-7 アンサンブル学習1:バギング
  • 7-3-8 Rによるバギング
  • 7-3-9 バギングのクラス判定ロジック
  • 7-3-10 モデルの精度を検証
  • 7-3-11 アンサンブル学習2:アダブースト
  • 7-3-12 アダブーストでの処理の流れ
  • 7-3-13 Rによるアダブースト
  • 7-3-14 アダブーストとバギングのエラー率を求める
  • 7-3-15 ランダムフォレスト
  • 7-3-16 Rによるランダムフォレスト
  • 7-3-17 ランダムフォレストで説明変数の重要度を表示
  • 7-4 第7章のまとめ:マスターすべきポイント
  • 7-4-1 [正則化・アンサンブル学習]次へのステップ
  • コラム ランダムフォレストのひと手間

第8章 ベイズ推定とMCMC―事後確率や状態確率を求める

  • 8-1 ベイズ推定と主観確率
  • 8-1-1 通行人の性別予測の確率分布
  • 8-1-2 ベイズ更新
  • 8-1-3 ベイズ推定の仕組み
  • 8-1-4 Rによる事前確率・事後確率
  • 8-1-5 回数を変えた場合の確率分布
  • 8-1-6 回数固定で発生確率を変えた場合の確率分布
  • 8-1-7 ベータ分布
  • 8-1-8 事前分布、尤度関数から事後分布を求める
  • 8-2 MCMCの導入
  • 8-2-1 モンテカルロ法
  • 8-2-2 マルコフ連鎖とMCMC
  • 8-2-3 Rによる推移確率
  • 8-2-4 マルコフ連鎖の斉次性
  • 8-2-5 マルコフ連鎖の不変分布
  • 8-3 Stanを利用したベイズ推定
  • 8-3-1 Stanのインストール
  • 8-3-2 Stanによるモデル設計・分析
  • 8-4 第8章のまとめ:マスターすべきポイント
  • 8-4-1 [ベイズ推定とMCMC]次へのステップ
  • コラム ネットと相性が良いベイズ推定

第9章 ニューラルネットワークとディープラーニング

  • 9-1 ニューラルネットとは?
  • 9-1-1 パーセプトロンとは?
  • 9-1-2 活性化関数によるクラス識別
  • 9-1-3 多層パーセプトロン
  • 9-2 ディープラーニングとニューラルネットワークの手法
  • 9-2-1 ドロップアウト
  • 9-2-2 neuralnetパッケージによるニューラルネットワーク
  • 9-2-3 損失関数
  • 9-2-4 勾配降下法
  • 9-2-5 確率的勾配降下法
  • 9-2-6 ディープラーニング
  • 9-2-7 h2oによるモデルの作成
  • 9-2-8 h2oパッケージによる予測
  • 9-3 第9章のまとめ:マスターすべきポイント
  • 9-3-1 [ニューラルネットワークとディープラーニング]次へのステップ
  • コラム 畳み込みニューラルネットワーク

索引

著者プロフィール+STAFF LIST

Home 書籍一覧 Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る ▲ ページトップへ戻る