ギフトで購入

Rではじめる機械学習データサイズを抑えて軽量な環境で攻略法を探る

長橋賢吾

インプレス

3,960円 (3,600円+税)

機械学習の考え方とRの活用をわかりやすく解説！本書ではまず、機械学習の考え方や、その基礎となる統計をわかりやすく説明。それを踏まえて、代表的な機械学習の理論を押さえながら、Rのさまざまな活用法を解説します。

内容紹介

機械学習の考え方とRの活用をわかりやすく解説！

Rは、統計解析のためのプログラミング言語・開発環境であり、機械学習で利用できるライブラリが数多く提供されています。膨大なデータの処理よりもプロトタイピングや検証に適しており、先進IT企業では、あるモデルでうまく動作するかを判断するため、まずRでプロトタイプを作成・確認するというケースもあります。本書ではまず、機械学習の考え方や、その基礎となる統計をわかりやすく説明します。それを踏まえて、代表的な機械学習の理論を押さえながら、Rのさまざまな活用法を解説します。本書を読んで、Rによる機械学習の試行や検証を始めてみましょう。

◇以下「はじめに」より抜粋・要約◇
筆者は、これまで2年以上にわたって、オープンソースの統計解析ソフトウェア「R（アール）」を用いた機械学習のセミナーを実施してきました。いつも参加者は満員となり、ニーズの高さを実感しています。Rの場合、何ギガバイトもの膨大なデータ量を処理することにはあまり適していません。むしろ、重要なのは、Rの特性を見極め、どのような機械学習の局面でどのように活用するか、にあると言えます。それが本書のコンセプトであり、代表的な機械学習の理論を押さえながら、Rによる実践について解説します。2年間のセミナーのなかで、受講者の皆様から、わかりにくいポイント、現場で利用するためのポイントなど、様々なフィードバックやリクエストをいただき、本書に反映しました。したがって本書は、実際の現場で利用されるデータサイエンティスト、これからRで機械学習の実施を検討される技術者の方などにお勧めできます。

書誌情報

著者: 長橋賢吾
発行日: 2017-09-08 (紙書籍版発行日: 2017-09-08)
最終更新日: 2017-09-08
バージョン: 1.0.0
ページ数: 344ページ(PDF版換算)
対応フォーマット: EPUB
出版社: インプレス

対象読者

実際の現場でRを利用されるデータサイエンティスト、Rによる機械学習を検討される技術者、プロトタイピングや検証を手軽に行いたい方、Rで機械学習を試してみたい方

著者について

長橋賢吾

フューチャーブリッジパートナーズ株式会社代表取締役、株式会社アプリックス代表取締役兼取締役社長。慶應義塾大学環境情報学部卒業。同大学院政策・メディア研究科修了、2005年東京大学大学院情報理工学研究科修了。博士（情報理工学）。英国ケンブリッジ大学コンピュータ研究所訪問研究員を経て、2006年日興シティグループ証券（現シティグループ証券）にてITサービス・ソフトウェア担当の証券アナリストとして勤務したのち、2009年3月にフューチャーブリッジパートナーズ株式会社を設立。経営の視点から、企業戦略の策定、経営管理、IR支援、M＆A、資金調達、データ活用を実施する。2014年12月より株式会社インプレスと共同で「データサイエンス基礎講座」を開催。広い視点でわかりやすい講習指導をモットーとし、どの回も満席の好評を得る。
共著に「使って学ぶIPv6」（アスキー、2002年4月）、著書に「これならわかるネットワーク―インターネットはなぜつながるのか?（ブルーバックス）」（講談社、2008年5月）、「図解入門ビジネス最新ネット企業の新技術と戦略がよ～くわかる本」（秀和システム、2011年9月）、「ビッグデータ戦略」（秀和システム、2012年3月）、「図解スマートフォンビジネスモデル」（秀和システム、2012年9月）、「システム開発は絶滅危惧業種になってしまうのか? アジャイル的50の生き残り術」（秀和システム、2014年5月）、「図解入門ビジネス FinTechの基本と仕組みがよ～くわかる本」（秀和システム、2016年12月）などがある。

1-1 機械学習とは何か？
1-1-1 機械学習の4つのモデル
1-1-2 機械学習活用　虎の巻
1-1-3 モデルの組み合わせによるデータ分析
1-2 Rとは何か？
1-2-1 機械学習を実現するソフトウェア・プラットフォーム
1-2-2 RとPythonの違い
1-2-3 Rの限界
1-3 Rのインストールと利用前の設定
1-3-1 Rのダウンロード
1-3-2 Rのインストール
1-3-3 Rの起動
1-4 Rの基本的な利用方法
1-4-1 Rのコンソール
1-4-2 変数の利用
1-4-3 グラフの描画
1-4-4 ファイルの読み込み
1-4-5 変数の概要を把握する
1-5 Rを使った統計量とデータの把握
1-5-1 平均・分散・標準偏差
1-5-2 Rスクリプトの利用
1-5-3 ヒストグラムを作成する
1-5-4 正規分布の考え方
1-5-5 t分布
1-5-6 指数の表示
1-5-7 Rの変数の型
1-5-8 クロス集計
1-6 第1章のまとめ：マスターすべきポイント
1-6-1 ［機械学習］次へのステップ
コラム統計本を読む3つのコツ

第2章回帰分析で目的変数の値や発生確率を予測

2-1 単回帰分析
2-1-1 回帰分析の4つのステップ
2-1-2 ステップ1：データの準備ならびに目的変数、説明変数の決定
2-1-3 ステップ2：回帰モデルの生成ならびに結果の検討
2-1-4 ステップ3：モデルをもとに値を予測する
2-1-5 ステップ4：信頼区間と予測区間を求める
2-2 重回帰分析
2-2-1 相関行列をCSVに書き出す
2-2-2 重回帰分析のモデル作成
2-2-3 説明変数を減らすアプローチ
2-3 ロジスティック回帰分析
2-3-1 ロジスティック回帰モデルの作成
2-3-2 ロジスティック回帰の結果の見方
2-3-3 オッズ比の推定
2-3-4 機械学習としてのロジスティック回帰
2-3-5 誤検知率の算出
2-3-6 AICによる説明変数の削除
2-4 ポアソン回帰
2-4-1 ポアソン分布を求める
2-4-2 ポアソン回帰とは？
2-4-3 ポアソン回帰モデルの生成
2-4-4 AICによる目的変数の削減
2-5 第2章のまとめ：マスターすべきポイント
2-5-1 ［回帰分析］次へのステップ
コラム回帰分析の実際のビジネスへの応用

第3章クラスタリング分析の3つの手法でデータを分類

3-1 クラスタリングの3つの手法
3-2 階層化クラスタリング
3-2-1 ユークリッド距離で似た者同士をまとめる
3-2-2 ユークリッド距離をもとにグループに分割
3-2-3 クラスタリングの併合過程
3-2-4 樹系図をプロットする
3-2-5 クラスターの距離の計算
3-2-6 各クラスターの形成過程
3-2-7 完全連結法によるクラスタリング形成過程
3-2-8 各計算手法による樹系図
3-2-9 階層化クラスタリングのまとめ
3-3 非階層化クラスタリングとk平均法
3-3-1 k平均法によるクラスター形成
3-3-2 kmeansによるクラスタリング
3-3-3 k平均法での結果のプロット
3-3-4 ギャップ統計量で妥当なクラスター数を予測する
3-3-5 機械学習としてのk平均法
3-3-6 k平均法の実行とプロット
3-3-7 シルエット分析
3-3-8 k平均法のまとめ
3-4 モデルベースクラスタリング
3-4-1 EMアルゴリズムについて
3-4-2 モデルベースクラスタリングのまとめ
3-5 第3章のまとめ：マスターすべきポイント
3-5-1 ［クラスタリング分析］次へのステップ
コラムクラスタリングの応用

第4章主成分分析・因子分析で属性を削減し因子を特定

4-1 主成分分析とは？
4-1-1 主成分分析のステップ
4-1-2 機械学習としての主成分分析
4-1-3 主成分分析のまとめ
4-2 因子分析
4-2-1 固有値と固有ベクトルを求める
4-2-2 factanalによる因子分析
4-2-3 回転による因子負荷量の違い
4-2-4 因子分析のまとめ
4-3 第4章のまとめ：マスターすべきポイント
4-3-1 ［主成分分析］次へのステップ
コラム主成分分析とフランス印象派

第5章アソシエーション分析で関連性がある物事を見極める

5-1 アソシエーション分析に使われるアソシエーション・ルールとは
5-1-1 アソシエーション・ルールの考え方
5-2 arulesによるアソシエーション分析
5-2-1 支持度、確信度、リフト値
5-2-2 アソシエーション・ルールの抽出
5-2-3 アソシエーション・ルールの可視化
5-2-4 アソシエーション・ルールのクラスタリング分析
5-3 第5章のまとめ：マスターすべきポイント
コラムアソシエーション分析の応用

第6章サポートベクターマシンでクラス分類

6-1 線引きによるクラス分類
6-1-1 サポートベクターマシンの仕組み
6-1-2 Rによるサポートベクターマシン
6-2 カーネル法
6-2-1 線形分離の限界
6-2-2 カーネル関数
6-2-3 ハードマージンとソフトマージン
6-3 サポートベクターマシンによる機械学習
6-3-1 サポートベクターマシンによるクラス分類の流れ
6-3-2 サポートベクターマシンによる多クラス識別
6-4 第6章のまとめ：マスターすべきポイント
6-4-1 ［サポートベクターマシン］次へのステップ
コラム 1クラスサポートベクターマシン

第7章アンサンブル学習と正則化―モデルの組み合わせと過学習の解決

7-1 過学習とは？
7-1-1 ノーフリーランチ定理
7-1-2 バイアス・バリアンス理論
7-1-3 過学習を抑える3つの方法
7-2 正則化
7-2-1 L1正則化とL2正則化
7-2-2 L1正則化
7-2-3 RによるL1正則化、L2正則化
7-2-4 glmnetによるL1正則化
7-2-5 L2正則化のプロット
7-2-6 λの分布を求める
7-3 アンサンブル学習
7-3-1 バイアスと両立させるアンサンブル学習
7-3-2 決定木によるアンサンブル学習
7-3-3 Rによる決定木の構築
7-3-4 ジニ不純度で決定木を分岐する
7-3-5 ジニ不純度のプロット
7-3-6 決定木分析と回帰分析
7-3-7 アンサンブル学習1：バギング
7-3-8 Rによるバギング
7-3-9 バギングのクラス判定ロジック
7-3-10 モデルの精度を検証
7-3-11 アンサンブル学習2：アダブースト
7-3-12 アダブーストでの処理の流れ
7-3-13 Rによるアダブースト
7-3-14 アダブーストとバギングのエラー率を求める
7-3-15 ランダムフォレスト
7-3-16 Rによるランダムフォレスト
7-3-17 ランダムフォレストで説明変数の重要度を表示
7-4 第7章のまとめ：マスターすべきポイント
7-4-1 ［正則化・アンサンブル学習］次へのステップ
コラムランダムフォレストのひと手間

第8章ベイズ推定とMCMC―事後確率や状態確率を求める

8-1 ベイズ推定と主観確率
8-1-1 通行人の性別予測の確率分布
8-1-2 ベイズ更新
8-1-3 ベイズ推定の仕組み
8-1-4 Rによる事前確率・事後確率
8-1-5 回数を変えた場合の確率分布
8-1-6 回数固定で発生確率を変えた場合の確率分布
8-1-7 ベータ分布
8-1-8 事前分布、尤度関数から事後分布を求める
8-2 MCMCの導入
8-2-1 モンテカルロ法
8-2-2 マルコフ連鎖とMCMC
8-2-3 Rによる推移確率
8-2-4 マルコフ連鎖の斉次性
8-2-5 マルコフ連鎖の不変分布
8-3 Stanを利用したベイズ推定
8-3-1 Stanのインストール
8-3-2 Stanによるモデル設計・分析
8-4 第8章のまとめ：マスターすべきポイント
8-4-1 ［ベイズ推定とMCMC］次へのステップ
コラムネットと相性が良いベイズ推定

第9章ニューラルネットワークとディープラーニング

9-1 ニューラルネットとは？
9-1-1 パーセプトロンとは？
9-1-2 活性化関数によるクラス識別
9-1-3 多層パーセプトロン
9-2 ディープラーニングとニューラルネットワークの手法
9-2-1 ドロップアウト
9-2-2 neuralnetパッケージによるニューラルネットワーク
9-2-3 損失関数
9-2-4 勾配降下法
9-2-5 確率的勾配降下法
9-2-6 ディープラーニング
9-2-7 h2oによるモデルの作成
9-2-8 h2oパッケージによる予測
9-3 第9章のまとめ：マスターすべきポイント
9-3-1 ［ニューラルネットワークとディープラーニング］次へのステップ
コラム畳み込みニューラルネットワーク

索引

著者プロフィール+STAFF LIST

Home 〉書籍一覧〉 Rではじめる機械学習データサイズを抑えて軽量な環境で攻略法を探る ▲ ページトップへ戻る

Rではじめる機械学習データサイズを抑えて軽量な環境で攻略法を探る

関連サイト

内容紹介

書誌情報

対象読者

著者について

長橋賢吾

目次

商標と正誤について

はじめに

本書について

第1章 Rと機械学習の基礎

第2章回帰分析で目的変数の値や発生確率を予測

第3章クラスタリング分析の3つの手法でデータを分類

第4章主成分分析・因子分析で属性を削減し因子を特定

第5章アソシエーション分析で関連性がある物事を見極める

第6章サポートベクターマシンでクラス分類

第7章アンサンブル学習と正則化―モデルの組み合わせと過学習の解決

第8章ベイズ推定とMCMC―事後確率や状態確率を求める

第9章ニューラルネットワークとディープラーニング

索引

著者プロフィール+STAFF LIST

Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る

関連サイト

内容紹介

書誌情報

対象読者

著者について

長橋賢吾

目次

商標と正誤について

はじめに

本書について

第1章 Rと機械学習の基礎

第2章 回帰分析で目的変数の値や発生確率を予測

第3章 クラスタリング分析の3つの手法でデータを分類

第4章 主成分分析・因子分析で属性を削減し因子を特定

第5章 アソシエーション分析で関連性がある物事を見極める

第6章 サポートベクターマシンでクラス分類

第7章 アンサンブル学習と正則化―モデルの組み合わせと過学習の解決

第8章 ベイズ推定とMCMC―事後確率や状態確率を求める

第9章 ニューラルネットワークとディープラーニング

索引

著者プロフィール+STAFF LIST

Rではじめる機械学習データサイズを抑えて軽量な環境で攻略法を探る

第2章回帰分析で目的変数の値や発生確率を予測

第3章クラスタリング分析の3つの手法でデータを分類

第4章主成分分析・因子分析で属性を削減し因子を特定

第5章アソシエーション分析で関連性がある物事を見極める

第6章サポートベクターマシンでクラス分類

第7章アンサンブル学習と正則化―モデルの組み合わせと過学習の解決

第8章ベイズ推定とMCMC―事後確率や状態確率を求める

第9章ニューラルネットワークとディープラーニング