関連サイト
本書の関連ページが用意されています。
内容紹介
プロのデータサイエンティストから学ぼう!
プロのデータサイエンティストである著者が、Rの基礎から最新のモダンなデータ分析まで幅広くかつ丁寧に解説していきます。
統計、線形代数、オペレーションズリサーチ、人工知能、機械学習 ― たくさんのデータサイエンスのタスクをこなすのに"R"は必要不可欠なツールです。予測や解析に必要な数多くのアルゴリズムを少ないコードで利用することができ、最近の"モダンな"データ解析の挑戦にとても合っています。
本書は日常的に"R"を使ってみたいユーザーに様々な手段を提供しています。実際のデータや興味のある問題を解く際、この本は最後まで役に立つでしょう。
書誌情報
- 著者: Jared P. Lander(著), 高柳慎一, 牧山幸史, 簑田高志(訳), Tokyo.R(協力)
- ページ数: 450ページ(PDF版換算)
- 対応フォーマット: PDF
- 出版社: マイナビ出版
対象読者
日常的に"R"を使ってみたいユーザー
著者について
Jared P. Lander
Jared P. Landarはニューヨーク市を本拠地とするデータサイエンスのコンサルティングファーム Lander Analytics の創業者兼CEOです。New York Open Statistical Programming Meetupの世話人で、コロンビア大学の統計学の教授でもあります。彼はまたScott's Pizza Toursのツアーガイド、Brewla BarsのGourmet Ice Pops立ち上げのアドバイザーでもあります。コロンビア大学で統計の修士号、ミューレンバーグ・カレッジで数学の学士号を取得しており、学術研究と産業界両方の経験を持ち合わせています。彼は政府関係機関、技術的な立ち上げ、資金集め、音楽、金融、ヘルスケア、人道救援活動など大小のさまざまな組織で仕事をこなしてきました。データマネジメント、マルチレベルモデル、機械学習、一般化線形モデル、可視化、データマネジメントと統計的コンピューティングを得意としています。
高柳慎一
株式会社リクルートコミュニケーションズ兼株式会社リクルートライフスタイル所属。社会人博士課程に進学しつつ、アプリケーションを開発しつつ、クオンツ的な知見を活かしてデータ分析に従事。『金融データ解析の基礎』(共立出版)共著など。
牧山幸史
EC サイトにてデータアナリストとして勤務。R と統計解析のブログ「ほくそ笑む」を運営。RPubs の新着記事を投稿する Twitter Bot @RPubsRecent を作成。R での並列処理を簡単にする pforeach パッケージを開発など。
簑田高志
ヤフー株式会社に所属。インターネット業界で十年以上に渡りネット広告関連の企画・分析業務に携わる。最近ではEコマース関連の分析に軸足を移し、広告・CRM・サイト分析など事業を幅広くカバーする業務を行う。
Tokyo.R
2010年1月スタートのRに関連する勉強会。毎月1回程度のサイクルで開催。数名からスタートし、今では毎回100 人近い参加者を集める勉強会に成長。ネット広告、ソーシャルゲーム、Eコマース、金融、医療、会計、メーカー、通信、学生など様々な業種・業態の方が参加。
目次
翻訳者より
目次
はじめに
まえがき
謝辞
1章 Rを手に入れる
- 1.1 Rのダウンロード
- 1.2 Rのバージョン
- 1.3 32bitと64bit
- 1.4 インストール
- 1.5 Revolution R Community Edition
- 1.6 まとめ
2章 Rの環境
- 2.1 コマンドラインインターフェイス(CLI)
- 2.2 RStudio
- 2.3 Revolution Analytics RPE(R Productivity Environment)
- 2.4 まとめ
3章 Rパッケージ
- 3.1 インストールパッケージ
- 3.2 ロードパッケージ
- 3.3 パッケージの作成
- 3.4 まとめ
4章 Rの基本
- 4.1 基本的な数学
- 4.2 変数
- 4.3 データ型
- 4.4 ベクトル
- 4.5 関数(Function)の呼び出し
- 4.6 関数ドキュメント
- 4.7 欠損値
- 4.8 まとめ
5章 高度なデータ構造
- 5.1 データフレーム(data.frame)
- 5.2 リスト(List)
- 5.3 マトリックス(Matrix)
- 5.4 アレイ(Array)
- 5.5 まとめ
6章 Rへのデータ取り込み
- 6.1 CSVの読み込み
- 6.2 Excelの読み込み
- 6.3 データベースからの読み込み
- 6.4 他社統計ツールからの読み込み
- 6.5 Rバイナリファイル
- 6.6 Rに入っているデータ
- 6.7 Webサイトからの抽出
- 6.8 まとめ
7章 統計的なグラフィクス
- 7.1 基本グラフィクス
- 7.2 ggplot2
- 7.3 まとめ
8章 Rの関数を書く
- 8.1 ハロー、ワールド!
- 8.2 関数の引数
- 8.3 値の返却
- 8.4 do.call
- 8.5 まとめ
9章 制御文
- 9.1 ifとelse
- 9.2 Switch
- 9.3 ifelse
- 9.4 複合テスト
- 9.5 まとめ
10章 ループ:Rの方法ではない反復方法
- 10.1 forループ
- 10.2 whileループ
- 10.3 ループの制御
- 10.4 まとめ
11章 グループピング操作
- 11.1 Applyファミリー
- 11.2 aggregate
- 11.3 plyr
- 11.4 data.table
- 11.5 まとめ
12章 データ整形
- 12.1 cbindとrbind
- 12.2 Join
- 12.3 reshape2
- 12.4 まとめ
13章 文字列操作
- 13.1 paste
- 13.2 sprintf
- 13.3 テキストの抽出
- 13.4 正規表現
- 13.5 まとめ
14章 確率分布
- 14.1 正規分布
- 14.2 二項分布
- 14.3 ポアソン分布
- 14.4 その他の分布
- 14.5 まとめ
15章 基本統計
- 15.1 要約統計
- 15.2 相関と共分散
- 15.3 t検定
- 15.4 分散分析
- 15.5 まとめ
16章 線形モデル
- 16.1 単回帰
- 16.2 重回帰
- 16.3 まとめ
17章 一般化線形モデル
- 17.1 ロジスティック回帰
- 17.2 ポアソン回帰
- 17.3 その他の一般化線形モデル
- 17.4 生存時間分析
- 17.5 まとめ
18章 モデル評価
- 18.1 残差
- 18.2 モデル比較
- 18.3 クロスバリデーション
- 18.4 ブートストラップ
- 18.5 ステップワイズ変数選択法
- 18.6 まとめ
19章 正則化と縮小
- 19.1 Elastic Net
- 19.2 Bayesian shrinkage
- 19.3 まとめ
20章 非線形モデル
- 20.1 非線形最小二乗法
- 20.2 スプライン
- 20.3 一般化加法モデル
- 20.4 決定木
- 20.5 ランダムフォレスト
- 20.6 まとめ
21章 時系列と自己相関
- 21.1 自己回帰移動平均
- 21.2 VAR
- 21.3 GARCH
- 21.4 まとめ
22章 クラスタリング
- 22.1 K-means
- 22.2 PAM
- 22.3 階層型クラスタリング
- 22.4 まとめ
23章 knitrパッケージによる再現性・レポートとスライドショー
- 23.1 Latexプログラムのインストール
- 23.2 Latex 入門
- 23.3 Latexを使ったknitr
- 23.4 マークダウンのヒント
- 23.5 knitrとマークダウンの利用
- 23.6 Pandoc
- 23.7 まとめ
24章 Rパッケージの構築
- 24.1 フォルダ構成
- 24.2 パッケージファイル
- 24.3 パッケージドキュメンテーション
- 24.4 チェック、構築とインストール
- 24.5 CRANへの登録
- 24.6 C++コード
- 24.7 まとめ
付録A 情報リソース
- A.1 Meetup
- A.2 Stack Overflow
- A.3 Twitter
- A.4 カンファレンス
- A.5 Webサイト
- A.6 ドキュメント
- A.7 書籍
- A.8 まとめ