関連サイト
本書の関連ページが用意されています。
内容紹介
「ビッグデータ技術のいま」を掴む。ビッグデータの分析システムを構築するためのツールやテクニック、ポイントについて、Google Cloud Platformチームに所属したデータハッカーである著者が実践的にアドバイスします。
まずビッグデータ・システムを成功させるためのガイドラインと、NoSQLや分散コンピューティング、CAP定理の基礎知識を解説します。そしてHadoopやHiveを使った大規模な分析や、BigQueryを使ったリアルタイム分析の基礎にも触れます。MapReduceパイプラインやPig、Cascading、Mahoutを使った機械学習といった、より高度なトピックについてもカバーしていますし、最終的にはPythonとRを組み合わせたビッグデータを処理するツールチェーンの構築について解説します。またそれぞれの解説と共にツール類を理解するのに役立つサンプルも収めました。ビッグデータの主要な課題に対して複数のテクノロジーを効率的に組み合わせ、コストを低く抑えるための最良の選択肢について伝授していきます。
書誌情報
- 著者: Michael Manoochehri(著), 小林 啓倫(翻訳)
- ページ数: 290ページ(PDF版換算)
- 対応フォーマット: PDF
- 出版社: マイナビ出版
対象読者
著者について
Michael Manoochehri
マイケル・マヌーチェッリはグーグルのデベロッパープログラム・エンジニア。「Google Cloud Platform」においてBigQuery API のユーザーサポートを務めるなど、大量データ処理技術と、その普及・ユーザー教育の分野で活動してきた。またウェブサイト「ProgrammableWeb.com」でライターを務めるなど執筆活動も積極的に行っており、グーグルにおいてもブログ等で対外的な情報発信を行っている。カリフォルニア大学バークレー校の情報学大学院において情報マネジメント/情報システムの修士号を取得。
小林 啓倫
経営コンサルタント。システムエンジニアとしてキャリアを積んだ後、米バブソン大学でMBAを取得。その後外資系コンサルティングファーム、国内ベンチャー企業を経て、現在はコンサルタント業の傍ら、ライター/翻訳者としても活動。著書に『今こそ読みたいマクルーハン』、監訳書に『世界で闘うプロダクトマネジャーになるための本』(以上マイナビ)、訳書に『データ・サイエンティストに学ぶ「分析力」』(日経BP)など多数。
目次
訳者より
まえがき
はじめに
- 本書の想定読者
- インターネット・オブ・エブリシング
- ユビキタスコンピューティングへの道
- 本書の構成
第1部 ビッグデータ時代の方向性
第1章 データで成功するための4つのルール
- データが重要になる時
- データと単一サーバー
- ビッグデータのトレードオフ
- ビッグデータパイプラインの解剖学
- 究極のデータベース
- まとめ
第2部 大量データの収集と共有
第2章 テラバイト級ローデータの保管と共有
- ファイルに苦しめられる
- ストレージ:インフラストラクチャー・アズ・ア・サービス
- 適切なデータ形式の選択
- 文字コード
- データの転送:データシリアライゼーション形式
- まとめ
第3章 データ収集ウェブアプリをNoSQLベースで開発する
- リレーショナル型データベース:指揮統制型モデル
- リレーショナル型データベース対インターネット
- 非リレーショナル型データベースモデル
- 書き込みのパフォーマンスを重視する:Redis
- 大量のRedisインスタンスを複数マシンに分散させる
- NewSQL:コッドの帰還
- まとめ
第4章 データのサイロ化に対抗する戦略
- 専門用語でいっぱいのウェアハウス
- Hadoop:ウェアハウスの中の象
- データサイロがメリットになる可能性
- コンバージェンス:データサイロの終焉
- まとめ
第3部 手にしたデータを分析する
第5章 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する
- データウェアハウスとは何か?
- Apache Hive:Hadoop用のインタラクティブクエリ
- Shark:RAM並みの速さでクエリを実行する
- クラウド上のデータウェアハウス
- まとめ
第6章 BigQueryを利用してデータダッシュボードを構築する
- 分析データベース
- Dremel:新たな可能性
- BigQuery:サービスとしてのデータ分析
- 独自のデータダッシュボードをつくる
- 分析クエリエンジンの未来
- まとめ
第7章 大量データ分析におけるビジュアル化の戦略
- データをストーリーに変える取り組み
- 人間にとっての分かりやすさ
- インタラクティブなアプリケーションを開発する
- まとめ
第4部 データパイプラインを構築する
第8章 処理を統合する― MapReduceデータパイプライン
- データパイプラインとは何か
- Hadoop Streamingでデータパイプラインを構築する
- ワンステップのMapReduceによるデータ変換
- 複雑な作業を管理する:Hadoop向けのPython MapReduceフレームワーク
- まとめ
第9章 PigとCascadingでデータ変換ワークフローを構築する
- 実際の大規模データ処理ワークフロー
- 複雑な話:MapReduceによる複数ステップのデータ変換
- 複雑な話:MapReduceによる複数ステップのデータ変換
- Cascading:堅牢性のあるデータワークフローを構築する
- PigとCascadingのどちらを選ぶか
- まとめ
第5部 大量データにおける機械学習
第10章 Mahoutを利用してデータ分類システムを構築する
- 機械は未来を予測できるか?
- 機械学習の課題
- Apache Mahout:スケーラブルな機械学習の実現
- MLbase:分散処理による機械学習のフレームワーク
- まとめ
第6部 大量データの統計分析
第11 章 Rで大量データを分析する
- なぜ統計学がセクシーなのか
- 大規模データセットを扱う戦略
- まとめ
第12章 PythonとPandasを利用して分析ワーク
- フローを構築する
- データに潜むヘビ
- データ処理のためのPythonライブラリ
- より複雑なワークフローを構築する
- iPython:科学計算ツールチェーンを構築する
- まとめ
第7部 データ分析技術のこれから
第13章 開発・購入・アウトソースの判断
- 重なり合うソリューション
- 自分が直面している問題を理解する
- 「構築か購入か」を決めるための戦略
- プライベートのデータセンター
- オープンソース技術のコストを把握する
- あらゆるものがサービスになる
- まとめ
第14章 未来を考える― データ技術のトレンド
破壊的な、そして破壊されるイノベーションとしてのHadoop
- すべてがクラウド上に
- データサイエンティストの盛衰
- 収束する技術:究極のデータベースとは
- 収束する文化
- まとめ