販売終了

ビッグデータテクノロジー完全ガイド

Michael Manoochehri(著), 小林啓倫(翻訳)

マイナビ出版

3,300円 (3,000円+税)

販売終了「ビッグデータ技術のいま」を掴む。データハッカーである著者が実践的にアドバイス。

内容紹介

「ビッグデータ技術のいま」を掴む。ビッグデータの分析システムを構築するためのツールやテクニック、ポイントについて、Google Cloud Platformチームに所属したデータハッカーである著者が実践的にアドバイスします。

まずビッグデータ・システムを成功させるためのガイドラインと、NoSQLや分散コンピューティング、CAP定理の基礎知識を解説します。そしてHadoopやHiveを使った大規模な分析や、BigQueryを使ったリアルタイム分析の基礎にも触れます。MapReduceパイプラインやPig、Cascading、Mahoutを使った機械学習といった、より高度なトピックについてもカバーしていますし、最終的にはPythonとRを組み合わせたビッグデータを処理するツールチェーンの構築について解説します。またそれぞれの解説と共にツール類を理解するのに役立つサンプルも収めました。ビッグデータの主要な課題に対して複数のテクノロジーを効率的に組み合わせ、コストを低く抑えるための最良の選択肢について伝授していきます。

書誌情報

著者: Michael Manoochehri(著), 小林啓倫(翻訳)
ページ数: 290ページ(PDF版換算)
対応フォーマット: PDF
出版社: マイナビ出版

対象読者

著者について

Michael Manoochehri

マイケル・マヌーチェッリはグーグルのデベロッパープログラム・エンジニア。「Google Cloud Platform」においてBigQuery API のユーザーサポートを務めるなど、大量データ処理技術と、その普及・ユーザー教育の分野で活動してきた。またウェブサイト「ProgrammableWeb.com」でライターを務めるなど執筆活動も積極的に行っており、グーグルにおいてもブログ等で対外的な情報発信を行っている。カリフォルニア大学バークレー校の情報学大学院において情報マネジメント／情報システムの修士号を取得。

小林啓倫

経営コンサルタント。システムエンジニアとしてキャリアを積んだ後、米バブソン大学でMBAを取得。その後外資系コンサルティングファーム、国内ベンチャー企業を経て、現在はコンサルタント業の傍ら、ライター/翻訳者としても活動。著書に『今こそ読みたいマクルーハン』、監訳書に『世界で闘うプロダクトマネジャーになるための本』（以上マイナビ）、訳書に『データ・サイエンティストに学ぶ「分析力」』（日経BP）など多数。

リレーショナル型データベース：指揮統制型モデル
リレーショナル型データベース対インターネット
非リレーショナル型データベースモデル
書き込みのパフォーマンスを重視する：Redis
大量のRedisインスタンスを複数マシンに分散させる
NewSQL：コッドの帰還
まとめ

第4章　データのサイロ化に対抗する戦略

専門用語でいっぱいのウェアハウス
Hadoop：ウェアハウスの中の象
データサイロがメリットになる可能性
コンバージェンス：データサイロの終焉
まとめ

第3部　手にしたデータを分析する

第5章　 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する

データウェアハウスとは何か？
Apache Hive：Hadoop用のインタラクティブクエリ
Shark：RAM並みの速さでクエリを実行する
クラウド上のデータウェアハウス
まとめ

第6章　BigQueryを利用してデータダッシュボードを構築する

分析データベース
Dremel：新たな可能性
BigQuery：サービスとしてのデータ分析
独自のデータダッシュボードをつくる
分析クエリエンジンの未来
まとめ

第7章　大量データ分析におけるビジュアル化の戦略

データをストーリーに変える取り組み
人間にとっての分かりやすさ
インタラクティブなアプリケーションを開発する
まとめ

第4部　データパイプラインを構築する

第8章　処理を統合する― MapReduceデータパイプライン

データパイプラインとは何か
Hadoop Streamingでデータパイプラインを構築する
ワンステップのMapReduceによるデータ変換
複雑な作業を管理する：Hadoop向けのPython MapReduceフレームワーク
まとめ

第９章　 PigとCascadingでデータ変換ワークフローを構築する

実際の大規模データ処理ワークフロー
複雑な話：MapReduceによる複数ステップのデータ変換
複雑な話：MapReduceによる複数ステップのデータ変換
Cascading：堅牢性のあるデータワークフローを構築する
PigとCascadingのどちらを選ぶか
まとめ

第5部　大量データにおける機械学習

第10章　Mahoutを利用してデータ分類システムを構築する

機械は未来を予測できるか？
機械学習の課題
Apache Mahout：スケーラブルな機械学習の実現
MLbase：分散処理による機械学習のフレームワーク
まとめ

第6部　大量データの統計分析

第11 章　Rで大量データを分析する

なぜ統計学がセクシーなのか
大規模データセットを扱う戦略
まとめ

第12章　 PythonとPandasを利用して分析ワーク

フローを構築する
データに潜むヘビ
データ処理のためのPythonライブラリ
より複雑なワークフローを構築する
iPython：科学計算ツールチェーンを構築する
まとめ

第7部　データ分析技術のこれから

第13章　開発・購入・アウトソースの判断

重なり合うソリューション
自分が直面している問題を理解する
「構築か購入か」を決めるための戦略
プライベートのデータセンター
オープンソース技術のコストを把握する
あらゆるものがサービスになる
まとめ

第14章　未来を考える― データ技術のトレンド

破壊的な、そして破壊されるイノベーションとしてのHadoop

すべてがクラウド上に
データサイエンティストの盛衰
収束する技術：究極のデータベースとは
収束する文化
まとめ

Home 〉書籍一覧〉ビッグデータテクノロジー完全ガイド ▲ ページトップへ戻る

ビッグデータテクノロジー完全ガイド

関連サイト

内容紹介

書誌情報

対象読者

著者について

Michael Manoochehri

小林啓倫

目次

訳者より

まえがき

はじめに

第1部　ビッグデータ時代の方向性

第1章　データで成功するための4つのルール

第2部　大量データの収集と共有

第2章　テラバイト級ローデータの保管と共有

第3章　データ収集ウェブアプリをNoSQLベースで開発する

第4章　データのサイロ化に対抗する戦略

第3部　手にしたデータを分析する

第5章　 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する

第6章　BigQueryを利用してデータダッシュボードを構築する

第7章　大量データ分析におけるビジュアル化の戦略

第4部　データパイプラインを構築する

第8章　処理を統合する― MapReduceデータパイプライン

第９章　 PigとCascadingでデータ変換ワークフローを構築する

第5部　大量データにおける機械学習

第10章　Mahoutを利用してデータ分類システムを構築する

第6部　大量データの統計分析

第11 章　Rで大量データを分析する

第12章　 PythonとPandasを利用して分析ワーク

第7部　データ分析技術のこれから

第13章　開発・購入・アウトソースの判断

第14章　未来を考える― データ技術のトレンド

破壊的な、そして破壊されるイノベーションとしてのHadoop

ビッグデータ テクノロジー完全ガイド

関連サイト

内容紹介

書誌情報

対象読者

著者について

Michael Manoochehri

小林 啓倫

目次

訳者より

まえがき

はじめに

第1部 ビッグデータ時代の方向性

第1章 データで成功するための4つのルール

第2部 大量データの収集と共有

第2章 テラバイト級ローデータの保管と共有

第3章 データ収集ウェブアプリをNoSQLベースで開発する

第4章 データのサイロ化に対抗する戦略

第3部 手にしたデータを分析する

第5章 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する

第6章 BigQueryを利用してデータダッシュボードを構築する

第7章 大量データ分析におけるビジュアル化の戦略

第4部 データパイプラインを構築する

第8章 処理を統合する― MapReduceデータパイプライン

第９章 PigとCascadingでデータ変換ワークフローを構築する

第5部 大量データにおける機械学習

第10章 Mahoutを利用してデータ分類システムを構築する

第6部 大量データの統計分析

第11 章 Rで大量データを分析する

第12章 PythonとPandasを利用して分析ワーク

第7部 データ分析技術のこれから

第13章 開発・購入・アウトソースの判断

第14章 未来を考える― データ技術のトレンド

破壊的な、そして破壊されるイノベーションとしてのHadoop

ビッグデータテクノロジー完全ガイド

小林啓倫

第1部　ビッグデータ時代の方向性

第1章　データで成功するための4つのルール

第2部　大量データの収集と共有

第2章　テラバイト級ローデータの保管と共有

第3章　データ収集ウェブアプリをNoSQLベースで開発する

第4章　データのサイロ化に対抗する戦略

第3部　手にしたデータを分析する

第5章　 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する

第6章　BigQueryを利用してデータダッシュボードを構築する

第7章　大量データ分析におけるビジュアル化の戦略

第4部　データパイプラインを構築する

第8章　処理を統合する― MapReduceデータパイプライン

第９章　 PigとCascadingでデータ変換ワークフローを構築する

第5部　大量データにおける機械学習

第10章　Mahoutを利用してデータ分類システムを構築する

第6部　大量データの統計分析

第11 章　Rで大量データを分析する

第12章　 PythonとPandasを利用して分析ワーク

第7部　データ分析技術のこれから

第13章　開発・購入・アウトソースの判断

第14章　未来を考える― データ技術のトレンド