関連サイト
本書の関連ページが用意されています。
内容紹介
Apach Hadoop 3/MapR 6.0とエコシステムによるビッグデータ分析基盤の構築の実践ガイド
Hadoop基盤の方向性の検討や戦略の立案、および、意思決定を行う企画部門や、実際に基盤構築を行う技術者が、導入前の検討を実践できる内容を盛り込みました。具体的には、ビッグデータ処理システムの経緯、目的、Hadoopとその周辺ソフトウェアの特徴、導入時の検討項目、注意点、システム構成例などの要点を知ることができます。また、大規模なデータ処理基盤の構築の経験がない技術者でも、Hadoopをインストールし、使用できるように、一連の手順をステップバイステップで具体的に記載しています。
エコシステムとしては、日本の企業においても導入が積極的に行われているインメモリ型の分析、および、機械学習のフレームワークを提供するSpark、機械学習エンジンのMahout、従来のRDBMSのSQL文のようなデータ操作を実現するHive、Impala、列指向の分散データベースであるHBase、データの加工や抽出を行うPig、RDBMSとHadoop間でのデータ転送を実現するSqoop、SNSやログなどのさまざまな種類データをHadoopに取り込むFlumeといった、利用頻度の高いHadoop周辺ソフトウェアの具体的な構築手順と使用例を網羅しました。これらの多くの事例により、最新のビッグデータ処理基盤で提供される機能や基本的な使用法を理解できます。
書誌情報
- 著者: 古賀 政純
- 発行日: 2018-05-17 (紙書籍版発行日: 2018-05-17)
- 最終更新日: 2018-05-17
- バージョン: 1.0.0
- ページ数: 384ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
著者について
古賀 政純
兵庫県伊丹市出身。1996年頃からオープンソースに携わる。2000年よりUNIXサーバーのSE及びスーパーコンピューターの並列計算プログラミング講師、SIを経験。2006年、米国ヒューレット・パッカードからLinux技術の伝道師として「OpenSource and Linux Ambassador Hall of Fame」を2年連続受賞。プリセールスMVPを4度受賞。現在は、日本ヒューレット・パッカードにて、Hadoop、Spark、Docker、OpenStack、Linux、FreeBSDなどのサーバー基盤のプリセールスSE、文書執筆を担当。日本ヒューレット・パッカードが認定するオープンソース・Linuxテクノロジーエバンジェリストとして、メディアでの連載記事執筆、講演活動なども行っている。Red Hat Certified Virtualization Administrator, Novell Certified Linux Professional, Red Hat Certified System Administrator in Red Hat OpenStack, Cloudera Certified Administrator for Apache Hadoopなどの技術者認定資格を保有。著書に「Docker 実践ガイド」「CentOS 7実践ガイド」「Ubuntu Server実践入門」などがある。趣味はレーシングカートとビリヤード。
目次
はじめに
本書の表記
第 1 章 ビッグデータ分析基盤の概要
- 1-1 ビッグデータ分析ニーズの拡大
- 1-2 Hadoop の種類を知る
- 1-3 Hadoop の沿革
- 1-4 Apache Hadoop 3
- 1-5 まとめ
第 2 章 Hadoop のシステム構成
- 2-1 Hadoop 導入前の検討
- 2-2 ハードウェアコンポーネントの検討
- 2-3 MapR 6.0
- 2-4 MapR 6.0 におけるハードウェアの検討
- 2-5 Hadoop クラウド基盤の検討
- 2-6 まとめ
第 3 章 ハードウェアの事前設定と Hadoop のインストール
- 3-1 Hadoop クラスターハードウェアの設定
- 3-2 Apache Hadoop 3 基盤の構築手順
- 3-3 MapR 版 Hadoop 基盤の構築手順
- 3-4 まとめ
第 4 章 Hadoop クラスターの運用管理
- 4-1 Apache Hadoop 3 クラスターの管理
- 4-2 MapR クラスターの運用管理手法
- 4-3 まとめ
第 5 章 Spark - SQL、ストリーミング、グラフデータの処理、分類器の利用
- 5-1 ビッグデータ処理の高速化
- 5-2 Spark on Hadoop 3 クラスターの構築
- 5-3 Scala プログラム
- 5-4 Spark on MapR クラスターの構築
- 5-5 MapR 版 Spark のスタンドアロン構築
- 5-6 Spark SQL
- 5-7 Spark Streaming
- 5-8 Spark GraphX
- 5-9 SparkR
- 5-10 Spark MLlib
- 5-11 ニューラルネットワークによる学習
- 5-12 まとめ
第 6 章 Hive/Impala/HBase/Pig - データベースの操作
- 6-1 Apache Hive
- 6-2 Apache Impala
- 6-3 Apache HBase
- 6-4 MapR-DB
- 6-5 Apache Pig
- 6-6 まとめ
第 7 章 Sqoop/Flume- データのインポート/エクスポート
- 7-1 Apache Sqoop
- 7-2 Apache Flume
- 7-3 まとめ
第 8 章 Mahout - 機械学習(クラス分類と協調フィルタリング)
- 8-1 Apache Mahout とは?
- 8-2 Apache Mahout の実行例
- 8-3 まとめ