関連サイト
本書の関連ページが用意されています。
内容紹介
大規模クラウドのデータ課題を解決するオープンテーブルフォーマットの決定版
現代のビッグデータ基盤は、前処理の複雑さやツールへの依存といった多くの課題を抱えています。こうした問題を解決するために登場したのが、オープンソースのテーブルフォーマットApache Icebergです。本書は、Icebergの基礎から実践的な応用までを網羅したガイドブックです。Icebergの仕組みや使い方を学ぶことで、インタラクティブな分析、バッチ処理、機械学習、ストリーミング処理を効率的に実現できます。
●本書の特徴
○データ活用の障壁をなくす:データの抽出・変換・書き出しといった複雑な前処理をシンプルにし、データ統合を容易にします。これにより、効率的な分析が可能になります。
○Icebergのすべてを体系的に習得:なぜIcebergが生まれたのかという背景から、独自のアーキテクチャ、テーブル操作の裏側で行われる処理まで、その仕組みを深く理解できます。
○主要ツールでの実践ノウハウ:Apache Spark、Dremio、AWS Glue、Apache Flinkなど、人気のデータ処理エンジンでの具体的な使い方をハンズオン形式で学べます。
○本番運用で役立つ知識:メタデータテーブルによる監視、Gitライクなブランチ機能によるデータ変更の分離、リスクを抑えた移行戦略など、本番環境での運用ノウハウを習得できます。
本書を通して、Icebergを自在に操り、複雑なデータ課題をシンプルに解決できるプロフェッショナルを目指してください。
※本書はO'Reilly Media『Apache Iceberg The Definitive Guide』の邦訳です。
書誌情報
- 著者: Tomer Shiran, Jason Hughes, Alex Merced(著), 蛯原 裕弥, 佐野 千紘(監修)
- 発行日: 2025-11-12 (紙書籍版発行日: 2025-11-12)
- 最終更新日: 2025-11-12
- バージョン: 1.0.0
- ページ数: 480ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
○データエンジニア、データアーキテクト○データレイクハウスの構築・運用に関わる方○ビッグデータ基盤のパフォーマンスやコストに課題を感じている方
著者について
Tomer Shiran
Dremioの創業者兼最高製品責任者(Chief Product Officer)。Dremioはオープンなデータレイクハウスを提供し、企業がデータウェアハウスのコストや複雑さ、ベンダーへのロックインを気にせずに、クラウドで分析を実行できるようにする。Dremioの創業CEOとして、Tomerは4億ドル以上を調達し、世界の最大手企業、特にフォーチュン5の3社を含む数百の企業にサービスを提供する世界クラスの組織を築き上げた。Dremioの前には、ビッグデータ分析の先駆者であるMapRの4番目の社員であり、製品の最高責任者を務めた。また、MicrosoftやIBM Researchで多数のプロダクトマネジメントおよびエンジニアリングの役職を歴任し、数百万人のユーザーと数十万人の課金顧客を対象としたウェブサイトを創設。広範な業界トピックに関する著名な著者およびプレゼンターでもあり、カーネギーメロン大学でコンピュータエンジニアリングの修士号、イスラエル工科大学(Technion)でコンピュータサイエンスの学士号を取得している。
Jason Hughes

Dremioのテクニカルアドボカシー部門のディレクター。以前はDremioでプロダクトディレクター、テクニカルディレクター、シニアソリューションアーキテクトとして活動してきた。テクノロジーとデータの分野で10年以上にわたり活動しており、Dremioではテクニカルリードとして、TeradataではPrestoとQueryGridのアメリカ地域のプリセールスおよびポストセールスリードとしても経験がある。また、複数の自動車ディーラー向けにカスタムCRMシステムの開発、展開、管理をリードしたこともある。顧客や個人が成功し、自立的に活動できることに情熱を持っている。仕事の合間には、犬を公園に連れて行ったり、ホッケーをしたり、料理をすることが趣味。カリフォルニア州サンディエゴ在住。各種内製アプリケーション開発の推進も行なっており、ローコード開発基盤を用いてメタデータ管理システムやデータ活用のためのSQL駆動BIツール等も開発。レガシーシステムを維持しつつ新規周辺システムを、データを起点に横断的に接続するための内製手法の標準化などにも取り組んでいる。
Alex Merced

Dremio のデベロッパーアドボケイトであり、GenEd Systems、Crossfield Digital、CampusGuard、General Assemblyなどの企業で開発者および講師としても活動してきた。テクノロジーに情熱を持ち、ブログ、ビデオ、DatanationとWeb Dev 101などのポッドキャストでコンテンツを提供。また、JavaScriptおよびPythonでSencilloDB、CoquitoJS、dremio-simple-queryなどのライブラリの開発も行なっている。
蛯原 裕弥

Starburst ソフトウェアエンジニア、TrinoおよびApache Polarisのコミッター。2021年8月より現職。Trinoへの新しいSQLシンタックスの追加、Apache IcebergやDelta Lake向けのコネクタの開発およびStarburstの日本市場への展開を支援している。
佐野 千紘

Cloudera ソリューションエンジニア。金融業界でのシステム開発や外資系IT企業でのソリューション提案を経て、2023年1月より現職。Hive、Impala、Iceberg等の導入支援を通じて、技術が利用者やビジネスに何をもたらすのかをわかりやすく伝える仕事をしている。
目次
日本語版の刊行にあたって── 翻訳・監修者による前書き
- 推薦のことば
- 目次
- 序文
- フィードバックと質問
- 表記上のルール
- コード例や追加資料/謝辞
- 翻訳・監修者謝辞
第1部 Apache Icebergの基礎
第1章 Apache Icebergへようこそ
- 1-1 どのようにここまでたどり着いたのか? 簡単な歴史の振り返り
- 1-2 データウェアハウス
- 1-3 データレイク
- 1-4 データレイクとデータウェアハウスのどちらで分析するとよいか?
- 1-5 データレイクハウス
- 1-6 テーブルフォーマットとは何か?
- 1-7 Hive:最初のテーブルフォーマット
- 1-8 モダンなデータレイクのテーブルフォーマット
- 1-9 Apache Icebergとは何か?
- 1-10 まとめ
第2章 Apache Icebergのアーキテクチャ
- 2-1 データレイヤー
- 2-2 メタデータレイヤー
- 2-3 カタログ
- 2-4 まとめ
第3章 読み書きを行なうクエリのライフサイクル
- 3-1 Apache Icebergにおける書き込みクエリ
- 3-2 Apache Icebergにおける読み取りクエリ
- 3-3 まとめ
第4章 Icebergテーブルの最適化/4-1 コンパクション
- 4-2 コンパクションの演習
- 4-3 ソート
- 4-4 Z オーダー
- 4-5 パーティショニング
- 4-6 コピーオンライトvsマージオンリード
- 4-7 その他の考慮点
- 4-8 まとめ
第5章 Icebergカタログ/5-1 Icebergカタログの要件
- 5-2 カタログの比較
- 5-3 カタログの移行
- 5-4 まとめ
第2部 Apache Icebergハンズオン
第6章 Apache Spark
- 6-1 設定
- 6-2 DDLの操作
- 6-3 データの読み込み
- 6-4 データの書き込み
- 6-5 Icebergテーブルを管理するためのプロシージャ
- 6-6 まとめ
第7章 Dremio SQLクエリエンジン/7-1 設定
- 7-2 DDLの操作
- 7-3 データの読み込み
- 7-4 データの書き込み
- 7-5 Icebergテーブルを管理するためのプロシージャ
- 7-6 まとめ
- 監修・補足 Trino SQLクエリエンジン
- A-1 設定
- A-2 DDLの操作
- A-3 データの読み込み
- A-4 データの書き込み
- A-5 Icebergテーブルを管理するためのプロシージャ
- 監修・補足 Apache Hive SQLクエリエンジン
- B-1 設定
- B-2 DDL の操作
- B-3 DML の操作
- B-4 データの読み込み
- B-5 Icebergテーブルを管理するためのプロシージャ
第8章 AWS Glue
- 8-1 設定
- 8-2 Glueカタログを用いたテーブル作成
- 8-3 まとめ
第9章 Apache Flink
- 9-1 設定
- 9-2 DDL の操作
- 9-3 データの読み込み
- 9-4 データの書き込み
- 9-5 FlinkのDataStreamおよびTable API を使用したApache Icebergテーブル操作
- 9-6 まとめ
第3部 Apache Iceberg実践
第10章 Apache Icebergの本番利用
- 10-1 Apache Icebergのメタデータテーブル
- 10-2 ブランチを利用した変更の分離
- 10-3 マルチテーブルトランザクション
- 10-4 変更のロールバック
- 10-5 まとめ
第11章 Apache Icebergとストリーミング処理
- 11-1 Apache Sparkを利用したストリーミング
- 11-2 Apache Flinkを利用したストリーミング
- 11-3 Kafka Connectを利用したストリーミング
- 11-4 AWS を利用したストリーミング
- 11-5 まとめ
第12章 ガバナンスおよびセキュリティ
- 12-1 データファイルの安全化
- 12-2 セマンティックレイヤーにおける安全化と制御
- 12-3 カタログレベルでのセキュリティとガバナンス
- 12-4 安全性と制御に関する追加の考慮事項
- 12-5 まとめ
第13章 Apache Icebergへの移行
- 13-1 移行の際の考慮事項
- 13-2 HiveテーブルからIcebergテーブルへの移行
- 13-3 Delta LakeからApache Icebergへの移行
- 13-4 Apache HudiからApache Icebergへの移行
- 13-5 ファイル単位でのApache Icebergへの移行
- 13-6 データの再書き込みによる移行
- 13-7 まとめ
第14章 Apache Icebergのユースケース
- 14-1 Apache IcebergにおけるWrite-Audit-Publish(WAP)を用いたデータ品質の確保
- 14-2 データレイク上でのBIワークロードの実行
- 14-3 Apache Icebergを用いたCDCの実行
- 14-4 まとめ
- 監修・補足 PyIcebergの利用方法
- 監修・補足 Iceberg Rust
- 監修・補足 LINE ヤフーの活用事例
