

グランドマスター三冠のKaggleノートブック開発術 単変量解析から地理情報分析/偽動画検出/LLMまで
3,960円
(3,600円+税)
【注意】本書のEPUB版は固定レイアウト型になっております。文字の大きさの変更や検索、引用などはお使いいただけません。画面の大きい端末でご利用ください。
関連サイト
本書の関連ページが用意されています。
内容紹介
Kaggleで基礎から新規テーマまで、さまざまなデータ分析技術を習得できる!
著者は、3つのKaggleのカテゴリーでグランドマスターを獲得。著者がこれまでに培った技術をもとに、さまざまなデータ分析の手法を解説していきます。
Kaggleの基本機能の紹介から始まり、データ分析・可視化、地理情報や画像データセットの分析、テキスト分析、時系列データ処理、ディープフェイク動画検出など、分析対象のデータ種類を網羅的に取り上げます。
さらに、LangChainとLLMを使ったRAGシステム(特定情報の追加学習可能な生成AIシステム)の構築といった新規性の高いテーマも取り上げます。
Kaggleはデータサイエンス/機械学習プラットフォーム&コミュニティです。本書を手がかりに、Kaggleでデータ分析技術を幅広く習得しつつ、さまざまなコンペティションに挑戦し、自身のランクアップも推進しよう。
◎地理、画像、テキストなど、多様なデータセットの分析方法を学べる
◎グランドマスターが得た専門知識と上位ランキングへのヒントを紹介
◎生成AIアプリのプロトタイピングに役立つモデルの活用も解説
※本書は、『Developing Kaggle Notebooks: Pave your way to becoming a Kaggle Notebooks Grandmaster』の翻訳書です。
書誌情報
- 著者: Gabriel Preda(著), 株式会社クイープ(訳)
- 発行日: 2025-02-19 (紙書籍版発行日: 2025-02-19)
- 最終更新日: 2025-02-19
- バージョン: 1.0.0
- ページ数: 362ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
◎Kaggleの初中級者から経験豊富なユーザーまで◎Kaggleランキング上位を目指すユーザー◎データ分析に興味を持つプロフェッショナル
著者について
Gabriel Preda

大手ソフトウェアサービス会社Endavaの主任データサイエンティスト。金融サービス、銀行業、ポートフォリオ管理、通信、医療など、さまざまな業界のプロジェクトに取り組み、リスク予測、顧客離脱分析、異常検出、文書情報抽出など、さまざまな機械学習ソリューションを開発。計算電磁気学の博士号を取得。
株式会社クイープ

コンピュータシステムの開発、ローカライズ、コンサルティングを手がけている。本書の姉妹書である『The Kaggle Book:データ分析競技実践ガイド&精鋭31人インタビュー』を翻訳。最近の訳書に『Pythonライブラリによる因果推論・因果探索[概念と実践]因果機械学習の鍵を解く』『AWSインフラサービス活用大全[第2版] 構築・運用、自動化、データストア、高信頼化』などがある(いずれもインプレス発行)。
目次
まえがき
- 著者紹介、レビュー担当者紹介
- 謝辞
- はじめに
- 本書の内容
目次
第1章 Kaggleとその基本機能
- 1.1 Kaggleプラットフォーム
- 1.2 Kaggle Competitions
- 1.3 Kaggle Datasets
- 1.4 Kaggle Code
- 1.5 Kaggle Discussions
- 1.6 Kaggle Learn
- 1.7 Kaggle Models
- 1.8 本章のまとめ
第2章 Kaggleノートブック作成の準備
- 2.1 Kaggle Notebooksとは何か
- 2.2 ノートブックを作成する方法
- 2.3 ノートブックの機能を探索する
- 2.3.1 基本的な機能
- 2.3.2 高度な機能
- 2.4 Kaggle APIを使ったノートブックの作成、更新、ダウンロード、監視
- 2.5 本章のまとめ
第3章 Kaggleという旅の始まり―タイタニック号事件の分析
- 3.1 タイタニック号の悲劇
- 3.2 データを検査する
- 3.2.1 データを理解する
- 3.2.2 データを分析する
- 3.3 単変量解析を行う
- 3.4 多変量解析を行う
- 3.5 乗客の名前から意味のある情報を抽出する
- 3.6 複数のプロットを表示するダッシュボードを作成する
- 3.7 ベースラインモデルを構築する
- 3.8 本章のまとめ
- 3.9 参考資料
第4章 単変量/二変量/地理空間分析の方法―パブとスターバックス
- 4.1 イギリスのパブ
- 4.1.1 データ品質のチェック
- 4.1.2 データ探索
- 4.2 世界中のスターバックス
- 4.2.1 予備的なデータ分析
- 4.2.2 単変量解析と二変量解析
- 4.2.3 地理空間分析
- 4.3 ロンドンのパブとスターバックス
- 4.3.1 データの前処理
- 4.3.2 地理空間分析
- 4.4 本章のまとめ
- 4.5 参考資料
第5章 データ分析に基づくストーリーと仮説検証―発展途上国向け小口融資とMeta Kaggle
- 5.1 Data Science for Good: Kiva Crowdfundingコンペティション
- 5.2 Kivaコンペティションの分析:データが増えるほど、洞察は深まる
- 5.2.1 借り手の人口統計を理解する
- 5.2.2 MPIと他の要因との相関を探る
- 5.2.3 レーダーチャートで貧困の次元を可視化する
- 5.2.4 最後に
- 5.3 データセットごとに異なるストーリーを伝える
- 5.3.1 プロット
- 5.3.2 実際の推移
- 5.3.3 結論
- 5.4 本章のまとめ
- 5.5 参考資料
第6章 画像データ分析―ミツバチの亜種を予測
- 6.1 データ探索
- 6.1.1 データ品質をチェックする
- 6.1.2 画像データを探索する
- 6.1.3 場所
- 6.1.4 日付と時刻
- 6.1.5 亜種
- 6.1.6 健康状態
- 6.1.7 その他
- 6.1.8 結論
- 6.2 亜種の分類
- 6.2.1 データを分割する
- 6.2.2 データ拡張
- 6.2.3 ベースラインモデルを構築する
- 6.2.4 モデルを反復的に改善する
- 6.3 本章のまとめ
- 6.4 参考資料
第7章 テキスト分析―単語埋め込み、双方向LSTM、Transformer
- 7.1 データ探索
- 7.1.1 目的変数
- 7.1.2 センシティブな特徴量
- 7.2 コメントテキストを分析する
- 7.2.1 トピックモデリング
- 7.2.2 固有表現抽出(NER)
- 7.2.3 品詞タグ付け
- 7.3 モデルを準備する
- 7.3.1 語彙を構築する
- 7.3.2 埋め込みインデックスと埋め込み行列
- 7.3.3 語彙のカバレッジを確認する
- 7.3.4 語彙のカバレッジを反復的に改善する
- 7.4 ベースラインモデルを構築する
- 7.5 Transformerベースのソリューション
- 7.6 本章のまとめ
- 7.7 参考資料
第8章 音響信号の分析による模擬地震の予測
- 8.1 LANL Earthquake Predictionコンペティション
- 8.2 信号データのフォーマット
- 8.3 コンペティションデータを探索する
- 8.3.1 ソリューションのアプローチ
- 8.4 特徴量エンジニアリング
- 8.4.1 トレンド特徴量と従来のSTA/LTA
- 8.4.2 FFTベースの特徴量
- 8.4.3 集約関数を使って計算された特徴量
- 8.4.4 ヒルベルト変換とハン窓を使って計算された特徴量
- 8.4.5 移動平均に基づく特徴量
- 8.5 ベースラインモデルを構築する
- 8.6 本章のまとめ
- 8.7 参考資料
第9章 ディープフェイク動画を探す
- 9.1 Deepfake Detection Challengeコンペティション
- 9.2 コンペティションのユーティリティスクリプト
- 9.2.1 動画データを可視化するユーティリティスクリプト
- 9.2.2 顔と体を検出するユーティリティスクリプト
- 9.3 メタデータを探索する
- 9.4 動画データを探索する
- 9.4.1 サンプルファイルを可視化する
- 9.4.2 物体検出を実行する
- 9.5 本章のまとめ
- 9.6 参考資料
第10章 Kaggleモデルで生成AIの能力を引き出す
- 10.1 Kaggle Models
- 10.2 基盤モデルのプロンプトを作成する
- 10.2.1 モデルの評価とテスト
- 10.2.2 モデルの量子化
- 10.3 LangChainを使ってマルチタスクアプリケーションを構築する
- 10.4 Kaggle Modelsを使ったコード生成
- 10.5 RAGシステムを作成する
- 10.6 本章のまとめ
- 10.7 参考資料
第11章 旅の終わり―存在感を保ち、トップであり続けるために
- 11.1 成功したGrandmasterから学ぶ
- 11.2 ノートブックの定期的な見直しと改善
- 11.3 他のユーザーの貢献を評価し、あなたならではのタッチを加える
- 11.4 スピードが命:完璧になるまで待たない
- 11.5 寛大であれ:知識を共有する
- 11.6 コンフォートゾーンから飛び出す
- 11.7 感謝の気持ちを持つ
- 11.8 本章のまとめ
- 11.9 参考資料