試験公開中

このエントリーをはてなブックマークに追加

グランドマスター三冠のKaggleノートブック開発術 単変量解析から地理情報分析/偽動画検出/LLMまで

インプレス

3,960円 (3,600円+税)

著者はKaggleの3つのカテゴリーでグランドマスターを獲得。本書では、これまでに培った技術をもとに、さまざまなデータ分析の手法を解説。Kaggleの基本機能から、分析・可視化の基礎、地理情報や画像データの分析、テキスト分析、時系列データ処理、ディープフェイク動画検出などを取り上げます。

【注意】本書のEPUB版は固定レイアウト型になっております。文字の大きさの変更や検索、引用などはお使いいただけません。画面の大きい端末でご利用ください。

関連サイト

本書の関連ページが用意されています。

内容紹介

Kaggleで基礎から新規テーマまで、さまざまなデータ分析技術を習得できる!

著者は、3つのKaggleのカテゴリーでグランドマスターを獲得。著者がこれまでに培った技術をもとに、さまざまなデータ分析の手法を解説していきます。

Kaggleの基本機能の紹介から始まり、データ分析・可視化、地理情報や画像データセットの分析、テキスト分析、時系列データ処理、ディープフェイク動画検出など、分析対象のデータ種類を網羅的に取り上げます。

さらに、LangChainとLLMを使ったRAGシステム(特定情報の追加学習可能な生成AIシステム)の構築といった新規性の高いテーマも取り上げます。

Kaggleはデータサイエンス/機械学習プラットフォーム&コミュニティです。本書を手がかりに、Kaggleでデータ分析技術を幅広く習得しつつ、さまざまなコンペティションに挑戦し、自身のランクアップも推進しよう。

◎地理、画像、テキストなど、多様なデータセットの分析方法を学べる
◎グランドマスターが得た専門知識と上位ランキングへのヒントを紹介
◎生成AIアプリのプロトタイピングに役立つモデルの活用も解説

※本書は、『Developing Kaggle Notebooks: Pave your way to becoming a Kaggle Notebooks Grandmaster』の翻訳書です。

書誌情報

  • 著者: Gabriel Preda(著), 株式会社クイープ(訳)
  • 発行日: (紙書籍版発行日: 2025-02-19)
  • 最終更新日: 2025-02-19
  • バージョン: 1.0.0
  • ページ数: 362ページ(PDF版換算)
  • 対応フォーマット: PDF, EPUB
  • 出版社: インプレス

対象読者

◎Kaggleの初中級者から経験豊富なユーザーまで◎Kaggleランキング上位を目指すユーザー◎データ分析に興味を持つプロフェッショナル

著者について

Gabriel Preda

大手ソフトウェアサービス会社Endavaの主任データサイエンティスト。金融サービス、銀行業、ポートフォリオ管理、通信、医療など、さまざまな業界のプロジェクトに取り組み、リスク予測、顧客離脱分析、異常検出、文書情報抽出など、さまざまな機械学習ソリューションを開発。計算電磁気学の博士号を取得。

株式会社クイープ

コンピュータシステムの開発、ローカライズ、コンサルティングを手がけている。本書の姉妹書である『The Kaggle Book:データ分析競技実践ガイド&精鋭31人インタビュー』を翻訳。最近の訳書に『Pythonライブラリによる因果推論・因果探索[概念と実践]因果機械学習の鍵を解く』『AWSインフラサービス活用大全[第2版] 構築・運用、自動化、データストア、高信頼化』などがある(いずれもインプレス発行)。

目次

まえがき

  • 著者紹介、レビュー担当者紹介
  • 謝辞
  • はじめに
  • 本書の内容

目次

第1章 Kaggleとその基本機能

  • 1.1 Kaggleプラットフォーム
  • 1.2 Kaggle Competitions
  • 1.3 Kaggle Datasets
  • 1.4 Kaggle Code
  • 1.5 Kaggle Discussions
  • 1.6 Kaggle Learn
  • 1.7 Kaggle Models
  • 1.8 本章のまとめ

第2章 Kaggleノートブック作成の準備

  • 2.1 Kaggle Notebooksとは何か
  • 2.2 ノートブックを作成する方法
  • 2.3 ノートブックの機能を探索する
  • 2.3.1 基本的な機能
  • 2.3.2 高度な機能
  • 2.4 Kaggle APIを使ったノートブックの作成、更新、ダウンロード、監視
  • 2.5 本章のまとめ

第3章 Kaggleという旅の始まり―タイタニック号事件の分析

  • 3.1 タイタニック号の悲劇
  • 3.2 データを検査する
  • 3.2.1 データを理解する
  • 3.2.2 データを分析する
  • 3.3 単変量解析を行う
  • 3.4 多変量解析を行う
  • 3.5 乗客の名前から意味のある情報を抽出する
  • 3.6 複数のプロットを表示するダッシュボードを作成する
  • 3.7 ベースラインモデルを構築する
  • 3.8 本章のまとめ
  • 3.9 参考資料

第4章 単変量/二変量/地理空間分析の方法―パブとスターバックス

  • 4.1 イギリスのパブ
  • 4.1.1 データ品質のチェック
  • 4.1.2 データ探索
  • 4.2 世界中のスターバックス
  • 4.2.1 予備的なデータ分析
  • 4.2.2 単変量解析と二変量解析
  • 4.2.3 地理空間分析
  • 4.3 ロンドンのパブとスターバックス
  • 4.3.1 データの前処理
  • 4.3.2 地理空間分析
  • 4.4 本章のまとめ
  • 4.5 参考資料

第5章 データ分析に基づくストーリーと仮説検証―発展途上国向け小口融資とMeta Kaggle

  • 5.1 Data Science for Good: Kiva Crowdfundingコンペティション
  • 5.2 Kivaコンペティションの分析:データが増えるほど、洞察は深まる
  • 5.2.1 借り手の人口統計を理解する
  • 5.2.2 MPIと他の要因との相関を探る
  • 5.2.3 レーダーチャートで貧困の次元を可視化する
  • 5.2.4 最後に
  • 5.3 データセットごとに異なるストーリーを伝える
  • 5.3.1 プロット
  • 5.3.2 実際の推移
  • 5.3.3 結論
  • 5.4 本章のまとめ
  • 5.5 参考資料

第6章 画像データ分析―ミツバチの亜種を予測

  • 6.1 データ探索
  • 6.1.1 データ品質をチェックする
  • 6.1.2 画像データを探索する
  • 6.1.3 場所
  • 6.1.4 日付と時刻
  • 6.1.5 亜種
  • 6.1.6 健康状態
  • 6.1.7 その他
  • 6.1.8 結論
  • 6.2 亜種の分類
  • 6.2.1 データを分割する
  • 6.2.2 データ拡張
  • 6.2.3 ベースラインモデルを構築する
  • 6.2.4 モデルを反復的に改善する
  • 6.3 本章のまとめ
  • 6.4 参考資料

第7章 テキスト分析―単語埋め込み、双方向LSTM、Transformer

  • 7.1 データ探索
  • 7.1.1 目的変数
  • 7.1.2 センシティブな特徴量
  • 7.2 コメントテキストを分析する
  • 7.2.1 トピックモデリング
  • 7.2.2 固有表現抽出(NER)
  • 7.2.3 品詞タグ付け
  • 7.3 モデルを準備する
  • 7.3.1 語彙を構築する
  • 7.3.2 埋め込みインデックスと埋め込み行列
  • 7.3.3 語彙のカバレッジを確認する
  • 7.3.4 語彙のカバレッジを反復的に改善する
  • 7.4 ベースラインモデルを構築する
  • 7.5 Transformerベースのソリューション
  • 7.6 本章のまとめ
  • 7.7 参考資料

第8章 音響信号の分析による模擬地震の予測

  • 8.1 LANL Earthquake Predictionコンペティション
  • 8.2 信号データのフォーマット
  • 8.3 コンペティションデータを探索する
  • 8.3.1 ソリューションのアプローチ
  • 8.4 特徴量エンジニアリング
  • 8.4.1 トレンド特徴量と従来のSTA/LTA
  • 8.4.2 FFTベースの特徴量
  • 8.4.3 集約関数を使って計算された特徴量
  • 8.4.4 ヒルベルト変換とハン窓を使って計算された特徴量
  • 8.4.5 移動平均に基づく特徴量
  • 8.5 ベースラインモデルを構築する
  • 8.6 本章のまとめ
  • 8.7 参考資料

第9章 ディープフェイク動画を探す

  • 9.1 Deepfake Detection Challengeコンペティション
  • 9.2 コンペティションのユーティリティスクリプト
  • 9.2.1 動画データを可視化するユーティリティスクリプト
  • 9.2.2 顔と体を検出するユーティリティスクリプト
  • 9.3 メタデータを探索する
  • 9.4 動画データを探索する
  • 9.4.1 サンプルファイルを可視化する
  • 9.4.2 物体検出を実行する
  • 9.5 本章のまとめ
  • 9.6 参考資料

第10章 Kaggleモデルで生成AIの能力を引き出す

  • 10.1 Kaggle Models
  • 10.2 基盤モデルのプロンプトを作成する
  • 10.2.1 モデルの評価とテスト
  • 10.2.2 モデルの量子化
  • 10.3 LangChainを使ってマルチタスクアプリケーションを構築する
  • 10.4 Kaggle Modelsを使ったコード生成
  • 10.5 RAGシステムを作成する
  • 10.6 本章のまとめ
  • 10.7 参考資料

第11章 旅の終わり―存在感を保ち、トップであり続けるために

  • 11.1 成功したGrandmasterから学ぶ
  • 11.2 ノートブックの定期的な見直しと改善
  • 11.3 他のユーザーの貢献を評価し、あなたならではのタッチを加える
  • 11.4 スピードが命:完璧になるまで待たない
  • 11.5 寛大であれ:知識を共有する
  • 11.6 コンフォートゾーンから飛び出す
  • 11.7 感謝の気持ちを持つ
  • 11.8 本章のまとめ
  • 11.9 参考資料

索引

Home 書籍一覧 グランドマスター三冠のKaggleノートブック開発術 単変量解析から地理情報分析/偽動画検出/LLMまで ▲ ページトップへ戻る