関連サイト
本書の関連ページが用意されています。
内容紹介
Kaggleのコンペティションによって機械学習を学ぼうとしている読者のためのKaggle入門書です。Pythonと機械学習についての基礎的な知識を有している読者が、Kaggleから機械学習を学べるようサポートすることを目標としています。
過去のKaggleのコンペティションから、機械学習モデルの正確度を高める実質的な方法について重点的に扱っていきます。多様なデータに接しモデリングを経験できるよう、表形式データを扱うコンペティションを2つ、音声データ/イメージデータを扱うコンペティションを1つずつ、計4つのKaggleコンペティションを選択しました。
表形式データ(テーブルデータ)を扱うコンペティションでは、データの前処理、特徴量エンジニアリングの内容に重点をおき、学習モデルはXGBoost、LightGBMのようなツリーを基盤としたモデルを使用しました。
音声データとイメージデータを扱うコンペティションでは、ディープラーニングモデルの学習に重点を置き、CNNのディープラーニングモデルが使われます。
それぞれの章でコンペティション別に、大会の紹介、主催側の動機、評価の基準、主要なアプローチ、データを準備する方法、データ分析、勝者の智恵に至るまで具体的に検討します。そして過去のコンペティションで使用されたPythonコードを実行することで、探索的データ分析を進め、機械学習モデルを学び、最終的にKaggleに結果をアップロードして性能が向上したことを体験できます。
筆者は本書を通して、読者が機械学習の問題を解くために悩んでほしいと思っています。「次の段階では何をしなければならないのか?」「機械学習モデルの性能を高めるためには何をすればよいのか?」「現在の機械学習パイプラインのどこに問題があるのか?」などの質問を自分自身に投げかけ、悩むことをおすすめします。たっぷりと悩みながらこの本を読みコンペティションに参加したならば、非常に多くのことを得るはずです。
筆者がKaggleを通して多くのことを学んだように、読者の皆さんもぜひKaggleを通して機械学習に没頭してほしいと思います。
書誌情報
- 著者: Jung Kweon Woo, 金重明, 巣籠悠輔
- 発行日: 2020-12-25 (紙書籍版発行日: 2020-12-25)
- 最終更新日: 2020-12-25
- バージョン: 1.0.0
- ページ数: 384ページ(PDF版換算)
- 対応フォーマット: PDF
- 出版社: マイナビ出版
対象読者
著者について
Jung Kweon Woo
カーネギーメロン大学応用数学科の学部を卒業。5歳から、幼稚園、小・中・高校時代を日本の東京で過ごし、アメリカの大学に進学した関係で、韓国語、日本語、英語に通じている。大学では金融数学を専攻し、UBS Seoul、JP Morgan Tokyo支社で社会生活をはじめた。Kaggleのコンペティションを通して機械学習をさらに学び、Kaggleのグローバルランキングがその人の機械学習の能力を代弁すると信じるようになる。Kaggleの許可を得て公式プログラムを韓国語に翻訳している。
モバイルコンテンツプラットフォームであるKakaoページを運営しているDaumの子会社であるPodotreeを経て、DATANADAで機械学習エンジニアとして活躍。現在はNaver Papago内のチームで、ディープラーニングにより優れた翻訳機の開発について取り組んでいる。
金重明
1997年『算学武芸帳』(朝日新聞社)で朝日新人文学賞を受賞。2014 年『13歳の娘に語る ガロアの数学』(岩波書店)で日本数学会出版賞を受賞。著書に『13歳の娘に語る アルキメデスの無限小』(岩波書店)、『方程式のガロア群』(講談社ブルーバックス)、翻訳書に『マンガで学ぶ 重力』『マンガで学ぶ ゲノム』(マイナビ出版)など多数。
巣籠悠輔
株式会社GRIT Tech CTO、日本ディープラーニング協会 有識者会員。2018年にForbes 30 Under 30 Asia 2018 に選出。著書に『詳解ディープラーニング 第2版』、監訳書に『PythonとKerasによるディープラーニング』(マイナビ出版)がある。
目次
CHAPTER 0 準備編
- 0.1 対象とする読者
- 0.2 こんな感じで読んでください
- 0.3 開発環境の準備
CHAPTER 1 Pythonと機械学習 そしてKaggle
- 1.1 なぜPython なのか
- 1.2 なぜKaggle なのか
- 1.3 Kaggle をはじめる方法
- 1.4 コンペティションで通用する実質的なtips
- 1.5 コンペティション選別の基準
CHAPTER 2 サンタンデール・商品推薦 コンペティション
- 2.1 コンペティションの紹介
- 2.2 コンペティション主催者の動機
- 2.3 評価の基準
- 2.4 主要なアプローチ
- 2.5 データの準備
- 2.6 探索的データ分析
- 2.7 Baseline モデル
- 2.8 勝者の知恵――8位のソースコード分析
- 2.9 勝者の知恵
CHAPTER 3 TensorFlow 音声認識 コンペティション
- 3.1 コンペティション紹介
- 3.2 コンペティション主催者の動機
- 3.3 評価の基準
- 3.4 主要なアプローチ
- 3.5 データの準備
- 3.6 探索的データ分析
- 3.7 Baselineモデル
- 3.8 勝者の知恵―3位のソースコードの分析
- 3.9 勝者の知恵
CHAPTER 4 ポルトセグロ・安全ドライバー予測 コンペティション
- 4.1 コンペティション紹介
- 4.2 コンペティション主催者の動機
- 4.3 評価の基準
- 4.4 主要なアプローチ
- 4.5 データの準備
- 4.6 探索的データ分析
- 4.7 Baseline モデル
- 4.8 勝者の知恵―2位のソースコードの分析
- 4.9 勝者の知恵
CHAPTER 5 ステートファーム・散漫なドライバー検知 コンペティション
- 5.1 コンペティション紹介
- 5.2 コンペティション主催者の動機
- 5.3 評価の基準
- 5.4 主要なアプローチ
- 5.5 データの準備
- 5.6 探索的データ分析
- 5.7 Baselineモデル
- 5.8 性能改善の実験
- 5.9 勝者の知恵