関連サイト
本書の関連ページが用意されています。
内容紹介
名高いコンペの解き方をたどる! ケーススタディと練習問題で実践力を養おう
世界中の何百万人もの人々がKaggleに参加し、さまざまなコンペティションで、より良い結果を得るためにしのぎを削っています。
本書は、そのためのスキルをより素早く身につけるのに役立つワークブックとして構成されています。
過去の代表的なコンペを取り上げ、どのように段階を踏んでソリューションを構築していくのかを解説します。
たとえば、ディスカッションを読み、ノートブックを再利用し、特徴量エンジニアリングやさまざまなモデルの訓練を見ていきます。
テーマによっては、基本的なソリューションから高度なものへと発展させていきます。各種トピックについて理解を深めるための練習問題も掲載されています。
どのような情報や知見、理論をもとにして、どのようなソリューションが導き出されたのか。さまざまな手を尽くしながら競い合っていることもわかるでしょう。
※本書は『The Kaggle Workbook: Self-learning exercises and valuable insights for Kaggle data science competitions』の翻訳書です。
※本書の姉妹書『The Kaggle Book』の内容を参照する箇所があります。
※『The Kaggle Book』で説明しているKaggleプラットフォームやデータサイエンスの基本的な理解を前提にしています。
書誌情報
- 著者: Konrad Banachewicz, Luca Massaron(著), 株式会社クイープ(訳)
- 発行日: 2023-10-19 (紙書籍版発行日: 2023-10-19)
- 最終更新日: 2023-10-19
- バージョン: 1.0.0
- ページ数: 162ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
本書は、過去のコンペティションを実際に経験しておきたいKaggleノービス(初期エントリーレベル)とKaggleコントリビュータ(ノービスより1つ上のレベル)向けを想定して書かれています。
著者について
Konrad Banachewicz
アムステルダム自由大学にて統計学の博士号を取得。その後、さまざまな金融機関でデータ分析の問題に取り組む。電子商取引会社eBayのリードデータサイエンティストを経て、現在はデータサイエンティストとしてオンライン広告会社のAdevintaに勤務。Kaggleの称号としてNotebooksとDiscussionのGrandmaster、CompetitionsとDatasetsのMasterを取得。過去の最高ランクはDiscussionで7位。
Luca Massaron
10年以上の経験を有するデータサイエンティスト。現在、オンライン銀行illimity Bankのデータサイエンス&モデリング・シニア・エキスパート。機械学習のGoogleデベロッパーエキスパートであり、AIやアルゴリズムなどに関する多数の書籍の共著者でもある。Kaggleの称号としてDiscussionのGrandmaster、CompetitionsとNotebooksのMasterを取得。過去の最高ランクはCompetitionsで7位、Discussionで8位。
株式会社クイープ
1995年、米国サンフランシスコに設立。コンピュータシステムの開発、ローカライズ、コンサルティングを手がけている。2001年に日本法人を設立。主な訳書に、『The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー』『実践XAI[説明可能なAI]機械学習の予測を説明するためのPythonコーディング』『Python機械学習プログラミング PyTorch&scikit-learn編』などがある(いずれもインプレス発行)。
目次
はじめに
第1章 最も名高いテーブルコンペティション - Porto Seguro's Safe Driver Prediction
- 1.1 コンペティションとデータを理解する
- 1.2 評価指標を理解する
- 1.3 優勝したMichael Jahrerのソリューションを調べる
- 1.4 LightGBMベースのソリューションを構築する
- 1.5 デノイジングオートエンコーダとDNNをセットアップする
- 1.6 結果をアンサンブル化する
- 1.7 本章のまとめ
第2章 Makridakisコンペティション―正解率と不確実性に関するKaggleのM5
- 2.1 コンペティションとデータを理解する
- 2.2 評価指標を理解する
- 2.3 4位に入賞したMonsaraidaのソリューションを調べる
- インタビュー:Masanori Miyahara
- 2.4 特定の日付と時間区間の予測値を計算する
- 2.5 パブリックリーダーボードとプライベートリーダーボードの予測値を整理する
- 2.6 本章のまとめ
第3章 画像分類コンペティション―Cassava Leaf Disease Classification
- 3.1 データと指標を理解する
- 3.2 ベースラインモデルを構築する
- 3.3 上位のソリューションから学ぶ
- 3.3.1 事前訓練
- 3.3.2 テスト時のデータ拡張/3.3.3 Transformer
- 3.3.4 アンサンブル
- 3.4 完全なソリューション
- 3.5 本章のまとめ
第4章 自然言語処理コンペティション―Google QUEST Q&A Labeling
- 4.1 ベースラインソリューション
- 4.2 上位のソリューションから学ぶ
- 4.3 本章のまとめ