関連サイト
本書の関連ページが用意されています。
内容紹介
機械学習においてはモデルを作成しデータを与えて学習させますが、その前に生データをモデルが理解できるような形式に変換する「特徴量エンジニアリング」と呼ばる重要なステップがあります。データサイエンティストはモデルの学習に使用する生データを選び特徴量に変換したり、データを組み合わせ新しい特徴量を作成します。うまく設計された特徴量は、機械学習モデルの精度を大幅に向上させ、学習にかかる時間を短縮することができます。
本書は特徴量エンジニアリングの実践的なガイドであり、機械学習のための特徴量を作成するための効果的なテクニックとベストプラクティスを学ぶことができます。Pythonを活用し、70以上の実践的な"レシピ"により特徴量の抽出を手軽に行います。pandas、scikit-learnに特徴量エンジニアリングライブラリであるFeature-engine、Category Encoders、Featuretools、tsfreshを利用し、新しい特徴量を変換・作成します。
欠損データの補完、カテゴリエンコーディング、変数変換、離散化、スケーリング、外れ値の取り扱いなど表形式データに対する特徴量エンジニアリングのほぼすべてのトピックをカバー。日付と時刻、テキスト、時系列、リレーショナルデータセットから特徴量を抽出する方法についても解説。テキストからの特徴量の抽出の付録として日本語モデルでの実例も取り上げます。
Packt Publishing: Python Feature Engineering Cookbook, Second Edition の翻訳書。
書誌情報
- 著者: Soledad Galli(著), 松田晃一(訳)
- 発行日: 2023-06-23
- 最終更新日: 2023-06-23
- バージョン: 1.0.0
- ページ数: 448ページ(PDF版換算)
- 対応フォーマット: PDF
- 出版社: マイナビ出版
対象読者
著者について
Soledad Galli
世界的な学術機関や有名な企業で10年以上の経験を持つデータサイエンティスト、インストラクター、ソフトウェア開発者。保険金請求や信用リスクの評価、詐欺の防止を目的とした機械学習モデルを開発し実運用に成功している。複数のオンラインコースで機械学習を教えており、オープンソースのPythonライブラリFeature-engineを開発・保守している。2018年にData Science Leaders Awardを受賞、2019年にデータサイエンスと分析におけるLinkedIn Voices (LinkedInインフルエンサー) の1人に認定されている。
松田晃一
石川県羽咋市生まれ。『宇宙船ビーグル号の冒険』を読み、絵描きではなく、コンピュータの道へ。海(海水浴)と温泉を好む。著書に『Python ライブラリの使い方~ GUI から機械学習プログラミングまで』、『p5.js プログラミングガイド改訂版』(カットシステム)、『学生のためのPython』(東京電機大学出版局)、『WebGL Programming Guide』(Addison-Welsley Professional)など、訳書に『APIデザイン・パターン』、『プログラミングのための数学』(マイナビ出版)、『生成 Deep Learning』、『詳解OpenCV3』(オライリー・ジャパン)、『デザインのためのデザイン』(ピアソン桐原)などがある。