pandasライブラリ活用入門［第2版］データクリーニング／前処理など一連の分析プロセスをマスター！

ギフトで購入

pandasライブラリ活用入門［第2版］データクリーニング／前処理など一連の分析プロセスをマスター！

Daniel Y. Chen(著), 吉川邦夫(訳), 福島真太朗(監訳)

4,180円 (3,800円+税)

pandasで効率的なデータ操作と可視化を実践！解釈しやすい形にデータセットを変更できる― データの取り込みからデータ解析をスムーズに進めるためのPythonライブラリとしてpandasが用意されています。本書では、pandasなどを使ったデータ分析全体の基本手法を網羅的にカバー。巻末ではPython周辺の基本を確認できます。

【注意】本書のEPUB版は固定レイアウト型になっております。文字の大きさの変更や検索、引用などはお使いいただけません。画面の大きい端末でご利用ください。

内容紹介

＜データサイエンス／データ分析の基本技術を体系的に網羅！＞

＜pandasの威力を実感！効率的なデータ操作と可視化を実践できる＞

データ分析や機械学習を利用する現場では、データを取り込み、変換／整備する必要があります。そうしたデータの取り込みや前処理から始め、データ解析をスムーズに進めるためのPythonライブラリとして、pandasが用意されています。

本書では、pandasなどを使ったデータ分析全体の基本手法を体系的・網羅的にカバー。巻末の付録では、Python環境のインストールや文法などPythonの基本事項も確認できます。

初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について確認したりすることで、基礎技術の定着やスキルアップが図れる一冊になっています。

「データクリーニング／前処理に慣れてから、モデリングを解説！解釈しやすい形にデータセットを変更できる」

※本書は『Pandas for Everyone, 2nd Edition』の翻訳書です。

■本書の「序文」から抜粋

pandasを使うと、Pythonによるデータ分析が理解しやすくなり、組織的で保守が可能なデータセットを作ることができ、しかも（最も重要なことですが）整然としたデータセットが得られます。

書誌情報

著者: Daniel Y. Chen(著), 吉川邦夫(訳), 福島真太朗(監訳)
発行日: 2023-09-14 (紙書籍版発行日: 2023-09-14)
最終更新日: 2023-09-14
バージョン: 1.0.0
ページ数: 522ページ(PDF版換算)
対応フォーマット: PDF, EPUB
出版社: インプレス

対象読者

◎データ分析やデータサイエンスを始めたい人、すでに始めている人。pandasをきちんと理解して利用したい人。技術者、学生、研究者。

著者について

Daniel Y. Chen

バージニア工科大学で遺伝学・バイオインフォマティクス・計算生物学（GBCB）の博士課程を修了。学位論文は医学・生物医学におけるデータサイエンス教育。また、コロンビア大学メイルマン公衆衛生大学院で疫学の公衆衛生学修士課程を修了、社会的ネットワークにおいて行動に対する態度がどのように拡散し広がるかを研究した。現在、ブリティッシュ・コロンビア大学の博士研究員および教育フェローとして、またPBCのPosit（旧RStudio, PBC）のデータサイエンス教育者として勤務。The Carpentriesでは、インストラクター、インストラクタートレーナー、主席コミュニティメンテナーとして関わっている。

吉川邦夫

1957年生まれ。ICU（国際基督教大学）卒。おもに制御系のプログラマとして、ソフトウェア開発に従事した後、翻訳家として独立。英文雑誌記事の和訳なども手掛ける。
訳書は、Scott Meyersらによる「Effective」ソフトウェア開発シリーズ（アスキー、翔泳社）、『Rustプログラミング完全ガイド他言語との比較で違いが分かる！』（インプレス）、本書の第1版である『Pythonデータ分析/機械学習のための基本コーディング！ pandasライブラリ活用入門』（同）など多数。

福島真太朗

現在、企業で機械学習、データマイニングの研究開発、技術開発の業務に従事。東京大学理学部物理学科卒業。東京大学大学院新領域創成科学研究科複雑理工学専攻修士課程修了。東京大学大学院情報理工学系研究科数理情報学専攻博士課程修了。博士（情報理工学）。専攻は機械学習・データマイニング・非線形力学系。

12.1 Pythonのdatetimeオブジェクト
12.2 datetimeへの変換
12.3 日付を含むデータをロードする
12.4 日付の各部を抽出する
12.5 日付の計算とtimedelta
12.6 datetimeのメソッド
12.7 株価データを取得する
12.8 日付によるデータの絞り込み
12.9 日付の範囲
12.11 リサンプリング
12.12 時間帯（タイムゾーン）
12.13 日付と時刻の扱いが優れたarrowライブラリ
12.14 まとめ

第4部データモデリング

第13章線形回帰モデル

13.1 単純な線形回帰
13.2 重回帰
13.3 カテゴリ変数を使うモデル
13.4 sklearnのone-hotエンコーディングと、トランスフォーマーのパイプライン
13.5 まとめ

第14章一般化線形モデル

14.1 ロジスティック回帰
14.2 ポアソン回帰
14.3 その他の一般化線形モデル
14.4 まとめ

第15章生存分析

15.1 生存データ
15.2 カプランマイヤー曲線
15.3 Coxの比例ハザードモデル
15.4 まとめ

第16章モデルを評価する

16.2 複数のモデルを比較する
16.3 k分割交差検証
16.4 まとめ

第17章正則化で過学習に対応する

17.1 正則化とは
17.2 LASSO回帰
17.3 リッジ回帰
17.4 Elastic Net
17.5 交差検証
17.6 まとめ

第18章クラスタリング

18.1 k平均法
18.2 階層的クラスタリング
18.3 まとめ

第5部次のステップへ

第19章 pandas周辺の強力な機能

19.1 Pythonの科学計算スタック
19.2 コードの性能
19.6 Polars
19.7 pyjanitor
19.8 pandera
19.9 機械学習
19.10 出版
19.11 ダッシュボード
19.12 まとめ

第20章仲間と学び続けよう

20.1 地元でのミートアップ
20.2 カンファレンス
20.3 The Carpentries
20.4 ポッドキャスト
20.5 その他のリソース
20.6 まとめ

第6部付録

付録A コンセプトマップ
付録B インストールと設定
付録C コマンドライン
付録D プロジェクトのテンプレート
付録E Pythonの使い方
付録F ワーキングディレクトリ
付録G 環境
付録H パッケージのインストール
付録I ライブラリのインポート
付録J コーディングスタイル
付録K コンテナ（リスト、タプル、辞書）
付録L 値のスライスと範囲
付録M ループ
付録N リストの内包表記
付録O 関数
付録P 範囲とジェネレータ
付録Q 複数代入
付録R NumPyのndarray
付録S クラス
付録T SettingWithCopyWarning
付録U メソッドチェーン
付録V コードの実行時間を計測する
付録W 文字列の書式整形（フォーマッティング）
付録X 条件文（if-elif-else）
付録Y New York ACSによるロジスティック回帰の例
付録Z 結果をR言語で再現する

主な参考文献

索引

Home 〉書籍一覧〉 pandasライブラリ活用入門［第2版］データクリーニング／前処理など一連の分析プロセスをマスター！ ▲ ページトップへ戻る

pandasライブラリ活用入門［第2版］ データクリーニング／前処理など一連の分析プロセスをマスター！

関連サイト

内容紹介

書誌情報

対象読者

著者について

Daniel Y. Chen

吉川 邦夫

福島 真太朗

目次

序文―第2版に寄せて

初版の序文

はじめに

目次

第1部 基本的な使い方

第1章 DataFrameの基礎

第2章 pandasのデータ構造

第3章 プロッティングによるグラフ描画

第4章 「整然データ」を作る

第5章 関数を適用（apply）する

第2部 データ操作

第6章 データの組み立て

第7章 データの正規化

第8章 groupby演算による分割-適用-結合

第3部 データの型

第9章 欠損データ

第10章 データ型

第11章 文字列とテキストデータ

第12章 日付と時刻

第4部 データモデリング

第13章 線形回帰モデル

第14章 一般化線形モデル

第15章 生存分析

第16章 モデルを評価する

第17章 正則化で過学習に対応する

第18章 クラスタリング

第5部 次のステップへ

第19章 pandas周辺の強力な機能

第20章 仲間と学び続けよう

第6部 付録

主な参考文献

索引

pandasライブラリ活用入門［第2版］データクリーニング／前処理など一連の分析プロセスをマスター！

吉川邦夫

福島真太朗

第1部基本的な使い方

第3章プロッティングによるグラフ描画

第4章「整然データ」を作る

第5章関数を適用（apply）する

第2部データ操作

第6章データの組み立て

第7章データの正規化

第3部データの型

第9章欠損データ

第10章データ型

第11章文字列とテキストデータ

第12章日付と時刻