試験公開中

このエントリーをはてなブックマークに追加

東京大学のデータサイエンティスト育成講座 Pythonで手を動かして学ぶデ―タ分析

マイナビ出版

2,980円+税

2017年と2018年に東京大学で実施された「グローバル消費インテリジェンス寄付講座」の学生向けオフライン講義と、社会人向けオンライン講座で使われた教材の内容を精査、ブラッシュアップし書籍化。

関連サイト

本書の関連ページが用意されています。

内容紹介

東大 松尾研究室が提供するあの人気講座が待望の書籍化! 本書は、2017年と2018年に東京大学で実施された「グローバル消費インテリジェンス寄付講座」の学生向けオフライン講義と、社会人向けオンライン講座で使われた教材がベースになっています。

約400名ほどの受講枠(2年間)に、のべ1,800人以上の応募があった人気の講義です。この本のベースとなるコンテンツはJupyter Notebook形式で公開されていますが、この内容をさらに精査、ブラッシュアップし、読みやすく整えたものが本書になります。

●本書の内容

本書には、データサイエンティストになるための基礎をつめこんでいます。データサイエンティストは、Pythonや確率・統計、機械学習など、幅広くさまざまな分野の知識を必要とします。

すべての分野を1冊で学ぶことは無理ですので、各分野で深入りはせず基礎的な事項を取り扱っています。データサイエンティストになるための地図と羅針盤のような位置づけとなることをイメージしています。

この本は主にPython 3を使って、基本的なプログラムの書き方、データの取得、読み込み、そのデータ操作からはじまり、さまざまなPythonのライブラリの使い方、確率統計の手法、機械学習(教師あり学習、教師なし学習とチューニング)の使い方についても学びます。取り扱っているデータは、マーケティングに関するデータやログデータ、金融時系列データなどさまざまで、モデリングの前にそれらを加工する手法も紹介しています。データサイエンティストになるには、どれも必要なスキルです。

本書には、さらに以下の3つの特徴があります。

・実際のデータを使って手を動かしながら、データサイエンスのスキルを身に付けることができる
・データ分析の現場で使える実践的な内容(データ前処理など)が含まれている
・練習問題や総合問題演習など実際に頭を使って考える内容がたくさんある

この本に書いてあることを実践し、読み終えた後には、実際の現場でデータ分析ができるようになるはずです。

●この本の対象読者

この本は、プログラミングの経験があり、理系の大学1~2年生程度の教養課程の数学(線形代数、微分積分学、確率統計の基礎など)を終えている方を対象にしています。具体的には、勉強熱心な大学3~4年生の理系の学生さんや大学院生の方、また社会人になってデータサイエンスを学ぼうという意欲の高い方たちが対象です。データサイエンスの入門レベルから中級レベルの手前までを考えている人に最適で、本書のゴールもデータサイエンス入門レベルを卒業できることを想定しています。

●著者による「はじめに」より編集・抜粋

世の中は多種多様でさまざまな問題があります。非効率的な仕事や処理、無駄があることもご承知の通りです。人工知能等が注目される一方で、いろいろな誤解や過剰な期待がされていることもあります。この本を手にとってくださっている方たちには、このような状況でも現実的になって、データサイエンスや人工知能等を使って何ができて何ができないのか、ぜひ見極めてください。

この読者の方たち、受講生の方たちの中から、このデータサイエンスの力を活かして、今の世の中の無駄や非効率を少しでもなくし、さらに新しい価値を創り出して、この世界を良くしていく人が増えていってくれたら、著者としては本望です。

●本書で学べること

・Python/Numpy/Scipy/Pandas/Matplotlibの基礎
・確率/統計/推定/回帰の基礎
・Numpy/Scipyによる科学計算
・Pandasを使ったデータ加工処理(欠損データ/異常値の取り扱い、時系列データの取り扱い)
・Matplotlibによるデータ可視化
・機械学習(重回帰、ロジスティック回帰、決定木、k-NN、クラスタリング、主成分分析、マーケットバスケット分析、モデルチューニング)

書誌情報

  • 著者: 塚本邦尊, 山田典一, 大澤文孝(著), 中山浩太郎(監修), 松尾 豊(協力)
  • 発行日: (紙書籍版発行日: 2019-03-14)
  • 最終更新日: 2019-03-14
  • バージョン: 1.0.0
  • ページ数: 448ページ(PDF版換算)
  • 対応フォーマット: PDF
  • 出版社: マイナビ出版

対象読者

著者について

塚本邦尊

現職は某金融機関の研究開発部門にて、分析環境構築からデータ前処理自動化、分析、アルゴリズム開発と実装、取引実弾とその検証、定型レポーティング作成などを担当。ナノ秒(10億分の1秒単位)の世界でニューヨークやロンドンの猛者たちと日々戦っています(?)が、HFT(高速取引)自体は世の中の役に立っているかどうか私にはまだわかっていませんので、この最先端技術をIoTやら何か他領域でも役立てようと目論んでいます。他、個人事業として本講義の講師やさまざまな企業(メーカー、システム会社、広告代理店など)の分析サポートやアドバイスを実施したり、某コンピューター系の研究所の技術フェローを兼務。学生時代の専攻は数学で、今まで携わってきた業界は、システム会社、広告代理店、マーケティング、コンサルティング企業等。取り扱ってきた開発ツールはVisualStudio、RStudio、JupyterNotebookなどで、C#やSQL、VBA、RやPython、シェル、SASなどを使ってきました。最近はFPGAがらみのプロジェクトに関わることが多く、ハードウェア面(FPGA、Verilog、Vivadoなど)やネットワーク面(WireSharkなど)からも少しずつ学び、AWSなどクラウド環境も日々扱っています。最近時間があるときは、ラズベリーパイを使ってロボティクスについて学んだり、色々な本を読んでいます。

山田典一

株式会社クリエイティブ・インテリジェンス代表取締役。ヤフージャパン、ブレインパッド、GREE、外資系メディアエージェンシーなどで、データマイニング・機械学習を活用した高度アナリティクス業務に従事。情報の価値の観点から、インテリジェンスマネジメントの在り方、インテリジェンスプロセスと機械学習との融合可能性を考察し、日本コンペティティブ・インテリジェンス学会より最優秀論文賞を受賞(2015年)。現在は、機械学習・ディシジョン科学・シミュレーション科学を活用した、より複雑で高度なディシジョン支援に向けた技術の研究開発、機械学習の導入コンサルティング、データ活用アドバイザリーを行っています。

大澤文孝

テクニカルライター。プログラマー。情報処理技術者(「情報セキュリティスペシャリスト」「ネットワークスペシャリスト」)。雑誌や書籍などで開発者向けの記事を中心に執筆。主にサーバやネットワーク、Webプログラミング、セキュリティの記事を担当しています。近年は、Webシステムの設計・開発に従事。主な著書に、『ちゃんと使える力を身につけるWebとプログラミングのきほんのきほん』『ちゃんと使える力を身につける JavaScriptのきほんのきほん』(マイナビ出版)、『いちばんやさしい Python入門教室』『Angular Webアプリ開発 スタートブック』(ソーテック社)、『AWS Lambda実践ガイド』『できるキッズ 子どもと学ぶJavaScriptプログラミング入門』(インプレス)、『Amazon Web Services完全ソリューションガイド』『Amazon Web Services クラウドデザインパターン実装ガイド』(日経BP)、『UIまで手の回らないプログラマのためのBootstrap 3 実用ガイド』『prototype.jsとscript.aculo.usによるリッチWebアプリケーション開発』(翔泳社)、『TWE‐ Liteではじめるセンサー電子工作』『TWE‐ Liteではじめるカンタン電子工作』『Amazon Web ServicesではじめるWebサーバ』『Python10行プログラミング』『「sakura.io」ではじめるIoT電子工作』(工学社)、『たのしいプログラミング!: マイクラキッズのための超入門』(学研プラス)などがあります。

中山浩太郎

東京大学 大学院工学系研究科 特任講師
2000年10月 (株)関西総合情報研究所 代表取締役社長 就任
2002年 4月 同志社女子大学 非常勤講師 就任
2007年 3月 大阪大学大学院情報科学研究科 博士号取得
2007年 4月 大阪大学大学院情報科学研究科 特任研究員 就任
2008年 4月 東京大学 知の構造化センター特任助教 就任
2012年 4月 東京大学 知の構造化センター特任講師 就任
人工知能、Web、データベース、機械学習、Wikipedia、知識抽出、Twitter、脳科学、自己組織化などの研究を行う。ソフトウェア関連の受賞多数。

松尾 豊

東京大学大学院工学系研究科 特任准教授
1997年 東京大学 工学部電子情報工学科 卒業
2002年 東京大学大学院 工学系研究科電子情報工学 博士課程修了(工学博士)
2002年 独立行政法人 産業技術総合研究所 研究員
2005年 スタンフォード大学 CSLI 客員研究員
2007年 東京大学大学院工学系研究科 総合研究機構 准教授
グローバル消費インテリジェンス寄附講座共同代表。研究・人材育成の推進リーダーとして、研究テーマの設定、管理、学会発表、研究会・セミナー等の主催、学生の募集や指導、参画企業との調整にあたる。

目次

Contents

Chapter 1 本書の概要とPythonの基礎

  • 1-1 データサイエンティストの仕事
  • 1-2 Pythonの基礎

Chapter 2 科学計算、データ加工、グラフ描画ライブラリの使い方の基礎

  • 2-1 データ分析で使うライブラリ
  • 2-2 Numpyの基礎
  • 2-3 Scipyの基礎
  • 2-4 Pandasの基礎
  • 2-5 Matplotlibの基礎

Chapter 3 記述統計と単回帰分析

  • 3-1 統計解析の種類
  • 3-2 データの読み込みと対話
  • 3-3 記述統計
  • 3-4 単回帰分析

Chapter 4 確率と統計の基礎

  • 4-1 確率と統計を学ぶ準備
  • 4-2 確率
  • 4-3 確率変数と確率分布
  • 4-4 応用:多次元確率分布
  • 4-5 推計統計学
  • 4-6 統計的推定
  • 4-7 統計的検定

Chapter 5 Pythonによる科学計算(NumpyとScipy)

  • 5-1 概要と事前準備
  • 5-2 Numpyを使った計算の応用
  • 5-3 Scipyを使った計算の応用

Chapter 6 Pandasを使ったデータ加工処理

  • 6-1 概要と事前準備
  • 6-2 Pandasの基本的なデータ操作
  • 6-3 欠損データと異常値の取り扱いの基礎
  • 6-4 時系列データの取り扱いの基礎

Chapter 7 Matplotlibを使ったデータ可視化

  • 7-1 データの可視化
  • 7-2 データ可視化の基礎
  • 7-3 応用:金融データの可視化
  • 7-4 応用:分析結果の見せ方を考えよう

Chapter 8 機械学習の基礎(教師あり学習)

  • 8-1 機械学習の全体像
  • 8-2 重回帰
  • 8-3 ロジスティック回帰
  • 8-4 正則化項のある回帰:ラッソ回帰、リッジ回帰
  • 8-5 決定木
  • 8-6 k-NN(k近傍法)
  • 8-7 サポートベクターマシン

Chapter 9 機械学習の基礎(教師なし学習)

  • 9-1 教師なし学習
  • 9-2 クラスタリング
  • 9-3 主成分分析
  • 9-4 マーケットバスケット分析とアソシエーションルール

Chapter 10 モデルの検証方法とチューニング方法

  • 10-1 モデルの評価と精度を上げる方法とは
  • 10-2 モデルの評価とパフォーマンスチューニング
  • 10-3 モデルの評価指標
  • 10-4 アンサンブル学習

Chapter 11 総合演習問題

  • 11-1 総合演習問題

Appendix

  • A-1 本書の環境構築について
  • A-2 練習問題解答
  • A-3 参考文献・参考URL
Home 書籍一覧 東京大学のデータサイエンティスト育成講座 Pythonで手を動かして学ぶデ―タ分析 ▲ ページトップへ戻る