関連サイト
本書の関連ページが用意されています。
内容紹介
Webデータや画像データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、患者さんの検査データのように倫理的な問題からデータを集めることに制約があったり、あるいはデータの判読が専門家以外では困難で機械学習に利用しにくいデータは、どうしても忘れられがちです。ビッグデータの時代において、収集が難しいために私たちが忘れかけているデータのことをスモールデータとよびます。
スモールデータでは、測定されている変数の数に比べて学習に必要なサンプルが不足していたり、それぞれのクラスのサンプル数が極端に偏っていたりするため、深層学習のようなビッグデータの方法をそのまま適用するのは適当ではなく、異なるアプローチが必要になります。
本書は、スモールデータとはどのようなデータであるのかを具体的に紹介して、スモールデータ解析の基本となる次元削減と回帰分析を説明します。特に部分的最小二乗法(PLS)はスモールデータ解析の大きな武器となるでしょう。そして、機械学習においてモデルの性能向上のために必要な変数(特徴)選択を紹介し、特にクラスタリングに基づいた新しい変数選択手法を説明します。つづいて、不均衡なデータの解析手法と異常検知を紹介して、最後にスモールデータ解析についての筆者の経験に基づいたポイント・考え方を述べました。本書ではPythonプログラムとスモールデータ解析の例題を通じて、読者がスモールデータを有効に解析できるようになるよう工夫しています。
ビッグデータの世界は、もはやデータ量と資本力が支配するレッドオーシャンとなっています。しかし、スモールデータの世界は、まだまだ現場の創意工夫次第でデータから新たな価値を引き出すことのできるブルーオーシャンなのです。みなさんも、この未知の世界に飛び込んでみませんか?
書誌情報
- 著者: 藤原 幸一
- 発行日: 2022-02-19 (紙書籍版発行日: 2022-02-19)
- 最終更新日: 2022-02-19
- バージョン: 1.0.0
- ページ数: 296ページ(PDF版換算)
- 対応フォーマット: PDF
- 出版社: オーム社
対象読者
製造ラインや医療現場などでデータの解析を行う技術者・研究者、データサイエンス系の技術者・研究者・学生
著者について
藤原 幸一
名古屋大学大学院工学研究科物質プロセス工学専攻・准教授
2004年 京都大学工学部工業化学科卒業
2006年 京都大学大学院工学研究科化学工学専攻修士課程修了
2009年 京都大学博士(工学)取得
2010年 NTT コミュニケーション科学基礎研究所
2012年 京都大学大学院情報学研究科システム科学専攻・助教
2018年より現職.
〈研究分野〉機械学習・医療AI・生体計測・プロセスシステム工学.他の研究者・エンジニアが扱ったことのない貴重なデータを現場から発掘して,解析することを得意としています.
目次
はじめに
第1章 スモールデータとは
- 1.1 ビッグデータからスモールデータへ
- 1.2 スモールデータ解析の特徴
- 1.3 本書の構成
第2章 相関関係と主成分分析
- 2.1 データの前処理
- 2.2 共分散と相関関係
- 2.3 相関関係 =因果関係
- 2.4 多変数間の相関関係
- 2.5 主成分分析(PCA)とは
- 2.6 データの特徴
- 2.7 第1 主成分の導出
- 2.8 第r 主成分の導出
- 2.9 PCA の数値例
- 2.10 主成分数の決定
- 2.11 PCA の行列表現
- 2.12 PCA と特異値分解
第3章 回帰分析と最小二乗法
- 3.1 回帰分析とは
- 3.2 最小二乗法
- 3.3 回帰係数と相関係数
- 3.4 最小二乗法の幾何学的意味
- 3.5 ガウス‒マルコフの定理
- 3.6 最尤法と最小二乗法
- 3.7 多重共線性の問題
- 3.8 サンプル数が入力変数の数よりも少ない場合
- 3.9 擬似逆行列を用いる方法
- 3.10 主成分回帰(PCR)
- 3.11 リッジ回帰
- 3.12 部分的最小二乗法(PLS)
- 3.13 PLS1モデルの導出
- 3.14 PLS1モデルのNIPALS アルゴリズム
- 3.15 重回帰モデルへの変換
- 3.16 出力変数が複数ある場合(PLS2)
- 3.17 PLSと固有値問題・特異値分解
- 3.18 ハイパーパラメータの調整
- 3.19 回帰モデルの性能評価
- 3.20 分光分析による物性推定
- 3.20.1 分光法
- 3.20.2 ディーゼル燃料の物性推定
第4章 線形回帰モデルにおける入力変数選択
- 4.1 オッカムの剃刀とモデルの複雑さ
- 4.2 赤池情報量規準(AIC)
- 4.3 ステップワイズ法
- 4.4 Lasso 回帰
- 4.4.1 リッジ回帰に近似する方法
- 4.4.2 最小角回帰(LARS)
- 4.5 PLS向けの変数選択手法
- 4.6 相関関係に基づいた変数クラスタリングによる入力変数選択
- 4.6.1 クラスタリング
- 4.6.2 k-平均法
- 4.6.3 NC スペクトラルクラスタリング(NCSC)
- 4.6.4 NCSCの例題
- 4.6.5 NCSCを用いた入力変数選択(NCSC-VS)
- 4.7 NIR スペクトルの検量線入力波長選択
第5章 分類問題と不均衡データ問題
- 5.1 分類問題とは
- 5.2 線形判別分析
- 5.3 線形判別分析とレイリー商
- 5.4 カットオフの決定
- 5.5 線形判別分析と最小二乗法
- 5.6 分類モデルの性能評価
- 5.7 ROC 曲線とAUC
- 5.8 線形判別分析における不均衡データ問題
- 5.9 データの不均衡度
- 5.10 サンプリング手法
- 5.11 アンダーサンプリング
- 5.11.1 サンプル選択型アンダーサンプリング
- 5.11.2 サンプル生成型アンダーサンプリング
- 5.11.3 オーバーサンプリング
- 5.11.4 アンダーサンプリングとオーバーサンプリングの組み合わせ
- 5.12 アンサンブル学習
- 5.13 判別木
- 5.14 バギングとランダムフォレスト
- 5.15 ブースティング
- 5.15.1 AdaBoost
- 5.16 サンプリング手法とアンサンブル学習の組み合わせ.. 191
- 5.17 不均衡データにおける性能評価
- 5.18 ケーススタディ
- 5.18.1 データセットの準備
- 5.18.2 モデルの学習
- 5.18.3 モデル学習結果
第6章 異常検知問題
- 6.1 局所外れ値因子法(LOF)
- 6.1.1 局所密度
- 6.1.2 到達可能性距離
- 6.2 アイソレーションフォレスト
- 6.3 多変量統計的プロセス管理(MSPC)
- 6.3.1 USPCとMSPC
- 6.3.2 T2 統計量とQ統計量
- 6.3.3 寄与プロットによる異常診断
- 6.4 オートエンコーダ(AE)
- 6.5 管理限界の調整
- 6.6 時系列データの取り扱い
- 6.7 砂山のパラドックス
- 6.8 Tennessee Eastmanプロセスの異常検知
- 6.8.1 TE プロセス
- 6.8.2 データの前処理
- 6.9 モデルの学習と異常検知
- 6.10 異常検知結果
- 6.10.1 異常診断
第7章 データ収集や解析の心構え247
- 7.1 機械学習の手順
- 7.2 そもそもデータを使って何をやりたいのか
- 7.3 PICO
- 7.4 データの文脈を理解する
- 7.5 現地現物と三現主義
- 7.6 現場とのコミュニケーション
- 7.7 解析データセット構築に責任を持つ
- 7.8 どうしてもうまくいかないときは
付録
- A.1 標本分散と母分散
- A.2 LARSアルゴリズム
- A.3 Mcut法と固有値問題
- A.4 主成分分析と自己符号化器の関係