関連サイト
本書の関連ページが用意されています。
内容紹介
プログラミングを習うより機械学習に慣れよう!
機械学習により新たな物質の発見、所望の材料開発を強力に後押しする「マテリアルズインフォマティクス」は産学問わず、新たな研究手法として有望視されています。しかし機械学習を用いたデータマイニングである性質上、まずはプログラミング技術を習得しなければいけない実情があり、馴染みのない分野の方々が一から覚えていくことは多大な労力と時間を要します。
そこで有用なのが、GUIベースのフリーソフト「Orange Date Mining」です。このソフトを使用することで、プログラミングを学んでいない人でも機械学習を実践することができます。本書では通称Orangeの使い方、そしてOrangeを使ったマテリアルズインフォマティクスの手法を紹介しています。著者によるサンプルスクリプトとデータファイルも準備しているため、手を動かし理解しながら学べると共に、各章の練習問題を解いていくことでより具体的なデータ解析が習熟できます。
マテリアルズインフォマティクスをこれから始める方に最適の一冊。
書誌情報
- 著者: 木野 日織, ダム ヒョウ チ
- 発行日: 2021-05-28 (紙書籍版発行日: 2021-05-28)
- 最終更新日: 2021-05-28
- バージョン: 1.0.0
- ページ数: 195ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: 近代科学社
対象読者
マテリアルズインフォマティクス,マテリアルズ・インフォマティクス,機械学習,プログラミング,データマイニング,無機化学,有機化学,教師あり学習,教師なし学習,スパースモデリング,線形回帰,ロジスティック回帰,SVM,主成分分析,クラスタリング,データ規格化,交差検定,Orange,Python,Anacondaに興味がある人
著者について
木野 日織
1991年 東京大学理学部物理学科卒
1996年 東京大学大学院理学系研究科博士課程卒(理学博士)
1996年 東京大学物性研究所物性理論部門助手などを経て2002年から(国)物質・材料研究機構に勤務する.
2015年からの国立研究開発法人科学技術振興機構(JST)イノベーションハブ構築支援事業の一環として(国)物質・材料研究機構に情報統合型物質・材料開発イニシアティブ(MI2I)発足時からデータマイニングを行う.データ駆動AI では物性物理の知識を活かした説明・解釈可能なAI技術,第一原理計算によるデータ生成,そのための知識駆動AI技術などに興味を持つ.
ダム ヒョウ チ
1998年 東京大学理学部物理学科卒
2003年 北陸先端科学技術大学院大学材料科学研究科物性科学専攻博士号
2005年10月から北陸先端科学技術大学院大学知識科学研究科講師.2011年4月から同テニュア付准教授.
2020年10月から北陸先端科学技術大学院大学知識科学系教授.
学位は材料科学で取得.2005年から材料科学とデータマイニングの融合に身を投じている.専門分野は材料科学,知識科学,計算材料科学,データサイエンス,マテリアルズインフォマティクス.データ駆動型アプローチを用いた知識抽出など,証拠理論を用いた類似度評価に興味があり,材料科学研究のための説明・解釈可能なAI技術の開発に取り組む.
目次
はじめに
目次
1 Orange Data Miningとは
- 1.1 Orangeのインストール
- 1.2 サンプルスクリプトとデータファイル
2 機械学習の基礎概念
- 2.1 簡単な例における予測モデルの構築
- 2.1.1 事前に支配法則が分かっている世界での予測
- 2.1.2 事前に支配法則が分かっていない世界での予測
- 2.1.3 データ駆動型アプローチによる予測モデルの構築
- 2.2 機械学習手法の紹介
- 2.2.1 機械学習手法の目的による分類
- 2.2.2 データの規格化
- 2.2.3 教師あり学習a:回帰
- 2.2.4 教師あり学習b:分類
- 2.2.5 類似度と距離の定義
- 2.2.6 教師なし学習a:次元圧縮
- 2.2.7 教師なし学習b:クラスタリング
- 2.3 モデル学習と妥当性の評価
- 2.3.1 評価指標
- 2.3.2 一組の訓練データとテストデータへ分割する手法
- 2.3.3 交差検定
- 2.3.4 予測モデル評価値の最大化によるモデル選択
- 2.4 予測モデル学習の諸問題
- 2.5 機械学習の四過程
3 超基礎:簡単な観測データからの回帰モデルの学習
- 3.1 観測データと回帰モデルの定義
- 3.2 Orange操作の基礎知識
- 3.3 Orangeワークフロー作成の初歩
- 3.4 線形回帰モデルの学習と予測
- 3.4.1 観測データの訓練データとテストデータへの分割
- 3.4.2 訓練データから線形回帰モデルの学習
- 3.4.3 テストデータを用いた線形回帰モデル性能の評価
- 3.4.4 線形回帰モデルを用いた新規データの予測値生成
- 3.5 説明変数の自動選択:Lassoによる線形回帰モデルの学習と予測
- 3.6 交差検定による予測性能評価と新規データへの予測
- 3.6.1 交差検定による予測性能評価
- 3.6.2 予測モデル学習と新規データへの予測
- 3.7 学習済みモデルの保存と読み込み
- 3.8 Test and Score部品の機能の詳細
- 3.9 機械学習の四過程との比較
- 3.10 演習問題1
- 3.11 回答
4 基礎:希土類コバルト二元合金のキュリー温度の予測回帰モデルの学習
- 4.1 観測データと探索的データ解析
- 4.1.1 観測データとデータ加工
- 4.1.2 観測データ理解のための探索的データ解析
- 4.2 Lassoによる線形回帰モデルの学習と予測性能の評価
- 4.3 物質科学の視点からの回帰モデルの解釈
- 4.4 探索的データ解析
- 4.5 演習問題2
- 4.6 回答
5 基礎:単体元素基底状態結晶構造の予測
- 5.1 観測データとデータ加工
- 5.2 ロジスティック回帰による分類モデルの学習と予測性能の評価
- 5.3 探索的データ解析
- 5.4 演習問題3
- 5.5 回答
6 基礎:鉄結晶構造のクラスタリング
- 6.1 観測データとデータ加工
- 6.2 k-Means法によるクラスタリング
- 6.3 階層クラスタリング
- 6.3.1 データインスタンス間距離と説明変数間距離
- 6.3.2 データインスタンス間距離による階層クラスタリング
- 6.3.3 説明変数間距離による階層クラスタリング
- 6.4 演習問題4
- 6.5 回答
- 6.6 演習問題5
- 6.7 回答
7 応用:文字分類モデルの学習(文字認識)
- 7.1 手書き文字の観測データ
- 7.1.1 観測データの取得
- 7.1.2 観測データの可視化
- 7.2 全説明変数を用いた分類モデルの学習
- 7.3 PCAによる次元圧縮と分類モデルの学習
- 7.3.1 PCAによる次元圧縮と探索的データ解析
- 7.3.2 PCAによる次元圧縮とロジクスティック回帰による分類モデルの学習
- 7.4 多様体学習による次元削減と分類モデルの学習
- 7.4.1 多様体学習による次元削減と探索的データ解析
- 7.4.2 多様体学習による次元圧縮とロジクスティック回帰による分類モデルの学習
- 7.5 演習問題6
- 7.6 回答
8 応用:トモグラフ像の復元
- 8.1 トモグラフィの原理
- 8.2 元画像可視化
- 8.3 Lassoによるトモグラフ像の復元
- 8.4 演習問題7
- 8.5 回答
A 付録
- A.1 Orangeが公式に提供する資料
- A.2 Orange用CSVフォーマットへの変換
- A.3 Preprocess,Predictions,Test and Score部品の接続