関連サイト
本書の関連ページが用意されています。
内容紹介
本書では、強化学習における基本的な考え方や計算手法を紹介し、実際にPython を用いて実現する方法をまとめている。具体的にはマルコフ決定過程、価値関数、方策評価、方策反復、価値反復、モンテカルロ評価、SARSA、Q学習を扱う。ほとんどの内容は簡単な数学の知識があれば問題なく理解できるよう記述し、読者の学びやすさを優先して繰り返しの説明や既出の数式を再掲するなど工夫している。Pythonの基礎から強化学習の利用までを詳細に解説した充実の一冊。
書誌情報
- 著者: 小林 和博
- 発行日: 2024-09-30 (紙書籍版発行日: 2024-09-30)
- 最終更新日: 2024-09-30
- バージョン: 1.0.0
- ページ数: 207ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: 近代科学社
対象読者
マルコフ性,マルコフ連鎖,推移確率行列,マルコフ過程,ランダム・ウォーク,擬似乱数,マルコフ報酬過程,割引報酬,リターン,価値関数,マルコフ決定過程,方策評価,方策改善,方策反復,価値反復,モデルベース,モデルフリー,全幅探索,サンプル探索,TD学習に興味がある人
著者について
小林 和博
1998年 東京大学工学部計数工学科卒業
2000年 東京大学大学院工学系研究科計数工学専攻修士課程修了,修士(工学)
2009年 博士(理学)
現在青山学院大学理工学部准教授
主要著書『サプライチェーンリスク管理と人道支援ロジスティクス』(共著),近代科学社(2015),『航海応用力学の基礎』(共著),成山堂書店(2015),『Python 言語によるビジネスアナリティクス|実務家のための最適化・統計解析・機械,学習』(共著),近代科学社(2016),『最適化問題入門』(Python による問題解決シリーズ2),近代科学社(2020)