強化学習(キョウカガクシュウ)

Name: 強化学習
Rating: 4 (2 reviews)
Author: 森村 哲郎
ISBN: 9784065155912

著者:: 森村哲郎(モリムラテツロウ)
出版社:: 講談社
出版日:: 2019年05月23日頃
ISBN:: 9784065155912
シリーズ:: 機械学習プロフェッショナルシリーズ
在庫:: 在庫あり

★★★★☆4(2 件)

上級者向け

強化学習動的計画法モデルフリー学習モデルベース学習関数近似TD学習方策勾配ベルマン方程式深層強化学習POMDP

Amazon で見る楽天ブックスで見る

なぜ注目されているか

総合

130位

↓ 45 ランクダウン29 件の言及

言及数

154位

書籍紹介

理論は裏切らない
・強化学習で必要になる数理を広くカバーした。
・一貫したていねいな解説なので、じっくり読める。付録・参考文献も充実!
・ベルマン方程式、 TD 学習、方策勾配、 POMDP 、深層強化学習をより深く!

【おもな内容】
第 1 章準備
1.1 強化学習とは
1.2 マルコフ決定過程と逐次的意思決定問題
1.3 方策
1.4 逐次的意思決定問題の定式化

第 2 章プランニング
2.1 準備
2.2 動的計画法
2.3 動的計画法による解法
2.4 線形計画法による解法

第 3 章探索と活用のトレードオフ
3.1 概要
3.2 探索と活用のトレードオフ
3.3 方策モデル

第 4 章モデルフリー型の強化学習
4.1 データにもとづく意思決定
4.2 価値関数の推定
4.3 方策と行動価値関数の学習
4.4 収束性
4.5 アクター・クリティック法

第 5 章モデルベース型の強化学習
5.1 問題設定の整理
5.2 環境推定
5.3 ブラックボックス生成モデルに対するプランニング
5.4 オンラインのモデルベース型強化学習

第 6 章関数近似を用いた強化学習
6.1 概要
6.2 価値関数の関数近似
6.3 方策の関数近似

第 7 章部分観測マルコフ決定過程
7.1 部分観測マルコフ決定過程 (POMDP) の基礎
7.2 POMDP のプランニング
7.3 POMDP の学習

第 8 章最近の話題
8.1 分布強化学習
8.2 深層強化学習

付録 A 補足
A.1 証明
A.2 ノルム
A.3 線形計画法
A.4 自然勾配法の補足
準備
プランニング
探索と活用のトレードオフ
モデルフリー型の強化学習
モデルベース型の強化学習
関数近似を用いた強化学習
部分観測マルコフ決定過程
最近の話題

技書の森解説

講談社の機械学習プロフェッショナルシリーズ (MLP) に収録された、強化学習の理論を数理的に掘り下げる一冊です。マルコフ決定過程 (MDP) の定式化から始まり、動的計画法、 TD 学習、方策勾配法、さらには分布強化学習まで、各手法を定理と証明を交えて丁寧に導出していきます。直観的な説明だけでは納得しにくい「なぜこの更新式で最適方策に収束するのか」という疑問に、数学の力で正面から答える構成です。

読むには線形代数・確率論・微積分の基礎が必須であり、機械学習の入門書とは明らかに毛色が異なります。実装コードを追いながら理解したい人には Sutton & Barto の教科書のほうが取り組みやすいでしょう。しかし、理論の土台を固めた上で論文を読み解きたい、あるいはアルゴリズムの収束性や最適性の証明を自分で追いたいという段階に達した読者には、日本語で書かれた数少ない本格的参照先として確かな価値を持ちます。