強化学習 (第 2 版)(キョウカガクシュウダイニハン)

Name: 強化学習(第2版)
Rating: 5 (1 reviews)
Author: R. Sutton/A. Barto/奥村 エルネスト 純/鈴木 雅大/松尾 豊/三上 貞芳
ISBN: 9784627826625

著者:: R. Sutton/A. Barto/奥村エルネスト純/鈴木雅大/松尾豊/三上貞芳(リチャードサットン/アンドリューバート/オクムラエルネストジュン/スズキマサヒロ/マツオユタカ/ミカミサダヨシ)
出版社:: 森北出版
出版日:: 2022年11月01日頃
ISBN:: 9784627826625
在庫:: 在庫あり

★★★★★5(1 件)

中級者向け

強化学習アルゴリズム関数近似心理学神経科学ケーススタディAlphaGo機械学習AI深層学習

Amazon で見る楽天ブックスで見る

なぜ注目されているか

総合

810位

↓ 68 ランクダウン2 件の言及

言及数

829位

書籍紹介

不朽の名著、待望の改訂版!

強化学習発展の立役者自らが書き下ろした書。「強化学習の考え方とアルゴリズムを明確に簡潔に説明する」という第 1 版の特長はそのままに、第 2 版では、発展的手法や心理学・神経科学との関係の紹介が大幅に加筆されています。
第 I 部では、テーブル形式の範囲でできるだけ多くの強化学習を扱い、核となる考え方を単純な設定で進めます。第 II 部では、そうした考え方を関数近似に拡張します。第 III 部では、心理学・神経科学との関係、 AlphaGo などのケーススタディ、将来展望について述べています。
ますます重要性を増す強化学習について、基礎から応用までを学べる一冊です。

［原著］ Reinforcement Learning, Second Edition: An Introduction (The MIT Press, 2018)

＊＊＊

「第 1 版は、強化学習の学習者には必読の教科書となっています。刊行から 20 年の時間が経ち、 AlphaGo などの新しい技術も出てきました。こうした新しい話題をカバーしながら、基礎からしっかりと説明がされているのが、この改訂版です。……強化学習の分野もまだまだこれから大きく発展していくと考えられますが、本書は、現時点で、この分野を学ぶための最もわかりやすく整理された教科書だと思います。」
ーー東京大学教授・松尾豊 (監訳者序文より)
第 1 章序

第 I 部テーブル形式の解法
第 2 章多腕バンディット問題
第 3 章有限マルコフ決定過程
第 4 章動的計画法
第 5 章モンテカルロ法
第 6 章 TD 学習
第 7 章 n ステップ・ブートストラップ法
第 8 章テーブル形式手法におけるプランニングと学習

第 II 部近似による解法
第 9 章近似を用いた方策オン型予測
第 10 章関数近似を用いた方策オン型制御
第 11 章近似を用いた方策オフ型手法
第 12 章適格度トレース
第 13 章方策勾配法

第 III 部さらに深く
第 14 章心理学
第 15 章神経科学
第 16 章応用と事例紹介
第 17 章強化学習のこれから

技書の森解説

Richard S. Sutton と Andrew G. Barto による "Reinforcement Learning: An Introduction" の第 2 版邦訳です。強化学習という分野を学術的に確立した書物であり、この領域を志す研究者・技術者が最初に通過する教科書として、 1998 年の初版から変わらない位置を占めています。第 2 版では方策勾配法や深層強化学習への接続など、初版以降の展開が大幅に加筆されました。

マルコフ決定過程、動的計画法、モンテカルロ法、 TD 学習、関数近似と、強化学習の理論体系を基礎から積み上げる構成です。各章末の演習問題が理解の定着を助けますが、表記は数学的に厳密であり、確率論と線形代数の基礎がないと途中から読み進めるのが困難になります。入門というよりは、原理を深く理解するための学術書と捉えるのが適切です。

手っ取り早く動くエージェントを作りたいだけであれば別の実装寄りの書籍の方が近道ですが、「なぜこのアルゴリズムが収束するのか」「どの仮定が崩れると性能が落ちるのか」を自分の言葉で説明できるようになりたいなら、本書を避けて通ることはできません。分野の古典であると同時に、第 2 版により射程が広がった参照文献です。