機械学習スタートアップシリーズ　Pythonで学ぶ強化学習　［改訂第2版］　入門から実践までの表紙

機械学習スタートアップシリーズ Python で学ぶ強化学習［改訂第 2 版］入門から実践まで(キカイガクシュウスタートアップシリーズパイソンデマナブキョウカガクシュウカイテイダイニハンニュウモンカラジッセンマデ)

Name: 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 ［改訂第2版］ 入門から実践まで
Rating: 4 (1 reviews)
Author: 久保 隆宏
ISBN: 9784065172513

著者:: 久保隆宏(クボタカヒロ)
出版社:: 講談社
出版日:: 2019年09月22日頃
ISBN:: 9784065172513
シリーズ:: KS情報科学専門書
在庫:: 在庫あり

★★★★☆4(1 件)

中級者向け

Python機械学習強化学習深層学習ニューラルネットワーク

Amazon で見る楽天ブックスで見る

なぜ注目されているか

総合

216位

↓ 3 ランクダウン9 件の言及

言及数

352位

書籍紹介

「 Python で強化学習が実装できる!」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。主に、 Policy Gradient と A2C の記述・実装を見直した。

・ Python プログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。

【おもな内容】

Day1 強化学習の位置づけを知る
強化学習とさまざまなキーワードの関係
強化学習のメリット・デメリット
強化学習における問題設定:Markov Decision Process

Day2 強化学習の解法 (1) : 環境から計画を立てる
価値の定義と算出: Bellman Equation
動的計画法による状態評価の学習: Value Iteration
動的計画法による戦略の学習: Policy Iteration
モデルベースとモデルフリーとの違い

Day3 強化学習の解法 (2) : 経験から計画を立てる
経験の蓄積と活用のバランス: Epsilon-Greedy 法
計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference
経験を価値評価、戦略どちらの更新に利用するか:Value ベース vs Policy ベース

Day4 強化学習に対するニューラルネットワークの適用
強化学習にニューラルネットワークを適用する
価値評価を、パラメーターを持った関数で実装する:Value Function Approximation
価値評価に深層学習を適用する:Deep Q-Network
戦略を、パラメーターを持った関数で実装する:Policy Gradient
戦略に深層学習を適用する:Advantage Actor Critic (A2C)
価値評価か、戦略か

Day5 強化学習の弱点
サンプル効率が悪い
局所最適な行動に陥る、過学習をすることが多い
再現性が低い
弱点を前提とした対応策

Day6 強化学習の弱点を克服するための手法
サンプル効率の悪さへの対応: モデルベースとの併用/表現学習
再現性の低さへの対応: 進化戦略
局所最適な行動/過学習への対応: 模倣学習/逆強化学習

Day7 強化学習の活用領域
行動の最適化
学習の最適化

技書の森解説

強化学習は「報酬を最大化するようにエージェントが行動を学ぶ」と一行で説明できますが、いざ実装しようとすると環境の設計、状態空間の定義、アルゴリズムの選択と調整で手が止まります。本書は Python と OpenAI Gym を使い、迷路や CartPole のようなシンプルな環境から始めて、 Q 学習、 SARSA 、方策勾配法、 DQN へと段階的にアルゴリズムを積み上げていく構成です。

改訂第 2 版ではライブラリのバージョン更新への対応に加え、深層強化学習 (DQN 、 A2C) の章が拡充されています。数式は最小限に抑えられ、「このコードが何をしているのか」をステップごとに追える書き方になっているため、教科書的な理論書の副読本として手を動かしながら読むのに向いています。前提知識はニューラルネットワークの基礎と Python の標準的な読み書き力です。

強化学習を本格的に研究する段階では Sutton & Barto の教科書や論文に進むことになりますが、その前段階で「動くコードで感覚を掴む」という役割において、日本語で読める選択肢の中で堅実な一冊です。