現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御の表紙

現場で使える!Python 深層強化学習入門強化学習と深層学習による探索と制御(ゲンバデツカエルパイソンシンソウキョウカガクシュウニュウモンキョウカガクシュウトシンソウガクシュウニヨルタンサクトセイギョ)

Name: 現場で使える！Python深層強化学習入門 強化学習と深層学習による探索と制御
Rating: 4 (2 reviews)
Author: 伊藤 多一/今津 義充/須藤 広大/仁ノ平 将人/川崎 悠介/酒井 裕企
ISBN: 9784798159928

著者:: 伊藤多一/今津義充/須藤広大/仁ノ平将人/川崎悠介/酒井裕企(イトウタイチ/イマズヨシミツ/スドウコウダイ/ニノヒラマサト/カワサキユウスケ/サカイユウキ)
出版社:: 翔泳社
出版日:: 2019年08月07日頃
ISBN:: 9784798159928
シリーズ:: AI & TECHNOLOGY
在庫:: 在庫あり

★★★★☆4(2 件)

中級者向け

Python機械学習深層学習ニューラルネットワーク強化学習アルゴリズム

Amazon で見る楽天ブックスで見る

なぜ注目されているか

総合

60位

3 件の言及

書籍紹介

注目の最新 AI 技術!深層強化学習の開発手法がわかる!

第一線で活躍する著者陣の書下ろしによる待望の 1 冊!

【本書の目的】

AlphaGo (アルファ碁) でも利用されている深層強化学習。

AI サービスのみならずロボティクス分野でもその応用が期待されています。

本書は、 AI 開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした注目の 1 冊です。

【本書の特徴】

第 1 部では、まず、深層強化学習の概要について説明します。

次いで、強化学習の基礎 (Q 学習、方策勾配法、 Actor-Critic 法) と深層学習の基礎 (CNN 、 RNN 、 LSTM) を解説します。

さらに、簡単な例題として倒立振子制御を取り上げ、 DQN と Actor-Critic 法による実装例を紹介します。

第 2 部では、具体的な応用例として 3 つのアプローチを実装込みで解説します。

1 つ目は、連続動作制御です。ヒューマノイドシミュレータの 2 足歩行制御を試みます。

2 つ目は、パズル問題の解法です。巡回セールスマン問題 (TSP) やルービックキューブの解探索について説明します。

3 つ目は、系列データ生成です。文書生成 (SeqGAN) やニューラルネットワークのアーキテクチャ探索 (ENAS) を解説します。

全体を通して、行動の制御を担うエージェントのモデル化と、方策ベースの強化学習によるエージェントの学習法について学ぶことができます。

【読者が得られること】

深層強化学習による開発手法を学ぶことができます。

【対象読者】

深層強化学習を学びたい理工学生・エンジニア

■ Part 1 基礎編

CHAPTER 1 強化学習の有用性

1.1 機械学習の分類

1.2 強化学習でできること

1.3 深層強化学習とは

CHAPTER 2 強化学習のアルゴリズム

2.1 強化学習の基本概念

2.2 マルコフ決定過程とベルマン方程式

2.3 ベルマン方程式の解法

2.4 モデルフリーな制御

CHAPTER 3 深層学習による特徴抽出

3.1 深層学習

3.2 畳み込みニューラルネットワーク (CNN)

3.3 再帰型ニューラルネットワーク (RNN)

CHAPTER 4 深層強化学習の実装

4.1 深層強化学習の発展

4.2 行動価値関数のネットワーク表現

4.3 方策関数のネットワーク表現

■ Part 2 応用編

CHAPTER 5 連続制御問題への応用

5.1 方策勾配法による連続制御

5.2 学習アルゴリズムと方策モデル

5.3 連続動作シミュレータ

5.4 アルゴリズムの実装

5.5 学習結果と予測制御

CHAPTER 6 組合せ最適化への応用

6.1 組合せ最適化への応用について

6.2 巡回セールスマン問題

6.3 ルービックキューブ問題

6.4 まとめ

CHAPTER 7 系列データ生成への応用

7.1 SeqGAN による文章生成

7.2 ネットワークアーキテクチャの探索

APPENDIX 開発環境の構築

AP1 Colaboratory による GPU の環境構築

AP2 Docker による Windows での環境構築

技書の森解説

強化学習の理論書を読んで数式は追えたのに、いざ動くエージェントを作ろうとすると手が止まる。そうした「理論と実装のあいだの断絶」を埋めることを狙った一冊です。 DQN や A3C といったアルゴリズムを OpenAI Gym の環境上で Python コードとして動かしながら学ぶ構成になっており、探索と制御の仕組みを手を動かして確かめられます。

前提知識として Python の基本文法と、ニューラルネットワークの初歩 (順伝播・誤差逆伝播の概念) が求められます。純粋な強化学習の教科書と比べると、深層学習との組み合わせに焦点を絞っているため、 Q 学習の基礎を一冊で丁寧に学びたい人には別途入門書を先に読む方が効率的です。逆に、教科書的な強化学習は既にかじっていて「深層ネットワークと組み合わせたときに何が変わるのか」を実装レベルで知りたい人には、過不足のない橋渡しになります。

タイトルに「現場で使える」とある通り、研究寄りの網羅性よりも動かして試すことを優先した構成です。制御やロボティクスの文脈で強化学習を試したいエンジニアが、最初の一歩を踏み出すための足場として機能します。