書籍：Deep Learning ④ 強化学習編

　こちらは、書籍「Deep Learning ④ 強化学習編」で学習した内容で、大切と思われる部分のメモ書きになります。注意：こちらは個人のための健忘録です。実際の内容は、書籍にてご確認ください。

まえがき	深層強化学習（ディープラーニング＋強化学習）ロボット操作や半導体チップの設計で成功強化学習は、「汎用人工知能」の実現の鍵
本書のコンセプト	深層強化学習（Deep Reinforcement Learning） DQN（Deep Q-Network）
全体の流れ	１～６章　強化学習の基礎７～10章　ディープラーニングを強化学習の問題に適用する方法最先端の深層強化学習のアルゴリズムを紐解く１章　バンディット問題：複数の候補から最も良いものを探す２章　マルコフ決定過程３章　ベルマン方程式（マルコフ決定過程の最適解を求める）４章　動的計画法（ベルマン方程式を解く）５章　モンテカルロ法６章　ＴＤ法７章　ディープラーニングを強化学習に適用８章　DQNの実装９章　方策勾配法（DQNの別なアプローチ）　　　REINFORCE、Actor-Critic 10章　現代の深層強化学習のアルゴリズム　　　A3C、DDPG、TRPO、Rainbow
必要なソフトウェア	Python ３系 NumPy Matplotlib DeZero or PyTorch（フレームワーク） OpenAI Gym（第８章でインストール）
ファイル構成	https://github.com/oreilly-japan/deep-learning-from-scratch-4 ch01　　１章で使用するソースコード ch02　　２章で使用するソースコード・・・ ch09　　９章で使用するソースコード common　共通で使用するソースコード pytorch　Pytorch に移植したソースコード
変わるもの、変わらないもの	変わらないもの　強化学習の基本原理、マルコフ決定過程、ベルマン方程式、Ｑ学習、ニューラルネットワーク

１章	バンディット問題
1.1	機械学習の分類と強化学習	教師あり学習　正解ラベル（ラベリング作業／アノテーション）教師なし学習　グループ分け、特徴抽出、次元削減強化学習　　　エージェントと環境の相互作用　　　　　　　エージェント　⇒（行動）⇒ 　　　　　　　⇐（報酬、状態）⇐　環境
1.2	バンディット問題	スロットマシンを使った、強化学習に適した単純な問題正確には、「多腕バンディット問題」エージェント：プレイヤー　環境：スロットマシン用語　確率分布表、期待値、価値（行動価値）、確率変数
1.3	バンディットアルゴリズム	アルゴリズム「プレイヤーが各スロットマシンの価値をできるだけ精度よく推定する」標本平均（実際の試行から得られた報酬の平均）は、報酬の期待値に近づく活用：経験から最善の行動を選ぶ（greedyな行動）検索：様々な行動を試す ε-greedy法：εの確率で探索、1-εの確率で活用を行う
1.4	バンディットアルゴリズムの実装	スロットマシンの実装：Banditクラスプレイヤーの実装：Agentクラス実行結果　試行回数とともに勝率が向上する εの値は、0.1くらいが好ましい
1.5	非定常問題	今回のバンディット問題は、スロットマシンの勝率が変化しない定常問題勝率が変化する場合は、非定常問題となる

まえがき	深層強化学習（ディープラーニング＋強化学習）ロボット操作や半導体チップの設計で成功強化学習は、「汎用人工知能」の実現の鍵
本書のコンセプト	深層強化学習（Deep Reinforcement Learning） DQN（Deep Q-Network）
全体の流れ	１～６章　強化学習の基礎７～10章　ディープラーニングを強化学習の問題に適用する方法最先端の深層強化学習のアルゴリズムを紐解く１章　バンディット問題：複数の候補から最も良いものを探す２章　マルコフ決定過程３章　ベルマン方程式（マルコフ決定過程の最適解を求める）４章　動的計画法（ベルマン方程式を解く）５章　モンテカルロ法６章　ＴＤ法７章　ディープラーニングを強化学習に適用８章　DQNの実装９章　方策勾配法（DQNの別なアプローチ）　　　REINFORCE、Actor-Critic 10章　現代の深層強化学習のアルゴリズム　　　A3C、DDPG、TRPO、Rainbow
必要なソフトウェア	Python ３系 NumPy Matplotlib DeZero or PyTorch（フレームワーク） OpenAI Gym（第８章でインストール）
ファイル構成	https://github.com/oreilly-japan/deep-learning-from-scratch-4 ch01　　１章で使用するソースコード ch02　　２章で使用するソースコード・・・ ch09　　９章で使用するソースコード common　共通で使用するソースコード pytorch　Pytorch に移植したソースコード
変わるもの、変わらないもの	変わらないもの　強化学習の基本原理、マルコフ決定過程、ベルマン方程式、Ｑ学習、ニューラルネットワーク