連絡事項#

  • 本日 5 時限補講 16:20-17:50 種月館(3号館) 3 階 3-308 教場
  • 来週 7 月 19 日最後の30分間 期末試験

本日の実習ファイル#

OpenAI 提供の強化学習環境 gym を用いています。

強化学習,条件付けの古典#

強化学習とは何か?#


Sutton & Barto (2018) Fig. 3.2 を改変

強化学習という言葉は古い言葉ですが機械学習の文脈では, 環境とその環境におかれた動作主(エージェントと言ったり,ロボットシステムだったりします)が, 環境と相互作用しながらより良い行動を形成するためのモデルです。 動作主は,環境から受け取った現在の状態を分析して, 次にとるべき行動を選択します。このとき将来に渡って報酬が最大となるような行動を学習する手法の一つです。

2015 年には,Google傘下のデープマインドというスタートアップチームが開発した囲碁プログラムAlphaGoがプロ棋士のイ・セドル氏に勝利し話題になりました。 AlphaGo は強化学習を基本技術の一つとして用いています。

  1. 強化学習(1): 基礎
  2. 強化学習(2): エージェントと環境
  3. 強化学習(3): 目標と報酬
  4. 強化学習(4): マルコフ決定過程
  5. 強化学習(5): 価値反復,方策反復
  6. 強化学習(6):
  7. 強化学習(7):

  8. エージェントと環境,マルコフ決定過程 MDP,POMDP,効用関数,ベルマン方程式,探索と利用のジレンマ,SARSA:

  9. 価値,方策,Q 学習,モデルベース対モデルフリー,アクター=クリティック:
  10. 深層 Q 学習:

  11. ゲーム AI へ (AlphaGo,AlphaGoZero,OpenAI five):

  12. セルフプレイ:
  13. 最近の発展 A3C,Rainbow,RDT,World model:

複雑な状況をどう理解して解決するのか?#

Deep Q Network#

  • DQNの模式図
  • ギャラガ1
  • ギャラガ2

  • Q 学習 Q learning に DNN を採用

  • CNN が LeNet, @1998LeCun そうであったように,強化学習 RL も昔からの技術 @Sutton_and_Barto1998
  • ではなぜ,今になって囲碁や自動運転に応用できるようになったのか?
  • コンピュータの能力, データ規模,アルゴリズムの改良, エコシステム(ArXiv, Linux, Git, ROS, AMT, TensorFlow)

人間にはできて強化学習には難しいこと#



すでに結果が古いのですが Rainbow の性能


すでに結果が古いのですが Rainbow の性能