課程描(miao)述INTRODUCTION
強化學(xue)(xue)(xue)習(xi)是當前最(zui)熱(re)門(men)的研究(jiu)方(fang)(fang)向(xiang)之一(yi),廣泛應用(yong)于(yu)機器人(ren)學(xue)(xue)(xue)、電子(zi)競(jing)技等(deng)領(ling)域。本(ben)課程(cheng)(cheng)系(xi)統性的介紹了強化學(xue)(xue)(xue)習(xi)(深(shen)度(du)(du)強化學(xue)(xue)(xue)習(xi))的基本(ben)理論和關鍵算法(fa),包(bao)括(kuo):馬爾科夫(fu)決策(ce)過(guo)程(cheng)(cheng)、動態規劃法(fa)、蒙特卡(ka)羅法(fa)、時間(jian)差分法(fa)、值函數逼近(jin)法(fa),策(ce)略梯度(du)(du)法(fa)等(deng);以及(ji)該(gai)領(ling)域的*前沿發展,包(bao)括(kuo):DQN及(ji)其變種、信賴域系(xi)方(fang)(fang)法(fa)、Actor-Critic類方(fang)(fang)法(fa)、多Agent深(shen)度(du)(du)強化學(xue)(xue)(xue)習(xi)等(deng);同(tong)時也介紹大(da)量的實際案(an)例(li),包(bao)括(kuo)深(shen)度(du)(du)強化學(xue)(xue)(xue)習(xi)中最(zui)*的工程(cheng)(cheng)應用(yong):Alpha Go。
日程安(an)排SCHEDULE
課程大(da)綱(gang)Syllabus
強化學習課程
第一天 強化學習
第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習方法的分類
3.強化學習方法的發展趨勢
4.環境搭建實驗(Gym,TensorFlow等)
5.Gym環境的(de)基本(ben)使(shi)用方(fang)法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數、狀態行為值函數
3.貝爾曼方程
4.最優策略
案(an)例:構建(jian)機器(qi)人(ren)找金幣和迷宮的環境
第三課 基于模型的動態規劃方法
1.動態規劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案例:實現(xian)基于模型(xing)的(de)強(qiang)化學習算法(fa)
第四課 蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學習
4.同策略和異策略
案例(li):利用蒙(meng)特卡羅方法實現機(ji)器(qi)人(ren)找金幣和迷(mi)宮
第五課 時序差分方法
1.DP,MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
案例(li):Q-learning和Sarsa的實現(xian)
第二天 從強化學習到深度強化學習
第一課 基于值函數逼近方法(強化學習)
1.維數災難與表格型強化學習
2.值函數的參數化表示
3.值函數的估計過程
4.常用的基函數
第二課 基于值函數逼近方法(深度學習與強化學習的結合)
1.簡單提一下深度學習
2.深度學習與強化學習的結合
3.DQN 方法介紹
4.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第三課 策略梯度方法(強化學習)
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數法,修改估計值函數法
案例(li):利用gym和tensorflow實(shi)現小車倒(dao)立擺系統等
第四課 Alpha Go(深度學習與強化學習的結合)
1.MCTS
2.策略網絡與價值網絡
3.Alpha Go的完整架構
第五課 GAN(深度學習)
1.VAE與基本GAN
2.DCGAN
3.WGAN
案(an)例:生(sheng)成手寫(xie)數字(zi)的GAN
第三天 深度強化學習進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例(li):AC類(lei)方法的(de)案例(li)
第三課 信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發展路線圖
3.TRPO方法
案(an)例(li):TRPO方法的(de)案(an)例(li)
第四課 信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案例:PPO方法(fa)的案例
第五課 多Agent強化學習
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學習
4.完全合作、完全競爭與混合任務
5.MADDPG
案例(li):MADDPG的(de)案例(li)等
強化學習課程
轉載://citymember.cn/gkk_detail/65029.html
已開課時(shi)間Have start time
- 葉梓
其它課程內訓
- 《服裝、飾品選擇與化妝技巧 田彩霞
- 《企業讀書分享會》 李泉(quan)峰
- 《妙“手”偶得,相“機”而 賈蓓(bei)
- 《新修訂保密法重點解讀與總 王健
- 商場服裝陳列、色彩搭配 羅惠(hui)依
- 文字推動業績—營銷人員的軟 鐘理勇(yong)
- 《練就久說不累的好聲音—— 陳靜
- 著裝品位提升---中西服裝 羅惠依
- 紅酒品鑒與奢侈品鑒賞 羅惠(hui)依
- 新任管理者全面管理技能提升 羅建華
- 《新修訂保密法重點解讀與保 王(wang)健
- 企業調查與研究方法論 張懷