
用Python進(jìn)行深度強(qiáng)化學(xué)習(xí)培訓(xùn)
介紹
強(qiáng)化學(xué)習(xí)基礎(chǔ)
強(qiáng)化學(xué)習(xí)基本技術(shù)
BURLAP簡(jiǎn)介
值迭代和策略迭代的收斂
獎(jiǎng)賞塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可觀察的馬爾可夫決策過(guò)程(POMDP)
選擇(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q學(xué)習(xí)
博弈論(Game Theory)專題