深度強化學習

深度強化學習（粵拼：sam1 dou6 koeng4 faa3 hok6 zaap6；英文：Deep Reinforcement Learning，簡稱「DRL」）係一門結合深度學習同強化學習嘅學科。

最經典嘅 DRL 演算法有 Google DeepMind 演出嘅深度 Q學習（Deep Q-Learning亦稱 Deep Q-Networks）。如果個馬可夫決策過程（Markov Decision Process）有多過一隻個體（agent）嘅話，噉就變深度多個體強化學習（Deep Multi-Agent Reinforcement Learning）㗎啦。

深度Q學習

深度Q學習同Q學習嘅原理係一模一樣，之不過將個Q學習表（Q-Learning Table）用一個會估Q值函數（Q-value function）嘅深度神經網絡嚟代替。噉樣代替法有幾個好處嘅。首先呢，個神經網絡會大大減少可學習嘅參數嘅數量（no. of learnable parameters），同埋可以令到隻個體嘅過去經驗可以更好噉普遍化（generalize）到一啲未見過嘅情況。

深度Q學習亦都有用到經驗回顧（Experience Replay）。

進階版嘅演算法有彩虹深度Q學習（簡寫彩虹DQN，英文：Rainbow DQN），佢有包到雙深度Q學習（Double DQN），優先嘅經驗回顧（Prioritised Experience Replay），互鬥性網絡結構(Dueling Network Architecture)，多步回報（Multi-step Returns），分佈強化學習（Distributional RL）同埋雜音網絡（Noisy Nets）。彩虹DQN雖然勁過DQN好多，但係最大壞處就係run得慢同埋好容易甩轆。

其他嘅深度強化學習演算法

基於政策梯度（Policy Gradient）嘅演算法：

深度決定性政策梯度（Deep Deterministic Policy Gradient，簡稱DDPG）
附近性政策最佳化（Proximal Policy Optimization，簡稱PPO)

深度多個體強化學習

基本嘅演算法有獨立Q學習（Independent Q-Learning，簡稱 IQL）同埋比較新啲嘅數值分解網絡（Value Decomposition Network，簡稱VDN）。

參考文獻

https://www.reddit.com/r/reinforcementlearning/comments/hagmyt/why_do_rl_frameworks_hate_rainbow_dqn/

攷

拎