單項(xiàng)選擇題

強(qiáng)化學(xué)習(xí)中近端策略?xún)?yōu)化(ProximalPolicyOptimization-PPO)的目的是:()。

A.減少學(xué)習(xí)過(guò)程中的方差
B.加速模型的收斂速度
C.優(yōu)化策略的穩(wěn)定性
D.提高策略的探索能力

微信掃碼免費(fèi)搜題