A.強化學習算法的組合B.強化學習算法與監(jiān)督學習算法的集成C.強化學習算法與無監(jiān)督學習算法的集成D.強化學習算法與半監(jiān)督學習算法的集成
A.一種用于優(yōu)化策略的方法B.一種用于計算狀態(tài)值的方法C.一種用于選擇動作的規(guī)則D.一種用于表示環(huán)境模型的數(shù)據(jù)結(jié)構(gòu)
A.智能體可以隨時選擇任何動作B.環(huán)境的動態(tài)會隨時間改變C.下一個狀態(tài)只取決于當前狀態(tài)和采取的動作D.智能體可以看到完整的狀態(tài)空間