A.強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)最主要的區(qū)別在于其收到的反饋是:評(píng)估性和指導(dǎo)性
B.監(jiān)督學(xué)習(xí)給出的指導(dǎo)性反饋將會(huì)通過監(jiān)督信號(hào)告知學(xué)習(xí)者應(yīng)該要做出什么樣的行為而獲取更高的收益
C.強(qiáng)化學(xué)習(xí)的評(píng)估性反饋意味著該學(xué)習(xí)系統(tǒng)只會(huì)告訴學(xué)習(xí)者當(dāng)前的做法是好還是壞的
D.強(qiáng)化學(xué)習(xí)的目的就是找到一個(gè)最佳的策略,從而使得主體發(fā)出一系列的動(dòng)作后,收到的累積回報(bào)最多
E.策略(Policy)指的是主體的行為,是一個(gè)從狀態(tài)集合到動(dòng)作集合的映像