A.是訓(xùn)練過程中用來度量分類器輸出錯誤程度的數(shù)學(xué)化表示 B.預(yù)測錯誤程度越大,損失函數(shù)的取值就越大 C.定義合適的損失函數(shù)對于訓(xùn)練分類器是非常重要的 D.損失函數(shù)是在整個訓(xùn)練集上求得的,如果用它來更新參數(shù),則是利用了整個數(shù)據(jù)集中被誤分類的數(shù)據(jù) E.感知器和支持向量機(jī)是基于相同的損失函數(shù)建立起來的
A.強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)最主要的區(qū)別在于其收到的反饋是:評估性和指導(dǎo)性 B.監(jiān)督學(xué)習(xí)給出的指導(dǎo)性反饋將會通過監(jiān)督信號告知學(xué)習(xí)者應(yīng)該要做出什么樣的行為而獲取更高的收益 C.強(qiáng)化學(xué)習(xí)的評估性反饋意味著該學(xué)習(xí)系統(tǒng)只會告訴學(xué)習(xí)者當(dāng)前的做法是好還是壞的 D.強(qiáng)化學(xué)習(xí)的目的就是找到一個最佳的策略,從而使得主體發(fā)出一系列的動作后,收到的累積回報最多 E.策略(Policy)指的是主體的行為,是一個從狀態(tài)集合到動作集合的映像
A.方差 B.變異 C.機(jī)率 D.方向 E.平均值