單項選擇題

一個強(qiáng)化學(xué)習(xí)模型，下列敘述何者為真？（）

A.一組可以動態(tài)變化的狀態(tài)（state）。比如圍棋棋盤上的黑白子的分布位置，市場上的每支股票的價格
B.一組可以選取的動作（action）。比如對于圍棋來說，就是可以落子的位置；對于股票交易來說，就是每個時間點，買入或者賣出的股票以及數(shù)量
C.一個可以和決策主體（agent）進(jìn)行交互的環(huán)境。這個環(huán)境會決定每個動作后狀態(tài)如何變化。比如說圍棋博弈中的對手，或者股票市場。在強(qiáng)化學(xué)習(xí)中，為了降低學(xué)習(xí)的代價，很多時后我們會使用一個通過機(jī)器模擬的環(huán)境，而不是以真實場景作為環(huán)境
D.回報（reward）規(guī)則。當(dāng)決策主體通過行動狀態(tài)發(fā)生變化時，它會獲得回報或者受到懲罰
E.以上皆是

你可能感興趣的試題

單項選擇題

以下關(guān)于計算機(jī)下棋程序的歷史說法錯誤的是？（）

A.1997年，IBM的超級計算機(jī)“深藍(lán)”擊敗國際象棋世界冠軍加里卡斯珀羅夫
B.2014年IBM旗下的DeepMind團(tuán)隊開發(fā)了人工智能圍棋程序AlphaGo
C.2015年10月，AlphaGo擊敗歐洲圍棋世界冠軍樊麾，成為第一個無需讓子即可擊敗圍棋職業(yè)選手的計算機(jī)圍棋程序
D.2016年3月，AlphaGo以4：1的成績擊敗圍棋世界冠軍，職業(yè)九段棋手李世乭
E.2017年5月，在中國烏鎮(zhèn)-阿爾法元（AlphaGoZero）以3：0的成績完勝圍棋世界冠軍柯潔

單項選擇題

關(guān)于數(shù)據(jù)空間（dataspace）的敘述，下列何者錯誤？（）

A.顧名思義就是數(shù)據(jù)所在的空間
B.若在生成圖像這個任務(wù)中，數(shù)據(jù)空間就是一些圖像的集合，所以也稱為圖像空間
C.數(shù)據(jù)集里的圖像分布在這空間里，稱為數(shù)據(jù)點
D.數(shù)據(jù)空間里的任何點都是有意義的
E.數(shù)據(jù)在數(shù)據(jù)空間的分布情況稱為數(shù)據(jù)分布

一個強(qiáng)化學(xué)習(xí)模型，下列敘述何者為真？（）

你可能感興趣的試題

以下關(guān)于計算機(jī)下棋程序的歷史說法錯誤的是？（）

關(guān)于數(shù)據(jù)空間（dataspace）的敘述，下列何者錯誤？（）

一個強(qiáng)化學(xué)習(xí)模型，下列敘述何者為真？（）

關(guān)于數(shù)據(jù)空間（dataspace）的敘述，下列何者錯誤？（）