A.通過跳躍連接緩解梯度消失問題B.通過增加深度提高性能C.通過減少參數(shù)數(shù)量防止過擬合D.通過改變激活函數(shù)提高性能
A.BERT 考慮了單詞之間的順序關(guān)系。B.ERT 是一個靜態(tài)的詞嵌入模型。C.BERT 不能用于下游任務(wù)。D.BERT 不依賴于預(yù)訓(xùn)練階段。
A.減少學(xué)習(xí)過程中的方差B.加速模型的收斂速度C.優(yōu)化策略的穩(wěn)定性D.提高策略的探索能力