A.輸入層之前的層B.輸出層之前的層C.輸入層和輸出層之間的層D.輸出層之后的層
A.通過跳躍連接緩解梯度消失問題B.通過增加深度提高性能C.通過減少參數(shù)數(shù)量防止過擬合D.通過改變激活函數(shù)提高性能
A.BERT 考慮了單詞之間的順序關系。B.ERT 是一個靜態(tài)的詞嵌入模型。C.BERT 不能用于下游任務。D.BERT 不依賴于預訓練階段。