A.統(tǒng)計(jì)詞頻率
B.刪除停止詞與低頻詞
C.中文分詞
D.潛在語(yǔ)義分析
E.計(jì)算詞頻率-逆文文件頻率
您可能感興趣的試卷
你可能感興趣的試題
A.停止詞、低頻詞
B.主題模型、詞袋模型
C.文分詞、英文分詞
D.詞頻率、逆文文件頻率
E.詞頻率向量、逆頻率向量
A.判定樹
B.支持向量機(jī)
C.K均值聚類
D.樸素貝葉斯
E.二叉樹
A.詞頻統(tǒng)計(jì)的方法中,對(duì)于要將單一主題的文文件從海量的語(yǔ)料庫(kù)中發(fā)掘出來(lái)是很輕易的,不需要借助額外的技術(shù)來(lái)獲取詞頻向量
B.主題模型(topicmodel)是描述語(yǔ)料庫(kù)及其中潛在的一類數(shù)字模型,首先考慮到的是如何用數(shù)學(xué)語(yǔ)言去描述一個(gè)主題
C.詞頻向量是由所有的詞頻組合在一起,同時(shí),詞頻為該字詞在文本出現(xiàn)的總數(shù)除以文檔中的總詞語(yǔ)數(shù)
D.文黨的詞頻、主題的比重、主題的詞頻三者之間的關(guān)系為D(文檔詞頻)=W(主題比重)*T(主題詞頻)
E.文本挖掘技術(shù)基本上屬于無(wú)監(jiān)督學(xué)習(xí)方法
A.詞袋模型(bag-of-wordsmodel)適用于描述文本的一個(gè)簡(jiǎn)單的數(shù)學(xué)模型,也是常用的一種文本特征提取方式
B.詞袋模型對(duì)文文件進(jìn)行了很大程度的簡(jiǎn)化,但一定程度上仍然保留了文文件的主題信息
C.對(duì)文本建構(gòu)詞袋之前,需要先借著額外的手段將文本中的詞語(yǔ)分開,這項(xiàng)技術(shù)稱之為分詞(word-segment)
D.在文檔中,例如『的』、『也』這樣構(gòu)成一個(gè)句子的基本字詞對(duì)文文件的主題區(qū)分并無(wú)幫助,且不攜帶任何主題信息的高頻詞稱為停止詞(Stopword),在構(gòu)建詞典時(shí)必須去除
E.一個(gè)詞在文文件中出現(xiàn)的頻率稱為詞頻率(termfrequency)其定義為該詞語(yǔ)在文本中出現(xiàn)的次數(shù)與這段文本中詞語(yǔ)的總數(shù)的商
A.手肘法
B.刪除法
C.分類樹
D.矩陣乘法
E.層次聚類算法
最新試題
在強(qiáng)化學(xué)習(xí)中,什么是“馬爾可夫性質(zhì)”()?
在機(jī)器學(xué)習(xí)中,核技巧(KernelTrick)主要用于解決什么問(wèn)題()?
在自然語(yǔ)言處理中,哪些方法可以用于提升文本分類、情感分析和實(shí)體識(shí)別的準(zhǔn)確性()?
在深度學(xué)習(xí)模型訓(xùn)練中,哪些技術(shù)有助于防止過(guò)擬合并提高模型在多任務(wù)學(xué)習(xí)上的表現(xiàn)()?
智能運(yùn)維AIOps 的核心技術(shù)是什么()?
在自然語(yǔ)言處理中,哪些方法可以用于提升自動(dòng)對(duì)話系統(tǒng)和文本摘要生成的自然性和流暢性()?
反向傳播算法的基本原理是基于什么()?
在自然語(yǔ)言處理任務(wù)中,哪些技術(shù)適用于提升文本分類的性能()?
在自然語(yǔ)言處理中,哪些方法可以用于提升自動(dòng)文本摘要的生成效果()?
Xpath 語(yǔ)言有()的構(gòu)成。