A.詞袋模型(bag-of-wordsmodel)適用于描述文本的一個簡單的數(shù)學(xué)模型,也是常用的一種文本特征提取方式
B.詞袋模型對文文件進行了很大程度的簡化,但一定程度上仍然保留了文文件的主題信息
C.對文本建構(gòu)詞袋之前,需要先借著額外的手段將文本中的詞語分開,這項技術(shù)稱之為分詞(word-segment)
D.在文檔中,例如『的』、『也』這樣構(gòu)成一個句子的基本字詞對文文件的主題區(qū)分并無幫助,且不攜帶任何主題信息的高頻詞稱為停止詞(Stopword),在構(gòu)建詞典時必須去除
E.一個詞在文文件中出現(xiàn)的頻率稱為詞頻率(termfrequency)其定義為該詞語在文本中出現(xiàn)的次數(shù)與這段文本中詞語的總數(shù)的商