一種基于類別分布信息的中文文本分類模型|一個類別做文本分類
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要]特征降維是文本分類面臨的主要問題之一。首先通過x2分布對特征項進行選擇,然后使用一種改進的基于密度聚類方法對選擇后的特征項進行聚類,借助類別分布信息,在盡量減少信息缺失的前提下先后兩次對文本特征維數進行了壓縮:在基于類別概率分布的模式下實現文本的矩陣表示,借助矩陣理論進行文本分類。試驗結果表明,該方法的分類效率較高。
[關鍵詞]文本分類 特征選擇 特征聚類 Bayes分布 文本表示
[分類號]TP391
1 引 言
伴隨著信息技術的發(fā)展,互聯網上海量信息資源對信息檢索(Information Retrieval,IR)研究帶來了巨大挑戰(zhàn),同時也為其提供了難得的發(fā)展機遇。作為信息檢索和文本挖掘的重要內容之一,文本自動分類得到了越來越多的關注。文本分類(Text Categorization,TC)的主要任務就是在預先給定的類別標記集合下,根據待分文本內容對其類別歸屬進行判定。文本分類技術在自然語言處理、信息過濾、信息推薦等領域有著廣泛的應用基礎,同時其發(fā)展也受這些相關領域技術水平發(fā)展的制約。基于機器學習的中文文本分類方法相比較于早期的基于知識工程或專家系統(tǒng)的文本分類模式,在分類效果、方法靈活性、擴展性等方面均有所突破,同時在特征選擇、文本表示、分類器性能評價、自反饋系統(tǒng)設計以及分類效果評估等方面均不同程度得到發(fā)展。
2 文本特征降維的兩種主要模式及其特點
文本特征降維是文本分類面臨的主要問題之一。文本特征降維主要有兩種路徑:一是基于特征相關特性的特征抽。欢腔谔卣鹘y(tǒng)計特性的特征選擇。特征抽取一般是通過映射把測量空間的數據投影到特征空間,獲得在特征空間相應的數值,進而對特征項的作用進行評估,其本質是完成測量空間到特征空間的變換;谔卣飨嚓P性的文本分類研究如潛在語義索引(Latent Semantic Indexing,LSI)、主成分分析(Principal Component Analysis,PCA)等模型得到一定進展,但是由于諸如語義排歧等相關的自然語言處理技術研究有待深入,完全基于概念的向量空間模型在信息檢索應用中還沒有充分體現出應有的優(yōu)勢。特征選擇是從特征集合里借助評估函數選出對文本表示能力強的部分特征項,其結果是得到原特征項集的一個子集,本質上是對特征集合的約簡。在特征選擇方面,由于中文文本的語法、語義、語言習慣等在使用上呈現極端的復雜多樣性,目前的文本特征選擇方法如互信息、x2統(tǒng)計、期望交叉熵等尚有許多可以改進的地方。本文從特征項相對于文本類別分布的角度出發(fā),對特征項選取方法和文本表示模式兩個方面加以改進,提出了一種新的特征降維和文本表示方法度量文本和類別的相似度,試驗結果表明,該方法在提高文本分類精度上取得了較好的效果。
3 一種基于統(tǒng)計信息的特征聚類方法
3.1 特征選取對文本分類算法的影響
在向量空間模型(vectorSpaceModel,VSM)相關理論下,KNN文本分類算法被認為是最好的分類算法之一。其思想是將測試文本根據特征項表示成向量形式,然后計算其與訓練樣本集里每個樣本的相似度,依相似度值大小取前k個最相似的訓練樣本,將該測試文本歸入相似樣本最多的那一類中。但是KNN算法存在一些不足之處。首先,文本類屬判定與文本特征選取的數量和質量相關,若特征選取的數量過大,文本向量的維數太高,使得計算開銷過大,并且許多特征項對類別歸屬所能提供的信息很少;另一方面,大量減少特征詞數量又會丟失許多重要的分類信息。再者將文本表示成向量后,利用夾角余弦等手段計算文本相似度卻不能體現特征項之間的內在聯系,各特征項“各自用力”,因而不能確切體現文本間相似程度。因此,合理的特征選取及表示是提高文本分類效果的關鍵因素之一。
3.2 基于特征項相關性統(tǒng)計信息的特征選擇
在常用的幾種特征選擇方法,比如互信息,信息增益、文本證據權、詞頻方法以及CHI(x2統(tǒng)計)統(tǒng)計里面,CHI方法通常優(yōu)于其余方法,該方法體現了詞與詞之間的相關信息、詞與文本類別之間的相互關聯程度,反映了特征項對類別判定信息含量的大小。一般說來,特別是在大樣本情況下,語義上相同或相近的特征項在相同的文本類別分布上應該呈現相同或相近的性態(tài)。也就是說,在概率意義下,它們在x2分布列上應該體現出相似的概率值。為此,可以認為具有相似CHI分布的特征項對文本分類應該具有相似的貢獻。因而我們首先對CHI分布相似的特征項進行初步選擇,在最大程度減少文本信息缺失的前提下,可以大幅度降低文本向量維數。
設訓練文本集的類別數為S類,記為c1,c2,cs;對每個特征項t,利用x2統(tǒng)計得到相應的CHI統(tǒng)計值:
這里A是特征項t1和第,類文本共現次數,B是特征項t1出現而第j類文本不出現次數,c是第j類文本出現但是特征項t1不出現的次數,D特征項t1和第j類文本均不出現的次數,N為文本數;L為文本集里特征項個數。
wy表示t1在第j類文本里的權重,p(c1)表示訓練集里第j類文本出現的概率,常以其在訓練集里所占頻率p(c)=n1/n計算,其中n1為訓練集第i類文本數,n為訓練集里文本總數。
x2統(tǒng)計量體現了特征項t1與類別c1之間的相關程度。該模式認為t1與c1之間符合自由度為1的一分布,(1)。x2統(tǒng)計量綜合考慮了特征項t1和屬于類別c1的文本同現情況與不同現情況下t1在類別c1的文本中的重要程度。也就是說x2值越大,說明t1對屬于c1中的文本進行定類的作用越大。其顯著優(yōu)點是詞匯的計算量較低、分類效果良好。
按照從大到小取前R個v1值相應的特征項作為文本集的特征項,不失一般性,設這R個特征項相應向量為
為了消除不同類別相應文本數的差異對特征項權重的影響,v1取為歸一后的單位向量。
這樣借助CHI統(tǒng)計方法對文本分類的作用,對文本集的特征項進行了初步篩選,將個數在“類別貢獻”意義下從L個壓縮為R1,i=1,2,…R。對分類作用相同或相似的特征項,特別在大樣本條件下語義相同或相近的特征項在Rs。上的分布應該呈現出相應的幾何特性。為此再對這R個單位特征向量進行聚類,并以各個類中心向量作為該類內所有特征項的唯一代表。
k-meain方法是常用的聚類方法,該算法的主要思想是不斷計算每個聚類s1的中心,即聚類s1中對象的算術平均值作為下一步聚類的新的種子,直到每個元素的類屬情況不再變化為止。該方法具有較好的可伸縮性和很快的收斂速度,適合處理大文本集。當結果簇密集并且各簇之間的區(qū)別明顯時,特別是當數據呈現球形分布時,采用k-means算法的效果較好,但是該方法對孤立點過于敏感。
為此我們對該方法進行改進。思想是在計算聚類的中心時避開這些孤立點的影響,即:在進行第k輪聚類種子的計算時,將簇中那些與第k-1輪聚類種子相似度明顯小的數據剔除,使用剩余向量集合里的元素的均值點作為第k輪聚類的新種子。即對于第i-1輪聚類獲得的類簇si-j,計算給定閡值
4 結語
本文在,統(tǒng)計和特征聚合模式下,兩次對特征項個數進行了壓縮,在盡量減少信息缺失的前提下實現了特征降維,很大程度上節(jié)約了計算開銷;在基于類別概率分布的模式下實現了文本的矩陣表示,通過矩陣范數計算實現了文本分類。試驗結果表明該方法的分類效果令人滿意。文本的矩陣表示為矩陣性質在文本分類中的應用提供了研究基礎,今后的工作重點將放在使用矩陣良好的分析性質在文本分類中的合理應用的可能性上的研究。
相關熱詞搜索:中文 分布 模型 一種基于類別分布信息的中文文本分類模型 文本分類 文本分類下的所有文章
熱點文章閱讀