煙葉香氣風(fēng)格分類中的特征選擇算法研究
發(fā)布時間:2019-08-24 來源: 感悟愛情 點擊:
摘要:煙葉香氣風(fēng)格分類是利用煙葉外觀質(zhì)量、理化成分判定其香型、香氣質(zhì)量的類別。為了提高分類能力,通過特征選擇發(fā)現(xiàn)最佳屬性集是一種有效的方法。本文對比研究了信息增益率(GainRatio)、ReliefF、CFS、Wrapper四種特征選擇方法改善煙葉香氣分類器性能的差異。實驗結(jié)果表明:基于遺傳算法的Wrapper方法優(yōu)于其他三種方法,所得最佳屬性集的特征維數(shù)低,而且使分類精確率大大提高。
關(guān)鍵詞:特征選擇;分類;信息增益率;ReliefF;CFS
中圖分類號:TP301.6 文獻標(biāo)識碼:A文章編號:1007-9599 (2010) 14-0000-01
The Feature Selection Algorithm Research on the Tobacco Leaf Aroma Style Classification
Liu Guoqiang1,He Ying2,Wang Wei1
。1.China Ocean University,Qingdao266071,China;2.Qingdao University,Qingdao266071,China)
Abstract:The classification of the tobacco aroma flavor is evaluated according to the tobacco physical and chemical compositions.In order to improve the classification performance,it is an effective method that find the best feature set based on feature selection.The diff-erence of the classification performance of tobacco aroma model is found by comparing four feature selection methods,such as Gain-Ratio,ReliefF,CFS and Wrapper methods.The experiment results have shown that the Wrapper method based on the genetic algori- thm is superior to other three methods,and the character dimension is the lowest,so it can greatly improved the classification accuracy.
Keywords:Feature selection;Classification;Information Gain Ratio;
ReliefF;CFS
一、引言
煙葉的香氣風(fēng)格是人對煙葉的一種感官評價,是受煙葉特定的生態(tài)條件、栽培技術(shù)、遺傳因素等因素的影響。近年來,不少學(xué)者利用統(tǒng)計分析、機器學(xué)習(xí)技術(shù)建立煙葉感官質(zhì)量評價模型[1,2]。試圖利用計算機建立一種快速評價煙葉香氣風(fēng)格的手段,有助于實現(xiàn)卷煙配方數(shù)字化設(shè)計。由于建立分類器的輸入屬性維數(shù)較多,其中存在一部分無關(guān)特征或冗余特征,導(dǎo)致分類器的精度和時間效率難以提高。一些學(xué)者試圖通過改進一些分類算法來改善分類器性能,但效果并不明顯。
特征選擇是機器學(xué)習(xí)領(lǐng)域的熱點研究問題之一。特征選擇是從原始特征集中按照評估標(biāo)準(zhǔn)選擇滿足最優(yōu)的特征子集[3]。目前特征選擇已在文本分類、數(shù)據(jù)挖掘、基因工程、計算機視覺、信息檢索等領(lǐng)域中得到了廣泛應(yīng)用研究。本文研究了四種典型的特征選擇算法:ReliefF、信息增益率(GainRatio)、相關(guān)度量(CFS)、Wrapper的基本原理,以及對分類器性能的改善能力,并應(yīng)用于煙葉香氣風(fēng)格分類問題。
二、特征選擇
特征選擇主要有四個步驟,首先按照一定的搜索策略產(chǎn)生候選特征子集,再通過某個評價函數(shù)評估特征子集的優(yōu)劣,然后根據(jù)預(yù)先指定的特征數(shù)目等條件決定特征選擇算法什么時候停止,最后驗證最終所選的特征子集的有效性。Dash和Liu將特征選擇算法主要分為三類:Filter算法族、Wrapper算法族以及混合算法[4]。下面針對典型的特征選擇算法簡單介紹。
。ㄒ唬㏑iliefF算法
Relief算法是由Kira提出的一種特征權(quán)重算法[5]。Kononenko提出了一種改進的ReliefF算法,它能處理多類問題,對屬性的數(shù)據(jù)類型沒有要求,是一種比較有效的特征選擇算法[6]。算法的主要步驟如下:
1.從訓(xùn)練集D中隨機選擇一個樣本R;
2.從和R同類的樣本集中找出R的k個近鄰樣本 ,從每個R的不同類的樣本集中找出k個近鄰樣本 ;
3.根據(jù)規(guī)則更新每個特征的權(quán)重:如果R和最近鄰樣本H在某個特征上的距離小于R和最近鄰樣本M上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,則降低該特征的權(quán)重;
4.輸出:特征權(quán)重大于閾值δ的特征組成的特征子集T。
。ǘ┬畔⒃鲆媛(GainRatio)算法
信息增益率算法是根據(jù)評價每個特征對整體樣本分類所貢獻的信息增量多少作為衡量特征重要性的標(biāo)準(zhǔn),信息越多,特征越重要。假設(shè)所研究的分類問題數(shù)據(jù)集S= ,包含m個特征,類別C共有n個類別,每一個類別出現(xiàn)的概率為 ,則分類系統(tǒng)的信息熵為: (1)
某一屬性 對類屬性C的信息增益如下:
IG(C, )=H(C)-H(C| )= H(C)-(2)
本文采用信息增益率:GainRatio( )= IG(C, ) / H( ) (3)
其中,H(C)是類屬性C的信息熵,特征 共有p個取值,公式(2)的第2項是特征 對數(shù)據(jù)集S進行分類后的熵的期望值。
。ㄈ┫嚓P(guān)度量CFS算法
相關(guān)度量CFS特征選擇算法是基于相關(guān)性的啟發(fā)式評價函數(shù),度量每個屬性與類屬性是高度相關(guān)還是不相關(guān),將不關(guān)聯(lián)的冗余屬性去除,最終對特征屬性進行降序排序獲得特征子集。評價函數(shù)(式4)中Ms是屬性子集中k個屬性的啟發(fā)式價值。 為屬性與類之間相關(guān)性的均值, 是屬性間交互相關(guān)性的均值[7]。
(4)
在對離散數(shù)據(jù)進行相關(guān)度量時,利用對稱不確定方法(式5)計算屬性與類屬性之間的相關(guān)性大小和屬性X與屬性Y之間的相關(guān)性大小。
(5)
(三)Wrapper方法
Wrapper方法是一種使用歸納算法結(jié)合重復(fù)抽樣技術(shù)來評價特征準(zhǔn)確性的特征選擇算法[8]。本文采用基于遺傳算法的Wrapper方法。算法主要步驟如下:
1.編碼:采用二進制編碼,1表示該位代表的特征被選中,0表示特征未被選中。
2.種群初始化:隨機生成m個染色體,每個染色體含有n個基因,代表n維特征屬性。
3.對種群中每個染色體包含的特征屬性,作為訓(xùn)練數(shù)據(jù),訓(xùn)練分類器,以分類器最大準(zhǔn)確率為評價函數(shù)計算評估值,取出最優(yōu)個體;
熱點文章閱讀