基于密度的稀疏表示及其對(duì)煙葉分級(jí)研究
發(fā)布時(shí)間:2019-08-25 來(lái)源: 美文摘抄 點(diǎn)擊:
摘要:稀疏表示(SRC)中字典的構(gòu)建對(duì)分級(jí)的效率和準(zhǔn)確率至關(guān)重要,提出一種基于密度的SRC字典構(gòu)建方法,并利用建立好的DSRC(基于密度的SRC)對(duì)煙葉進(jìn)行分級(jí)。該方法將減法聚類(lèi)算法中基于密度選擇中心的思想應(yīng)用于稀疏算法中進(jìn)行字典構(gòu)建,通過(guò)確定合適的聚類(lèi)半徑kia、kib以及約束條件來(lái)確定字典原子,不僅可減少字典原子數(shù)目,而且選擇的字典具有更好的代表性;谠摲椒ㄟx擇的字典對(duì)2013年(13個(gè)等級(jí))、2014年(6個(gè)等級(jí))和2015年(42個(gè)等級(jí))的煙葉進(jìn)行分級(jí),試驗(yàn)結(jié)果表明,該方法不僅可以提高煙葉分級(jí)的準(zhǔn)確率,而且還可以有效地提高煙葉分級(jí)速度。
關(guān)鍵詞:減法聚類(lèi);稀疏表示;煙葉分級(jí);字典
中圖分類(lèi)號(hào): TP391.4;S126 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2016)09-0371-03
現(xiàn)階段,在我國(guó)的煙葉收購(gòu)過(guò)程中,大多是通過(guò)人工方式來(lái)對(duì)其進(jìn)行分級(jí)。這種帶有較大主觀(guān)性的分級(jí)方式在人力、物力有限的情況下,存在較大的誤差,進(jìn)而影響卷煙質(zhì)量。近年來(lái),計(jì)算機(jī)和人工智能技術(shù)越來(lái)越多地被應(yīng)用于農(nóng)產(chǎn)品檢測(cè)中,基于計(jì)算機(jī)視覺(jué)和紅外光譜分析技術(shù)的煙葉無(wú)損分級(jí)引起越來(lái)越多的關(guān)注[1-2]。
基于計(jì)算機(jī)視覺(jué)的煙葉分級(jí)研究主要集中于識(shí)別方法和數(shù)字圖像特征篩選方法的研究[1-2]。用于煙葉智能分級(jí)的方法有很多,如最近鄰、徑向基神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Adaboost、粗糙集、隨機(jī)森林[3]和稀疏表示[4]等,在文獻(xiàn)[4]中簡(jiǎn)單地隨機(jī)地選擇每級(jí)煙葉中的2/3作為字典原子建立稀疏表示字典,這樣選擇的字典不僅原子數(shù)目大,影響煙葉分級(jí)時(shí)間,而且可能選擇了不正確的樣本作為字典,因而影響煙葉分級(jí)的準(zhǔn)確率。合適的字典對(duì)煙葉分級(jí)的準(zhǔn)確率和速度都有重要的影響,為此本研究提出一種基于密度的稀疏表示算法對(duì)煙葉進(jìn)行分級(jí)。
減法聚類(lèi)算法是Chiu于1994年在山峰聚類(lèi)算法的基礎(chǔ)上提出的,此方法根據(jù)歐氏距離準(zhǔn)則對(duì)每個(gè)樣本點(diǎn)計(jì)算其密度值(山峰值),選擇其中密度最大的點(diǎn)作為聚類(lèi)中心[5]。然后對(duì)剩余樣本的密度進(jìn)行更新,重復(fù)選擇密度值最大的樣本點(diǎn)直到到達(dá)設(shè)定的條件為止。本研究將減法聚類(lèi)算法中基于密度的聚類(lèi)中心的選擇思想應(yīng)用于稀疏表示的字典原子構(gòu)建中,提出一種基于密度的稀疏表示方法[6]。通過(guò)確定每類(lèi)中合適的聚類(lèi)半徑kia、kib以及約束條件確定字典原子數(shù)目和選擇字典原子,然后通過(guò)求解L1范數(shù)最小化問(wèn)題和最小殘差項(xiàng)對(duì)煙葉進(jìn)行分級(jí),結(jié)果表明本方法可以在保證一定識(shí)別率的前提下有效提高煙葉分級(jí)的速度。
1 基于密度的稀疏表示(DSRC)
1.1 稀疏表示(SRC)原理[7]
稀疏表示算法首先通過(guò)訓(xùn)練樣本構(gòu)建字典,然后利用測(cè)試樣本對(duì)字典的投影進(jìn)行模式識(shí)別。常見(jiàn)的字典構(gòu)建原理如下,假設(shè)模式分屬于C類(lèi),第i類(lèi)的訓(xùn)練樣本集為:
kib的取值一般大于kia是為了避免距離太近的聚類(lèi)中心;根據(jù)更新后的密度選擇出Di2,以此類(lèi)推,可選擇出所有的中心Di3,Di4,…,DiLi。
1.3 改進(jìn)SRC算法
稀疏表示中影響輸入模式分類(lèi)的主要因素有2個(gè),一個(gè)是字典原子的構(gòu)成,另一個(gè)是最佳稀疏矩陣X的求解方法。其中字典原子的數(shù)目會(huì)極大地影響稀疏表示的分級(jí)速度,進(jìn)而影響到該方法的實(shí)時(shí)使用性能;而字典原子的特性則不僅僅影響字典原子的數(shù)目而且會(huì)直接影響稀疏表示分級(jí)的正確性。一個(gè)好的字典應(yīng)該不僅具有良好的代表性、遍歷性,而且數(shù)目應(yīng)該盡可能地少。具有非常好的代表性的原子,即以較少的原子實(shí)現(xiàn)樣本的遍歷性。沒(méi)有經(jīng)過(guò)分析選擇的訓(xùn)練樣本,其代表性不一定很好。因此本研究提出利用基于密度的減法聚類(lèi)算法進(jìn)行字典的原子選擇。
根據(jù)公式(4)計(jì)算第i類(lèi)樣本點(diǎn)的密度值,選擇密度最大的樣本作為第1個(gè)原子Di1;然后利用公式(5)進(jìn)行樣本點(diǎn)的密度值更新,選擇具有密度最大的樣本作為第2個(gè)原子Di2,依此類(lèi)推可選擇出所需要的所有原子Di3,Di4,……,DiLi。
鄰域半徑值kia、kib的選擇非常關(guān)鍵,極大地影響字典的構(gòu)成;傳統(tǒng)中鄰域半徑值為固定值,不能隨著原始數(shù)據(jù)的特性進(jìn)行調(diào)整變化,具有一定的局限性。本研究中根據(jù)公式(7)來(lái)確定第i類(lèi)鄰域半徑kia,其公式如下:
最后利用公式(2),基于L1范數(shù)通過(guò)字典D求解系數(shù)矩陣X,并根據(jù)公式(3)求解最小殘差值對(duì)輸入樣本進(jìn)行分類(lèi)。
2 實(shí)際煙葉分級(jí)結(jié)果及分析
2.1 試驗(yàn)對(duì)象和預(yù)處理
試驗(yàn)對(duì)象為河南省煙草公司平頂山市煙草公司提供的2013年(13個(gè)等級(jí)的煙葉)、2014年(6個(gè)等級(jí),每個(gè)等級(jí)的煙葉來(lái)自5個(gè)不同的縣區(qū))和2015年(42個(gè)等級(jí)的煙葉)的煙葉,其中27組主組15組副組。煙葉分級(jí)的標(biāo)準(zhǔn)為鄭州市煙草公司提供的煙葉評(píng)定準(zhǔn)則。本研究中采集的煙葉圖片是用CCD攝像機(jī)(型號(hào)為T(mén)K-C1481BEC)在暗箱中拍攝所得(圖1)。
為了減少在采集數(shù)據(jù)過(guò)程中熱噪聲、背景噪聲的影響,對(duì)圖像進(jìn)行中值濾波進(jìn)行去噪。
基于圖像選擇39個(gè)特征X={xj}對(duì)煙葉進(jìn)行自動(dòng)分級(jí),xj表示第j個(gè)特征的值,特征順序j分別對(duì)應(yīng)為長(zhǎng),寬,長(zhǎng)寬比,面積,周長(zhǎng),破損率,圓形度,矩形度,R、G、B、H、S、I的均值和方差等,能量,慣性,相關(guān)性,熵(煙葉的4個(gè)紋理特征),脈絡(luò)長(zhǎng),脈絡(luò)寬,脈絡(luò)比,脈絡(luò)的R、G、B、H、S、I的均值和方差等。為了提高分級(jí)率以及減少建立分級(jí)模型所需的時(shí)間,對(duì)特征數(shù)據(jù)按照公式(9)進(jìn)行歸一化:
2.2 結(jié)果分析
試驗(yàn)時(shí)選擇其中的1/3為訓(xùn)練樣本,2/3為測(cè)試樣本。根據(jù)公式(6)、公式(7)對(duì)聚類(lèi)半徑kia、kib進(jìn)行確定,在求解聚類(lèi)半徑的時(shí)候,主要確定合適的參數(shù)值T1、T2。
圖2為采用網(wǎng)格遍歷法對(duì)參數(shù)T1、T2進(jìn)行篩選,橫軸為參數(shù)T2的取值范圍,縱軸為對(duì)應(yīng)的識(shí)別率,從圖2中可以發(fā)現(xiàn)在T1為0.8和0.9時(shí)的識(shí)別率相對(duì)其他參數(shù)值具有較好的識(shí)別效果。表1為T(mén)1取值1.1、1.2、1.3時(shí)的識(shí)別率,結(jié)合圖2、表1可以進(jìn)一步看出T1在0.8到0.9之間相比其他值具有更好的識(shí)別效果。
相關(guān)熱詞搜索:煙葉 稀疏 分級(jí) 其對(duì) 密度
熱點(diǎn)文章閱讀