基于全局描述的圖像檢索方法【圖像檢索的方法介紹】
發(fā)布時間:2020-02-14 來源: 感悟愛情 點擊:
[摘要]本論文針對Intemet日益增長的多媒體信息檢索應(yīng)用需求,介紹了目前國內(nèi)外現(xiàn)有的圖像檢索的系統(tǒng)及方法。 [關(guān)鍵詞]多媒體信息檢索;圖像檢索;TBIR;CBIR
[中圖分類號]TP393 [文獻(xiàn)標(biāo)識碼]A
[文章編號]1007-4309(2011)01-0074-1.5
隨著通信和計算機的發(fā)展,存儲技術(shù)的提高和Interact的日漸普及,我們擁有了海量的信息資源。這其中,不僅僅有簡單的文本數(shù)據(jù),更加包括了大量的圖像、視頻等多媒體信息。很明顯,只有合理地組織這些資源,并研究高效的查詢方法和檢索方法,才有可能充分利用它們。于是各種針對Interact的圖像搜索引擎應(yīng)運而生,極大地方便了用戶對Interact圖像進(jìn)行檢索。
Web圖像檢索系統(tǒng)按照其組織和管理圖像方式的不同,主要可以分為以下幾類;谖谋镜膱D像檢索(Text-Based ImageRetrieval,簡稱TBIR)和基于內(nèi)容的圖像檢索(content-BasedImage Retrieval,簡稱CBIR)以及綜合文本信息和圖像視覺信息的web圖像檢索。
一、基于文本的圖像檢索
傳統(tǒng)的信息檢索是基于關(guān)鍵字的信息檢索,即輸入關(guān)鍵字,檢索出與之相匹配的文本對象。哪怕檢索對象本身不是文本,而是例如聲音、圖形、圖像、視頻等其他類媒體,也是用關(guān)鍵字對這類媒體對象進(jìn)行標(biāo)識或索引,建立起與這類媒體對象之間的邏輯聯(lián)系。
TBIR的歷史可以追溯到20世紀(jì)70年代,由于數(shù)據(jù)庫技術(shù)的進(jìn)步而建立和發(fā)展了基于文本的圖像檢索技術(shù),并取得了一定成果,例如數(shù)據(jù)建模、多維數(shù)據(jù)索引、查詢優(yōu)化和查詢評估等。圖像數(shù)據(jù)研究者們在對圖像進(jìn)行文本標(biāo)注的基礎(chǔ)上,對圖像進(jìn)行基于關(guān)鍵字的檢索。其基本步驟是先對圖像文件建立相應(yīng)的關(guān)鍵字或描述字段,并將圖像的存儲路徑與該關(guān)鍵字對應(yīng)起來,然后用基于文本的數(shù)據(jù)庫管理系統(tǒng)來進(jìn)行圖像檢索。該方法實質(zhì)是把圖像檢索轉(zhuǎn)換為對與該圖像對應(yīng)的文本檢索。
早期的圖像檢索系統(tǒng)采用文本數(shù)據(jù)形式對圖像進(jìn)行人工注釋,建立圖像索引數(shù)據(jù)庫。這種人工標(biāo)注的方法適合有限范圍的圖像庫管理系統(tǒng),如人事檔案照片庫、動物圖譜庫、商標(biāo)圖案庫等。但在Web環(huán)境中,Web圖像數(shù)據(jù)是海量的,無法采用人工方式對圖像進(jìn)行廣泛的關(guān)鍵信息標(biāo)注,只得借助Web中相關(guān)的文本信息,采用適當(dāng)?shù)乃惴ㄌ崛D像的主題,實現(xiàn)圖像自動標(biāo)注。顯然,對圖像自動標(biāo)注的準(zhǔn)確性依賴于Web中圖像關(guān)鍵信息的提取算法。目前這些關(guān)鍵信息的提取主要從以下幾個圖像的外部信息中提。簣D像的文件名及網(wǎng)址、圖像的替代文字、圖像周圍的文字、圖像所在頁面的標(biāo)題、圖像的超鏈接、圖像所在網(wǎng)頁彼此間的鏈接。
目前多數(shù)圖像搜索引擎(網(wǎng)站),如Google、Yahoo、Al-taVista、Infoseek、LyCOS、Scour、WebSeek、搜狐等,普遍采用此種方式。有的研究者把網(wǎng)頁按照其組織內(nèi)容的框架和結(jié)構(gòu)將網(wǎng)頁分割成多個基本塊,然后將塊內(nèi)的元素作為一個基本的語義單元實現(xiàn)Web檢索。有些研究者使用網(wǎng)頁內(nèi)的鏈接信息實現(xiàn)Web檢索。還有些人使用縮略圖幫助web用戶在基于文本檢索的結(jié)果中更好地定位感興趣的圖像;部分研究者使用網(wǎng)頁的文本片段(Text Snippet)和圖像片段(Image Snippet)幫助用戶快速定位其感興趣的網(wǎng)頁。
互聯(lián)網(wǎng)上的網(wǎng)頁搜索是由網(wǎng)絡(luò)爬蟲完成的,但是隨著Web的發(fā)展,其結(jié)構(gòu)越來越復(fù)雜,其中的網(wǎng)頁數(shù)量越來越多,通用爬蟲越發(fā)不可能訪問Web L的所有網(wǎng)頁并及時進(jìn)行更新,簡短的關(guān)鍵詞輸入無法表達(dá)出用戶的復(fù)雜查詢語義。
“主題爬蟲”這一概念是由S,Chakrabarti在1999年WorldWide Web大會上首次提出的。與一般的網(wǎng)絡(luò)爬蟲不同,主題網(wǎng)絡(luò)爬蟲不是對所有鏈接不加選擇地爬行,而是面向主題地、有選擇地爬行。主題爬蟲分析每個網(wǎng)頁的鏈接,預(yù)測哪些鏈接指向的網(wǎng)頁可能和預(yù)定主題相關(guān),對這些鏈接進(jìn)行優(yōu)先爬行,而舍棄那些和主題無關(guān)的鏈接。
目前,主題網(wǎng)絡(luò)爬蟲技術(shù)研究正在成為一個熱點。在1999年出現(xiàn)了IBM Focused Crawler。如今,主題爬蟲又有了新的發(fā)展,國外典型的系統(tǒng)有Context Graphs Focused Crawler、WTMS系統(tǒng)等。
二、基于內(nèi)容的圖像檢索
20世紀(jì)90年代初,人工智能、數(shù)字信號處理、統(tǒng)計學(xué)、自然語言理解、數(shù)據(jù)庫技術(shù)、心理學(xué)、計算機視覺、模式識別和信息處理等技術(shù)都得到了不同程度的發(fā)展。在此基礎(chǔ)上,為了克服基于文本信息檢索帶來的困難,提出基于內(nèi)容的圖像檢索(content-Based Image Retrieval,簡稱CBIR)技術(shù),從可視化角度對圖像檢索進(jìn)行探討。所謂基于內(nèi)容的圖像檢索,是使用圖像的顏色、紋理、形狀等低層視覺特征從圖像庫中查找含有特定對象的圖像。它區(qū)別于傳統(tǒng)的檢索手段,融合了圖像理解技術(shù),從而可以提供更有效的檢索手段并實現(xiàn)自動化檢索。CBIR具有如下特點:直接從圖像中提取特征建立索引;檢索匹配是一種近似匹配,這一點與常規(guī)數(shù)據(jù)庫檢索的精確匹配方法有明顯不同;特征提取和索引建立可由計算機自動實現(xiàn),避免了人工描述的主觀性,大大減少了工作量。圖像的視覺特征是在像素數(shù)據(jù)基礎(chǔ)上提取的,可用于基于圖像直觀形象的檢索。
在這期間,比較典型的基于內(nèi)容的圖像檢索系統(tǒng)代表有QBIC、Photobook、Virage、Visualseek和MARs等。這些系統(tǒng)都遵循同一個模式:用圖像的顏色、形狀、紋理等視覺特征表示圖像的內(nèi)容,利用查詢例圖的視覺特征和底層數(shù)據(jù)庫中圖像的視覺特征進(jìn)行匹配來完成檢索。
從目前基于內(nèi)容的圖像搜索演示系統(tǒng)的檢索結(jié)果看,檢索效果并不理想,其根本原因是低層的視覺特征與高層的圖像語義之間存在的“語義鴻溝”。低層的視覺特征不能代表圖像豐富的內(nèi)涵,用戶搜索圖像更關(guān)心的是概念層次上圖像的內(nèi)容和圖像表現(xiàn)的寓意,也就是圖像的高層語義。因此,圖像檢索的理想方式是根據(jù)圖像的語義進(jìn)行檢索,目前將低層圖像特征映射到高層語義的圖像語義生成方法主要分為三種,分別是基于知識的語義提取、人工交互語義提取和利用外部信息源的語義生成。
三、綜合文本信息和圖像視覺信息的web圖像檢索
Web圖像的文本信息和視覺信息在Web圖像檢索中都具有十分重要的作用,因此許多研究者開始研究基于包含這兩種信息在內(nèi)的Web圖像檢索。由于各種信息之間是異構(gòu)的,很難直接將它們?nèi)诤显谝黄,所以針對不同信息通常采用不同的模型實現(xiàn)Web圖像檢索。例如文本信息主要采用傳統(tǒng)的TBIR模型,圖像視覺信息主要采用傳統(tǒng)的CBIR模型,而鏈接信息則主要采用基于圖論的模型。由于不同信息之間的異構(gòu)性,很難評價不同的信息對于Web圖像檢索的貢獻(xiàn),因此多個模型之間的最優(yōu)組合是一個不可解問題。
一部分研究者使用文本信息和圖像低層視覺信息檢索圖像,在計算文本信息之間的相似性時通過計算它們對應(yīng)向量之間夾角的余弦,而計算視覺信息之間的相似性時通過計算它們對應(yīng)向量之間的歐幾里德距離。然后使用線性方式將上述的兩個度量組合起來,并且設(shè)置二者權(quán)重相同,即認(rèn)為文本信息和視覺信息在Web圖像檢索中的重要程度一樣。一部分研究者采用了類似的策略將基于文本信息查詢的模型和基于圖像視覺信息查詢的模型線性地組合起來,但這兩個模型的權(quán)重是給定訓(xùn)練庫的基礎(chǔ)上通過機器學(xué)習(xí)手段獲得。一部分研究者使用LDAfLatent Dirichlet Allocation模型捕獲圖像視覺特征和文本特征之間的聯(lián)合概率分布以及條件概率分布。一部分研究者也使用概率模型組合基于文本信息的模型和基于視覺信息的模型,基于文本信息的檢索模型采用的是語言模型,模型的參數(shù)估計采用被廣泛應(yīng)用的TF/IDF;基于視覺信息的檢索模型采用的是高斯混合模型,模型的參數(shù)估計采用EM算法。
四、總結(jié)
本章主要對基于文本信息、視覺信息、文本信息和視覺信息的組合的Web圖像檢索進(jìn)行了研究,介紹了基于關(guān)鍵詞的高層語義層特征,以及基于圖像顏色、紋理、形狀等低層視覺特征的圖像索引和檢索技術(shù),并介紹了幾種典型的基于TBIR和CBIR方法的圖像檢索系統(tǒng)。
[參考文獻(xiàn)]
[1]夏定元,基于內(nèi)容的圖像檢索通用技術(shù)研究及應(yīng)用[D],華中科技大學(xué),2004
[2]黃鵬,基于文本和視覺信息融合的Web圖像檢索[D],浙江大學(xué),2008
[3]王桂梅,主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D],哈爾濱工業(yè)大學(xué),2009
相關(guān)熱詞搜索:圖像 檢索 方法 圖像檢索的方法介紹 基于內(nèi)容的圖像檢索 圖像檢索研究現(xiàn)狀
熱點文章閱讀