簡(jiǎn)述教師專業(yè)發(fā)展途徑_情報(bào)檢索發(fā)展的幾個(gè)前沿問題
發(fā)布時(shí)間:2020-03-07 來源: 日記大全 點(diǎn)擊:
[摘 要]介紹現(xiàn)階段情報(bào)檢索研究中的幾個(gè)前沿問題,包括自然語言檢索、跨語言檢索、智能信息檢索、基于語義的圖像和視頻檢索及檢索系統(tǒng)評(píng)價(jià)研究的最新發(fā)展情況。語言、智能和語義等問題相互關(guān)聯(lián),近年來又一同推動(dòng)著信息檢索的發(fā)展。檢索評(píng)價(jià)研究也有針對(duì)性地引導(dǎo)著情報(bào)檢索的發(fā)展方向。結(jié)語部分論述這些問題在情報(bào)檢索前沿發(fā)展中的本質(zhì)聯(lián)系及未來的發(fā)展方向。
[關(guān)鍵詞]自然語言檢索 跨語言檢索 智能檢索 基于語義的檢索 檢索系統(tǒng)評(píng)價(jià)
[分類號(hào)]G252
近年來,自然語言檢索、跨語言檢索、智能信息檢索和基于內(nèi)容的檢索發(fā)展較快,成為情報(bào)檢索研究中的前沿和熱點(diǎn)問題;趦(nèi)容的檢索將情報(bào)檢索的研究對(duì)象從文本擴(kuò)展到多媒體信息資源,基于概念的檢索是其進(jìn)一步發(fā)展,后者同時(shí)將多媒體信息資源的物理內(nèi)容與用戶的認(rèn)知語義結(jié)合起來,在內(nèi)容的基礎(chǔ)上納入用戶的認(rèn)知和情感等因素。本文就是在當(dāng)前發(fā)展現(xiàn)狀的基礎(chǔ)上,論述這四個(gè)問題。同時(shí),介紹情報(bào)檢索的評(píng)價(jià)研究,它指導(dǎo)著情報(bào)檢索的發(fā)展方向,尤其是TREC,堪稱信息檢索系統(tǒng)研究的指南針和風(fēng)向標(biāo)。
1 自然語言檢索的語義問題
語義問題是自然語言檢索中的核心問題。目前,情報(bào)檢索仍是“bag of words”的檢索方式,因而詞匯的意義(Meaning),即語義(Semantic)便處在舉足輕重的位置。但是,考慮到效率和及時(shí)性因素,對(duì)語義的建模和計(jì)算不能使用過于復(fù)雜的模型。目前,可以通過兩種途徑來解決這一問題:一是通過概率統(tǒng)計(jì)的方法;另一是通過本體的方法。
1.1通過概率統(tǒng)計(jì)的方法解決語義問題
語言模型(Language Model)是近年情報(bào)檢索領(lǐng)域的研究前沿。這一概念最初用于語音識(shí)別,是指針對(duì)詞序的統(tǒng)計(jì)模型。在情報(bào)檢索中引入語言模型可以:①直接用于情報(bào)檢索的概率模型;②彰顯情報(bào)檢索模型中統(tǒng)計(jì)估值的重要性t③對(duì)給定查詢q,判定某一文獻(xiàn)d的分值p(q|d),F(xiàn)有的語言模型研究的前提假設(shè)較之以往的概率模型并沒有太大改變。但是,對(duì)于其中參數(shù)的估值更為顯式化,也更加精準(zhǔn)。翟成祥和Lafferty則深入到語言模型中的平滑手段,在比較幾種平滑算法的基礎(chǔ)上,提出應(yīng)用于自然語言檢索2階段平滑,并認(rèn)為Jelinek-Mercer可用于查詢建模。Liu Xiaoyong和Croftw.B.介紹了在語言模型中主要使用的查詢、翻譯和相關(guān)三種模型以及參數(shù)和語義兩種平滑方法。
概率統(tǒng)計(jì)方法解決語義問題的第二種方法是詞義消歧。傳統(tǒng)的情報(bào)檢索中通常使用聚類、主成份分析和潛在語義索引等方法實(shí)現(xiàn)。而在自然語言處理中,詞義消歧通常通過統(tǒng)計(jì)學(xué)習(xí)的方法實(shí)現(xiàn)。兩者相比,前者的效果不如后者,但是開銷;后者能夠使消歧的效果更精準(zhǔn),但是不適合用于提供在線服務(wù)。K.Sparck Jones認(rèn)為在使用自然語言處理的方法處理情報(bào)檢索問題時(shí)要“吝嗇”。結(jié)合實(shí)際情況而言,這樣的思想不無道理。
1.2通過本體的方法解決語義問題
一些研究將本體納入到自然語言檢索研究中,這對(duì)從理論上認(rèn)識(shí)自然語言的語義問題有著重要的作用:湯艷莉和賴茂生對(duì)本體應(yīng)用到自然語言中做了探索性的研究,認(rèn)為創(chuàng)建面向檢索的本體、本體的動(dòng)態(tài)更新和本體的評(píng)價(jià)三個(gè)問題是本體在自然語言檢索應(yīng)用中要解決的問題;肖洪設(shè)計(jì)了一個(gè)教育領(lǐng)域的本體,并用其提供檢索服務(wù);趙丹群則將本體應(yīng)用到信息檢索系統(tǒng)中,解決檢索系統(tǒng)中的語義問題。將本體納入自然語言檢索中的好處是概念精準(zhǔn)、消歧效果好;但是本體及其邏輯推理開銷大、實(shí)現(xiàn)復(fù)雜。
2 跨語言檢索
2.1跨語言檢索的研究意義和基本問題
因?yàn)榭缯Z言檢索能夠有效地消除數(shù)字鴻溝,促進(jìn)信息交流和利用,降低國(guó)際組織和機(jī)構(gòu)的溝通成本,所以近年國(guó)內(nèi)外的研究機(jī)構(gòu)都不遺余力地投入跨語言檢索的研究之中,并且得到了所屬國(guó)家和地區(qū)的支持。
跨語言檢索是自然語言處理技術(shù)在情報(bào)檢索中應(yīng)用最為廣泛的領(lǐng)域,但必須注意自然語言處理和情報(bào)檢索核心任務(wù)的差別。首先,跨語言信息檢索大量借助自然語言處理,尤其是機(jī)器翻譯的研究成果,但是跨語言檢索的最終評(píng)價(jià)體系卻是情報(bào)檢索的評(píng)價(jià)指標(biāo)體系。其次,現(xiàn)有的跨語言檢索有一個(gè)基本的前提假設(shè):“好”的檢索結(jié)果建立在“好”的翻譯結(jié)果上。但是,信息檢索系統(tǒng)歸根到底是偏序的。在研究的早期,好的翻譯結(jié)果確實(shí)能夠提供好的檢索結(jié)果,但在深入研究中這種影響越來越微弱,甚至很難在實(shí)際的實(shí)驗(yàn)中觀察到這種改善;另一方面,翻譯質(zhì)量建立在龐大的系統(tǒng)開銷之上,而信息檢索系統(tǒng)難以負(fù)擔(dān)如此昂貴的開銷。
2.2跨語言檢索的匹配與翻譯問題
跨語言信息檢索中的核心問題是翻譯問題。從翻譯的時(shí)間上看,包括查詢式翻譯、文檔翻譯和查詢式與文檔兩者均翻譯三種選擇。但是,人們普遍認(rèn)為盡管文檔翻譯效果更好,但開銷過大,因此對(duì)采用此方法的態(tài)度普遍較為慎重,另一方面,在文檔翻譯中,處于核心地位的是機(jī)器翻譯,但離情報(bào)檢索研究的距離較遠(yuǎn)。因此,通常選擇查詢式翻譯作為跨語言信息檢索的翻譯時(shí)間。但是,并不是所有的跨語言信息檢索都要進(jìn)行“翻譯”,一些針對(duì)同源語言的模型通常使用同源匹配策略。此外,查詢式與文檔均翻譯的方法通常使用語間轉(zhuǎn)換技術(shù)。
從實(shí)現(xiàn)上看,句法分析、自然語言翻譯技術(shù)、語言模型和本體等方法大量地應(yīng)用到跨語言檢索的匹配與翻譯。高劍峰和聶建云關(guān)注詞與詞(構(gòu)成詞組)的詞內(nèi)關(guān)系和句法在翻譯中的應(yīng)用,對(duì)比了基于名詞詞組(NP)和依賴關(guān)系模型(DTM)在CLIR,尤其是查詢分析中的作用;Wang Jianqiang和D.w.Oard綜合使用雙向翻譯和同義詞進(jìn)行跨語言檢索的翻譯;Lavrenko,Choquette和Croft將語言模型應(yīng)用到跨語言檢索中,討論針對(duì)跨語言檢索的估計(jì)問題;張孝飛等使用boost值的方法解決查詢語句的翻譯問題;吳丹和王惠臨則使用多語本體來解決翻譯問題。
與自然語言檢索一樣,消歧在跨語言檢索中仍是需要研究的核心問題。Kazuaki Kishida將消歧的方法分成詞性標(biāo)注、平行語料庫、目標(biāo)語料庫中的詞共現(xiàn)統(tǒng)計(jì)和查詢擴(kuò)展4種。其中前兩種方法是語言學(xué)的方法,第三種方法基于“查詢?cè)~的準(zhǔn)確翻譯在目標(biāo)語言文檔中共現(xiàn),而不正確的翻譯則傾向于不共現(xiàn)”這樣的前提假設(shè);第四種方法則是相關(guān)反饋在跨語言檢索中的體現(xiàn)。
2.3,從跨語言到多語言
當(dāng)集合中有多種語言時(shí),就要解決由于語言增多而帶來的復(fù)雜度增高的問題。
首先,在翻譯方面,簡(jiǎn)單地雙語互譯會(huì)極大地浪費(fèi)系統(tǒng)開銷,因此需要使用中樞語言(pivot language)。中樞語言基于語言翻譯的傳遞性,也意味著翻譯由雙語跨語言中的一次變?yōu)閮纱,問題復(fù)雜度尤其是消歧的負(fù)擔(dān)更重。KazuakiKishida列舉了TREC,NTCIR和CLEF中的中樞語言方法。 其次,多語言檢索相關(guān)度排序需要首先對(duì)檢索結(jié)果進(jìn)行合并。陳信希認(rèn)為這樣的問題有分布式和集中式兩種方法,而集中式方法事實(shí)上回避了合并的問題;進(jìn)而,林和陳列舉了主要的分布式檢索結(jié)果合并的方法,并在其系統(tǒng)中使用先對(duì)排序分值歸一化,再對(duì)不同文檔集合加權(quán)的兩階段方法。
3 智能信息檢索
智能信息檢索包括的內(nèi)容相當(dāng)廣泛,自然語言檢索、跨語言檢索都可以納入智能信息獲取的范疇之中。各種機(jī)器學(xué)習(xí)算法和知識(shí)相關(guān)技術(shù)亦可納入到此范疇中。但是,如果我們把紛繁的研究歸結(jié)起來,其核心是知識(shí)與知識(shí)學(xué)習(xí)以及各種隱含知識(shí)或模式的發(fā)現(xiàn)。
3.1情報(bào)檢索中的學(xué)習(xí)問題
情報(bào)檢索的學(xué)習(xí)問題主要體現(xiàn)在以下三個(gè)方面:
?在文本處理中,各種學(xué)習(xí)算法的研究工作。文本分類、文本挖掘等研究最終都要落在學(xué)習(xí)算法上。其中,知識(shí)和學(xué)習(xí)模塊在這些系統(tǒng)中起到支撐作用。
?自然語言檢索包括跨語言檢索都不可避免地使用各種機(jī)器學(xué)習(xí)的方法。自然語言中語言現(xiàn)象過于復(fù)雜,需要各種智能因素的輔助才能完成語言中概念的提取、表示乃至檢索利用等環(huán)節(jié)。
?基于內(nèi)容檢索也需要學(xué)習(xí)!叭藢(duì)圖像內(nèi)容的理解并不是僅靠統(tǒng)計(jì)進(jìn)行的,人還有學(xué)習(xí)的能力。”目前,多媒體信息基于內(nèi)容檢索需要考慮到用戶的情感因素,同時(shí)需要研究圖片或視頻的分類等,這都需要借助智能手段和機(jī)器學(xué)習(xí)實(shí)現(xiàn)。
3.2智能與模式一情報(bào)檢索對(duì)深層次規(guī)律的研究
王永成認(rèn)為歸納能力、聯(lián)想能力、自學(xué)習(xí)能力和推理能力在智能信息處理中有著重要作用。這些能力均與模式和隱性知識(shí)的發(fā)現(xiàn)緊密相關(guān),從一個(gè)側(cè)面體現(xiàn)了知識(shí)系統(tǒng)的重要作用。Swanson認(rèn)為“相關(guān)的模式,而不是相關(guān)文檔”才是情報(bào)檢索應(yīng)該提供的服務(wù)對(duì)象,這對(duì)情報(bào)檢索提出了更高的要求,并指出了一個(gè)發(fā)展方向。情報(bào)檢索如果僅僅圍繞文檔提供服務(wù),就難以滿足用戶在知識(shí)層面上的需要;而圍繞模式提供服務(wù),不僅可以提供更為有效的服務(wù),同時(shí)有助于系統(tǒng)自身的成熟和發(fā)展。
模式可以認(rèn)為是隱含在各種事實(shí)中的各種事物共同遵守的規(guī)律,可以通過歸納和演繹兩種途徑發(fā)現(xiàn)模式:歸納是統(tǒng)計(jì)大量的事實(shí),發(fā)現(xiàn)模式形成的影響因素,最終提取出各種用戶感興趣的模式;演繹通過一定的邏輯規(guī)則進(jìn)行推理,從已知的事實(shí)中經(jīng)過規(guī)則的解釋和推理算法,最終得到用戶沒有意識(shí)到的知識(shí)或模式。前者的實(shí)例是機(jī)器學(xué)習(xí),后者則是本體。
但是,我們?cè)趶?qiáng)調(diào)“智能”的同時(shí)也增大了系統(tǒng)開銷。因此,在智能信息獲取中不能片面地追求智能,而忽略了最終目的――檢索。
3. 3智能信息檢索的研究?jī)?nèi)容
以智能搜索為中心內(nèi)容的分布式信息處理成為本領(lǐng)域的一個(gè)發(fā)展方向。智能搜索旨在為搜索引擎附加知識(shí)庫等智力因素,以實(shí)現(xiàn)更好的檢索效果。在智能搜索中,個(gè)性化的服務(wù)模式能夠使搜索引擎基于局部的用戶模式(User Profile)進(jìn)行領(lǐng)域建模,在此基礎(chǔ)上發(fā)展智能代理技術(shù)(Agent)能夠?yàn)橛脩籼峁└玫姆⻊?wù),實(shí)現(xiàn)分布式信息處理。
自動(dòng)問答系統(tǒng)是智能信息檢索的另外一個(gè)發(fā)展方向,它可以看成是從文檔到模式演進(jìn)的一個(gè)實(shí)例。早期的問答系統(tǒng)基于規(guī)則實(shí)現(xiàn),F(xiàn)在,基于統(tǒng)計(jì)的方法也大行其道。Jeon等人通過尋找測(cè)試集合內(nèi)相似的問題,以改善回答的效果,同時(shí)使用估計(jì)的方法對(duì)自動(dòng)回答的質(zhì)量進(jìn)行預(yù)測(cè);Harabagiu則使用隨機(jī)游動(dòng)的方法回答復(fù)雜提問。
4 基于語義的圖像和視頻檢索
隨著研究的發(fā)展,單獨(dú)內(nèi)容層面的研究已經(jīng)不足以提供有效的多媒體信息服務(wù),因此基于語義的檢索便受到研究人員的注意。目前,基于語義的檢索有三種實(shí)現(xiàn)方式:結(jié)合文本提取語義、借助通過MPEG-7等元數(shù)據(jù)方案和研究多媒體的內(nèi)容語義問題。
新聞視頻主要通過文本提取語義。國(guó)防科技大學(xué)的研究人員結(jié)合視頻內(nèi)容和字幕探測(cè)解決新聞視頻檢索的語義問題。針對(duì)時(shí)間特征來挖掘新聞視頻中的趨勢(shì)、時(shí)空分布等。結(jié)合使用字幕探測(cè)和人物識(shí)別的方法解決視頻內(nèi)容的語義標(biāo)注問題,并進(jìn)一步對(duì)新聞視頻做摘要,進(jìn)而深入新聞視頻的挖掘工作,給出了新聞視頻挖掘的框架,在結(jié)構(gòu)、語義內(nèi)容、摘要、趨勢(shì)、關(guān)聯(lián)關(guān)系、興趣點(diǎn)、分類、聚類和偏差分析等方面做深入研究。
基于MPEG-7等元數(shù)據(jù)方案的語義檢索使用“描述性語義”,是基于文本檢索的發(fā)展。
語義檢索的第三種方法,也是我們應(yīng)該深入研究的方法是多媒體的內(nèi)容語義問題。圖像(內(nèi)容)語義是分層的,通常包括特征語義、目標(biāo)與空間關(guān)系語義和場(chǎng)景語義三層,與此相關(guān)聯(lián)的是用戶的情感因素。黃昆和賴茂生針對(duì)彩色風(fēng)景圖片的四季特征進(jìn)行提取,付暢儉、李國(guó)輝和代科學(xué)對(duì)視頻的語義結(jié)構(gòu)進(jìn)行深入研究,從鏡頭、場(chǎng)景和視頻中發(fā)掘“某類特征或多類特征綜合表現(xiàn)出來的構(gòu)造模式”。
基于語義檢索以基于內(nèi)容檢索為基礎(chǔ),是在基于內(nèi)容檢索基礎(chǔ)上發(fā)展起來的方法。基于語義檢索需要了解用戶的需求,尤其是語義和情感方面的需求,與基于內(nèi)容檢索相比,它更多地側(cè)重于多媒體信息物理特征所蘊(yùn)含的意義。
5 檢索系統(tǒng)評(píng)價(jià)研究
5.1 TREC的發(fā)展機(jī)制
從創(chuàng)立至今(2007年),TREC已經(jīng)成功舉行了16屆,成為世紀(jì)之交最有影響的大型情報(bào)檢索系統(tǒng)評(píng)測(cè)活動(dòng)。從TREC3開始,以track為單位的活動(dòng)組織方式就開始發(fā)展并延續(xù)下來,最終成為TREC發(fā)展的重要機(jī)制之一。TREC的track一直在變化,表1是Voorhees在2006年TRECl5上做的統(tǒng)計(jì)。每項(xiàng)track都會(huì)持續(xù)一定的時(shí)間,當(dāng)一項(xiàng)track相對(duì)成熟或難以在現(xiàn)有水平上繼續(xù)發(fā)展時(shí)就會(huì)停止;每項(xiàng)track的第一次施行都會(huì)明確定義問題和任務(wù),并提供相應(yīng)的基礎(chǔ)結(jié)構(gòu)(包括測(cè)試集和評(píng)價(jià)方法論);每項(xiàng)track都有自己的郵件列表,為各項(xiàng)track的發(fā)展提供了“知識(shí)和智慧的pooling”。
作為TREC的發(fā)展的第二個(gè)重要機(jī)制,測(cè)試集合包括三個(gè)部分:文檔、檢索課題(topic)和相關(guān)判定。文檔和課題的結(jié)構(gòu)從TRECl起一直沒有多大變化。目前各種批評(píng)均指向TREC的相關(guān)判定,TREC的相關(guān)判定使用pooling技術(shù)。批評(píng)者認(rèn)為,對(duì)相關(guān)文檔池有貢獻(xiàn)的方法相比對(duì)相關(guān)文檔池沒有貢獻(xiàn)的方法更容易得到好成績(jī)。Zobel認(rèn)為對(duì)于pooling技術(shù)應(yīng)該關(guān)注其可信性,關(guān)注其是否對(duì)“新”系統(tǒng)的效能低估以及能否發(fā)現(xiàn)大部分相關(guān)文獻(xiàn)三個(gè)方面,他發(fā)現(xiàn)pooling技術(shù)并沒有對(duì)尚未判定過的方法低估。因此,盡管目前對(duì)TREC的相關(guān)判定仍然有各種批評(píng),但是其基本的相關(guān)判定方法一直沿用至今。
最后,作為TREC發(fā)展的第三個(gè)機(jī)制――評(píng)價(jià)指標(biāo),目前TREC的大部分tracks使用MAP(MeanAveragePrecision)。
從1992年發(fā)展至今,TREC在推動(dòng)情報(bào)檢索的發(fā)展上做出了卓越的貢獻(xiàn)。在TREC中也涌現(xiàn)出一批高質(zhì)量的信息檢索 系統(tǒng)。美中不足的是,其評(píng)測(cè)集合仍然是大量而無法做到海量,對(duì)于真正意義上的搜索引擎評(píng)價(jià)貢獻(xiàn)較小。其所關(guān)注的領(lǐng)域商業(yè)化和戰(zhàn)略化的意義明顯,但是卻忽視了普通用戶的需求。
5.2針對(duì)搜索引擎的評(píng)價(jià)
搜索引擎評(píng)價(jià)的難點(diǎn)是對(duì)海量數(shù)據(jù)的評(píng)價(jià)建立一個(gè)較為完備的指標(biāo)體系。傳統(tǒng)意義上的查全率和查準(zhǔn)率已經(jīng)無法適用,需要建立適用于網(wǎng)絡(luò)搜索用的評(píng)價(jià)指標(biāo)體系。
其中一種方法是使用P@n,該方法是針對(duì)檢索效果的單指標(biāo)評(píng)價(jià)方法。韓圣龍介紹了P@n及用于搜索引擎評(píng)價(jià)的4個(gè)相關(guān)性范疇,并用P@n針對(duì)中、英文搜索引擎做了評(píng)價(jià)實(shí)驗(yàn)[36-37]。韓圣龍認(rèn)為P@n“確實(shí)能比較客觀地反映檢索工具在前n(原文x,作者注)條命中記錄中提供有用信息的能力,”同時(shí)認(rèn)為“鏈接的可靠性是網(wǎng)絡(luò)信息檢索性能評(píng)價(jià)特有的評(píng)價(jià)指標(biāo)!盚awking和Robertson則提出5條前提假設(shè),分三種情形論述P@n,最終對(duì)于特定的(Q,E)(查詢和搜索引擎)推薦使用查全率-漏檢率曲線作為操作特征曲線,而影響P@n的兩個(gè)主要因素是測(cè)試集中相關(guān)文獻(xiàn)的數(shù)量和(Q,E)組合對(duì)相關(guān)文獻(xiàn)排序的能力。
國(guó)內(nèi)學(xué)者使用層次分析法建立指標(biāo)體系。朱慶華和杜佳結(jié)合使用特爾菲法和層次分析法制定了一個(gè)搜索引擎的評(píng)價(jià)指標(biāo)體系,并使用百度、谷歌和雅虎中國(guó)等6個(gè)中文搜索引擎進(jìn)行實(shí)證研究;左國(guó)超同樣使用層次分析法,建立了用于搜索引擎評(píng)價(jià)的指標(biāo)體系,與朱慶華和杜佳相比,其指標(biāo)體系略有不同。在層次設(shè)定上朱慶華和杜佳使用的是四層模型,而左國(guó)超使用的是標(biāo)準(zhǔn)的三層層次模型。Sarah E.Crudge和Frances c.Johnson同樣使用“層次”來構(gòu)造指標(biāo)體系,但他們使用的是聚類的方法。
在搜索引擎的評(píng)價(jià)研究中有兩個(gè)傾向:一是對(duì)檢索的效果進(jìn)行評(píng)價(jià),其主要代表指標(biāo)是P@n。P@n雖然存在一些問題,但是簡(jiǎn)便易行,能夠較好地反映檢索的質(zhì)量,并且已經(jīng)有了詳盡的研究。是對(duì)成套的指標(biāo)體系及指標(biāo)體系中每個(gè)指標(biāo)的權(quán)重賦值。這樣的研究能夠?yàn)樗阉饕娴母倪M(jìn)提供具體的指導(dǎo),但是難以用在實(shí)際的檢索評(píng)價(jià)之中。當(dāng)然,我們也必須認(rèn)識(shí)到評(píng)價(jià)的初衷就是為了系統(tǒng)效能的改進(jìn),因此兩方面的研究都有實(shí)際意義。
但是,對(duì)于搜索引擎的評(píng)價(jià)研究還很初步,仍然有各種方法需要我們?nèi)ヌ剿。?dāng)然,這些已有的研究和嘗試離最終評(píng)價(jià)指標(biāo)研究的理想狀態(tài)還相去甚遠(yuǎn)。搜索引擎的評(píng)價(jià)指標(biāo)研究,既要能對(duì)搜索引擎效能改善有指導(dǎo)意義,同時(shí)也要在指標(biāo)體系的系統(tǒng)研究和方法論體系上完備起來,而后者更是一個(gè)艱巨的任務(wù)。
6 結(jié)語與展望
在現(xiàn)階段情報(bào)檢索的前沿中體現(xiàn)出兩個(gè)主要的趨勢(shì):一是對(duì)情報(bào)檢索中的語言問題認(rèn)識(shí)得越來越透徹,對(duì)語言的建模和應(yīng)用手段較以往有很大進(jìn)步;二是強(qiáng)調(diào)信息檢索系統(tǒng)的智力或智能因素。隱藏在語言和智能問題背后的是對(duì)規(guī)律的探求,無論是語言問題還是智能問題,都可以通過統(tǒng)計(jì)或者本體的方法實(shí)現(xiàn);更深入地,通過對(duì)規(guī)律性現(xiàn)象的歸納和對(duì)有效規(guī)則的推導(dǎo)(演繹)以滿足用戶更深層次的需求。從表層的詞頻規(guī)律深入深層的模式,體現(xiàn)了情報(bào)檢索的研究進(jìn)展和趨勢(shì)。誠然,目前在自然語言(含跨語言)檢索的研究中,語言是非受控的,但并非是完全自然的,這在查詢中體現(xiàn)得更為明顯。因此實(shí)現(xiàn)真正意義上的自然語言檢索,還有很長(zhǎng)的路要走。
加強(qiáng)對(duì)語義,尤其是多媒體信息語義的研究。解決語義的問題不能單純地歸結(jié)到邏輯和本體,統(tǒng)計(jì)的方法也能對(duì)語義進(jìn)行有效的計(jì)算。對(duì)于語義的認(rèn)識(shí)也不能局限于語言和文本,多媒體信息的語義和語義層次,容納用戶情感特征的語義因素也是值得我們關(guān)注的研究?jī)?nèi)容。語義問題的研究,要深化用戶的需求,尤其要對(duì)用戶的需求建模。構(gòu)建有效用戶模式一直是難以有效解決的問題,同時(shí)也是智能化信息檢索的必由之路。
深入研究智能信息檢索,以探索超越信息的知識(shí)和模式提供更為深層次的服務(wù)。將視野從提供相關(guān)文本轉(zhuǎn)移到更高層次、更為本質(zhì)的用戶需求的滿足上,這是信息檢索的一個(gè)發(fā)展方向。對(duì)智能問題的研究也要同時(shí)兼顧文本信息和多媒體信息資源,要對(duì)網(wǎng)絡(luò)環(huán)境進(jìn)行有針對(duì)性和前瞻性的研究;要注意網(wǎng)絡(luò)上的信息資源不僅包括網(wǎng)頁和多媒體,還包括各種信息實(shí)體之間的關(guān)系、網(wǎng)絡(luò)的用戶以及由用戶構(gòu)成的社會(huì)關(guān)系網(wǎng)絡(luò)。
情報(bào)檢索的評(píng)價(jià)研究,也向針對(duì)性和動(dòng)態(tài)性兩個(gè)方向發(fā)展。TREC的track體系,是情報(bào)檢索評(píng)價(jià)研究的針對(duì)性的有力體現(xiàn)。新tracks的納入,體現(xiàn)了TREC對(duì)情報(bào)檢索前沿問題的引導(dǎo)作用。建立適合網(wǎng)絡(luò)搜索引擎的評(píng)價(jià)指標(biāo)和評(píng)價(jià)指標(biāo)體系,是情報(bào)檢索評(píng)價(jià)研究中的難點(diǎn),也是TREC受到批評(píng)的一個(gè)主要方面,目前主要使用P@n來完成對(duì)搜索引擎的評(píng)價(jià)任務(wù)。在情報(bào)檢索評(píng)價(jià)研究中,更困難也是最基本的問題,是完備的研究體系和方法論體系的建立,而這也是情報(bào)檢索應(yīng)該深入研究的基礎(chǔ)理論問題之一。
總而言之,盡管存在各種難以解決的問題,情報(bào)檢索的研究仍然取得了長(zhǎng)足的進(jìn)步,這些成績(jī)是首先應(yīng)該肯定的;對(duì)于存在的問題,我們也應(yīng)該在認(rèn)清發(fā)展方向的前提下,尋找關(guān)鍵問題并將其克服。在研究中要避免過多的操作層面的重復(fù)研究,這樣的研究可以留給工業(yè)界去做。要深入問題的本質(zhì),更為基礎(chǔ)和宏觀地研究情報(bào)檢索的核心理論問題和前沿問題,最終推動(dòng)情報(bào)檢索研究的發(fā)展。
相關(guān)熱詞搜索:幾個(gè) 情報(bào) 檢索 情報(bào)檢索發(fā)展的幾個(gè)前沿問題 情報(bào)檢索試題及答案 信息檢索的發(fā)展趨勢(shì)
熱點(diǎn)文章閱讀