信息檢索研究現(xiàn)狀
發(fā)布時間:2020-08-27 來源: 演講稿 點擊:
引言 信息檢索的目標是“所得即所需”(What you Get Is What You Want)。一個具體的體現(xiàn)就是:不同的用戶在使用同樣查詢的時候可能獲得不同的結(jié)果;更進一步,同一個用戶在不同時間或者不同地點發(fā)出同樣的查詢可能獲得不同的結(jié)果。例如,同一個用戶對“java”信息的需求:在工作時間希望得到有關(guān)編程語言java的相關(guān)文檔,在休息時間希望得到有關(guān)java島的旅游信息。為了達到這樣的目的,檢索系統(tǒng)需要充分地理解并掌握檢索活動的主體(用戶)和客體(資源)。面對這樣的挑戰(zhàn),人們一方面在信息資源端做工作,提出了語義網(wǎng)(Semantic Web,也稱為語義Web)的概念,使得檢索系統(tǒng)能夠更好地理解內(nèi)容,從而使檢索結(jié)果更符合檢索的條件;另一方面是在用戶端做工作,通過各種手段獲得用戶的特征信息并進行用戶建模,使用用戶個性化信息來修正查詢條件,從而改善檢索結(jié)果。這兩個方面的研究對達到“所得即所需”的目標起到了很大的推動作用。盡管語義網(wǎng)和用戶建模技術(shù)極大地提高了檢索系統(tǒng)的智能化、個性化水平,但是,人們也已經(jīng)意識到,將資源和用戶分開來考慮,難以達到“所得即所需”的目標。必須用系統(tǒng)的觀點來看待信息檢索活動,也就是說,用戶檢索的結(jié)果應(yīng)該是特定“環(huán)境”下的結(jié)果,這個環(huán)境就是檢索過程的上下文(context)?紤]了上下文的檢索稱為上下文信息檢(Contextual Information Retrieval,CIR)。
1 上下文信息檢索的概念 Word Net 是 Princeton 大學(xué)的心理學(xué)家、語言學(xué)家和計算機工程師聯(lián)合設(shè)計的一種基于認知語言學(xué)的英語詞典。在 Word Net2.1 中,上下文(context)被定義如下:
。保┱Z言學(xué)上下文,即在一個語言單位附近的片斷,用以幫助解釋該語言單位。
。玻┉h(huán)境,即一種情形或事件發(fā)生于其中的環(huán)境和背景。信息檢索領(lǐng)域中,上下文最初是指“自然語言處理中的文檔片段”,專門用于自然語言學(xué)中指代短語或句子在實際應(yīng)用中的語言環(huán)境。它在自然語言處理中的價值體現(xiàn)在兩個方面:一方面,在自然語言知識獲取的過程中,上下文是知識獲取的來源,在相應(yīng)推理機制下,上下文本身就是知識;另一方面,在自然語言處理的應(yīng)用問題解決過程中,上下文扮演著解決問題所需信息和資源提供者的重要角色。
從20世紀中期開始發(fā)展的信息檢索系統(tǒng),基本上是千人一面(one size fits all),不同用戶提出同一查詢,得到的答案完全相同。這種模式帶來的最大問題就是不夠人性化,難以準確地滿足不同用戶的個性化需求。所以,人們最先關(guān)注的是和用戶有關(guān)的上下文,即把用戶有關(guān)的信息引入檢索系統(tǒng)以滿足用戶的“所得即所需”。文獻[6]于2000年總結(jié)的Web搜索中的上下文信息主要包括和用戶查詢意圖以及用戶查詢表達相關(guān)的信息。文獻[7]也指出上下文和個性化檢索緊密相關(guān),用來幫助提高用戶檢索體驗,需要理解每一個用戶查找信息的模式習(xí)慣、用戶目標,以及信息本身。
然而,對信息檢索系統(tǒng)而言,可利用的上下文并不僅限于此。2002年9月在Massachusetts Amherst大學(xué)智能信息檢索中心(the Center for Intelligent Information Retrieval)召開的關(guān)于智能信息檢索未來研究方向和發(fā)展的研討會上,許多信息檢索領(lǐng)域頂級研究者經(jīng)過討論給出了上下文信息檢索定義[8],即:
定義1(上下文信息檢索,Contextual Information Retrieval,CIR)就是把有關(guān)用戶、查詢的上下文知識和信息檢索技術(shù)融合在一起,統(tǒng)一組織在一個整體框架內(nèi),以向用戶提供最適合用戶需求的檢索信息。
隨著人們對CIR的關(guān)注,2003年第12屆TREC(Text Retrieval Conference)國際會議第一次增加了HARD評測(High Accuracy Retrieval from Documents Track)。HARD評測的目的是考察用戶及其相關(guān)信息對檢索過程和檢索結(jié)果評估的影響,即考察信息檢索過程中上下文(如用戶地域特點、文檔風(fēng)格等上下文信息)對信息檢索性能的影響。
2004年第1屆IRiX(Information Retrieval in Context)研討會在第27屆SIGIR上舉行,并一舉成為
— 歡迎下載 2 SIGIR2004上參會人數(shù)最多、最受人關(guān)注的研討會。該研討會的總目標是如何在信息檢索過程中考慮上下文因素以提高用戶信息需求滿意度。在該研討會上,信息檢索領(lǐng)域中的上下文定義如下。
定義2(上下文,Context)信息檢索中的上下文包括一切與檢索查詢相關(guān)的任務(wù)信息、交互歷史信息、用戶信息等明確給出或隱含在檢索交互環(huán)境中的相關(guān)信息。
從定義2中可以看出,只要和用戶檢索過程相關(guān)的一切隱含或明確的信息都將是智能個性化信息檢索的上下文,都可能用于優(yōu)化檢索系統(tǒng),提高檢索性能。因此,智能信息檢索的上下文實際上是無所不在,無處不在。
事實上,從20世紀90年代后期以來,圍繞信息檢索、信息推薦等信息服務(wù)系統(tǒng)的上下文的研究就層出不窮,有許多研究成果已經(jīng)成功運用在實際系統(tǒng)中來幫助提高效率和性能,如針對用戶興趣的相關(guān)反饋技術(shù)、針對Web文檔鏈接內(nèi)容的Page Rank技術(shù)、針對用戶訪問歷史記錄的Web日志分析技術(shù)等,并取得了一系列重要成果。這為人們進一步挖掘可用上下文以幫助提高檢索效果樹立了信心,指明了方向。在2007年歐洲信息檢索大會上(European Conference On Information Retrieval,ECIR),Yahoo公司新興搜索技術(shù)(Emerging Search Technology)部門的Andrei Broder指出上下文信息不僅在當前第三代搜索引擎實現(xiàn)滿足“查詢背后的需求”(the need behind the query)目標中起著關(guān)鍵作用,更在未來第四代搜索引擎實現(xiàn)“上下文驅(qū)動的信息推送”(context driven information supply)目標中占據(jù)主導(dǎo)地位。
2 CIR 中的上下文因素及其分類 2.1 學(xué)術(shù)界的觀點 Peter Ingwersen等人把信息檢索系統(tǒng)中涉及的上下文因素抽象概括為六大因素,表示為一個上下文分層嵌套模型(Nested Model of context stratification for IR),如圖1所示。該模型作者認為,傳統(tǒng)信息檢索技術(shù)更多的是關(guān)注檢索對象本身以及檢索對象之間的特征,如詞語、段落以及文檔內(nèi)容的超級鏈接等;如今,信息檢索系統(tǒng)的上下文技術(shù)開始轉(zhuǎn)向用戶檢索對話過程中(session-time)可獲取的上下文信息,如鼠標移動、打印保存等操作,即轉(zhuǎn)向從交互式過程中獲取用戶的上下文信息。
圖 1 Peter Ingwersen 等人提出的分層嵌套的上下文模型 2005年IRiX(Information Retrieval in Context)研討會上研究者則把信息檢索中的上下文看作是包含了信息檢索過程中涉及的各種因素的超類,把各種因素不同取值之間的組合看作情景(Situation),把每種因素的取值可能性看作是任務(wù)(Task)。上下文中包含的因素主要是3個方面的,分別是系統(tǒng)、用戶和環(huán)境。其中每一方面的因素又包含多種因素,如用戶方面包括動機(Motivation)、知識(Knowledge)、歷史(History)和個體差異(Individual differences)等,系統(tǒng)方面包括資源(Resource)、檢索模型(Retrieval
Model)、設(shè)備(Device)、接口(Interface)等方面。
— 歡迎下載 3 2.2
產(chǎn)業(yè)界的觀點 Andrei Broder在2007年歐洲信息檢索大會上強調(diào)了當前和未來上下文信息在信息檢索過程中的重要性,指出當前第三代檢索技術(shù)是依賴上下文信息滿足“查詢背后的需求”(the need behind the query),并提出未來第四代檢索技術(shù)需要實現(xiàn)“上下文驅(qū)動的信息推送”(context driven information supply)。同時,他指出第三代搜索引擎中上下文中的決定因素(Context Determination)包括空間信息(如user local/target location)、查詢信息(如previous queries)、個人信息(如user profile)、明確信息(如user choice of a vertical search)以及潛在信息(如use Google from China, use google.cn)等5種。除了上面學(xué)術(shù)界給出的闡述外,產(chǎn)業(yè)界給出了更為實用的基于上下文的信息檢索的說明。他們把基于上下文的信息檢索看作是由信息檢索領(lǐng)域3種技術(shù)構(gòu)成的三維空間上的一個平面。這3種技術(shù)保障了對上下文信息的獲取和挖掘,如圖2所示。這3種技術(shù)分別是:
1)智能的文本挖掘和數(shù)據(jù)挖掘,通過自動文本概念標注、模式發(fā)現(xiàn)和實體知識識別等技術(shù)發(fā)現(xiàn)各種可用的信息; 2)靈活的內(nèi)容構(gòu)建技術(shù),能從結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中發(fā)現(xiàn)獨立的XML模式和相關(guān)關(guān)聯(lián); 3)高性能的檢索技術(shù),面對超大規(guī)模的數(shù)據(jù)能進行迅速和可擴展的內(nèi)容處理和檢索。
圖2 產(chǎn)業(yè)界關(guān)于上下文檢索的一種觀點 2.3
本文的分類觀點 縱觀上面的討論,Peter Ingwersen等人的看法層次分明,抽象意義明顯;2005年IRiX研討會上給出的結(jié)論比較系統(tǒng)、清楚自然,更便于在實現(xiàn)過程中區(qū)分和理解;Andrei Broder給出的上下文更符合Internet上搜索引擎環(huán)境下的應(yīng)用;而產(chǎn)業(yè)界則在技術(shù)層面上給出了挖掘應(yīng)用上下文因素的相關(guān)分析。結(jié)合以上討論和上下文信息在信息檢索領(lǐng)域已有的研究成果,本文把人們當前比較關(guān)注的上下文因素按照信息檢索的邏輯流程分為3個類別,如圖3所示,分別是用戶上下文、文檔上下文和系統(tǒng)上下文。
圖 3 本文對檢索系統(tǒng)中上下文因素的分類
— 歡迎下載 4 1)用戶上下文:檢索系統(tǒng)中圍繞用戶的上下文信息,如用戶的興趣、愛好等,以及用戶的查詢?nèi)罩、檢索反饋行為等。用戶上下文提供了理解用戶需求的信息,是現(xiàn)在實現(xiàn)個性化檢索及未來實現(xiàn)上下文驅(qū)動的信息推送服務(wù)的必要條件之一。為了便于詳細解析和用戶有關(guān)的上下文信息,本文把用戶上下文分為用戶靜態(tài)上下文和檢索任務(wù)上下文兩個類別。用戶靜態(tài)上下文和用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗、生活習(xí)慣、理解水平等因素密切相關(guān);檢索任務(wù)上下文包括檢索任務(wù)的內(nèi)容、特點、發(fā)生時間、作用范圍、發(fā)生背景等方面,一方面反映用戶本次信息需求的內(nèi)容,另一方面反映用戶檢索需求的變化和遷移。用戶靜態(tài)上下文描述了用戶檢索需求的一種長期特點,是用戶長期檢索興趣的反映;檢索任務(wù)上下文描述了用戶檢索需求的一種短期特點,是用戶短期檢索需求的反映。
。玻┪臋n上下文:文檔是指信息檢索的目標對象。文檔的內(nèi)容特征、使用范圍、產(chǎn)生的時間和地點以及其它元數(shù)據(jù)(meta data)信息等都屬于文檔上下文。文檔內(nèi)容特征包括文檔的書寫語言、術(shù)語化程度(專業(yè)性程度)、布局特點等因素。除了文檔內(nèi)容外,對Web網(wǎng)頁而言,超鏈分析(link analysis)、布局分析(block analysis)可以較準確地挖掘出其特征;對Pdf、Word等文檔而言,元數(shù)據(jù)分析、布局分析能更有效地發(fā)現(xiàn)其特點。另外,整個文檔集的組織結(jié)構(gòu)、文檔之間的關(guān)系等獨立于單個文檔之外的信息也屬于文檔上下文的范疇。
。常┫到y(tǒng)上下文:反映了信息檢索系統(tǒng)實現(xiàn)過程中的相關(guān)特征,如采用的索引機制、檢索模型、檢索界面等。
3 CIR 研究現(xiàn)狀 3.1 用戶上下文 3.1.1 用戶靜態(tài)上下文 用戶靜態(tài)上下文包括用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗、生活習(xí)慣、理解水平等各種和用戶個體相關(guān)的許多因素,用戶建模(user modeling)就是對用戶上下文中的因素進行模型表示。當前,研究者比較關(guān)注對用戶上下文中用戶認知特點(cognitive characteristics)的建模,如興趣、技能、偏好等。隨著近年來語義Web(Semantic Web)和本體(Ontology)技術(shù)的發(fā)展,許多研究紛紛以本體為工具來分析和描述用戶上下文。文獻[25]在具有層次關(guān)系的輕量級本體ODP(Open Directory Project)上對用戶查詢興趣進行擴展:把用戶興趣歸納到ODP上的不同類別上,把用戶對某個類別下的實例興趣度的50%加到其父類別上,達到由下層到上層對用戶興趣進行擴展的目的。文獻[6]提出基于Lycos的目錄層次結(jié)構(gòu)構(gòu)建一個表示用戶興趣的個性化層次樹,以幫助實現(xiàn)Web的個性化瀏覽。文獻把用[27]戶的研究興趣建立在ODP之上,并通過計算搜索結(jié)果網(wǎng)頁所屬類別和用戶興趣所屬類別之間的語義距離來實現(xiàn)個性化的檢索。這些研究使用的本體大都集中在一些大型的通用本體,所利用的語義關(guān)系大都是父子關(guān)系,還缺乏對本體信息更充分的利用和進一步挖掘,如本體上概念之間的關(guān)聯(lián)關(guān)系、建立在更細粒度上(如領(lǐng)域本體)的分析等。
信息檢索系統(tǒng)中常通過用戶描述文件(user profile)為每個用戶刻畫其用戶特征。用戶描述文件可以表示成加權(quán)向量模型、層次結(jié)構(gòu)模型、加權(quán)語義網(wǎng)模型、書簽和目錄結(jié)構(gòu)等,存儲時可以采用純文本文件、XML文件、關(guān)系數(shù)據(jù)庫、XML數(shù)據(jù)庫等各種形式。
獲取用戶上下文最為直接簡單的方法就是由用戶自我提供確認。系統(tǒng)可以在用戶注冊該系統(tǒng)時獲取相關(guān)的用戶上下文信息,如年齡、專業(yè)、興趣等。NEC研究所(NEC Research Institute)著名的Inquirus-2項目[6]就是通過用戶手工選擇查詢類別來獲取相應(yīng)的用戶上下文信息;Google Personal也是由用戶選擇興趣所屬類別來創(chuàng)建用戶描述文件的。然而,通過許多研究調(diào)查表明人工方式獲得的用戶上下文并不很準確,原因在于大部分用戶不愿意花費精力認真準確地填寫自己的相關(guān)信息。針對許多系統(tǒng)并不能獲得用戶準確上下文信息的問題,人們提出許多自動獲取方法來獲得用戶靜態(tài)上下文,如相關(guān)反饋(Relevant
— 歡迎下載 5 Feedback, RF,RF)、機器學(xué)習(xí)(Machine learning, ML)、數(shù)據(jù)挖掘(Data Mining, DM)等。這些方法通過對用戶操作歷史、用戶訪問過的資源特征、用戶訪問日志等信息的統(tǒng)計分析來獲取某方面的用戶上下文,幫助創(chuàng)建用戶描述文件。例如,文獻[12]介紹了使用關(guān)聯(lián)規(guī)則挖掘用戶的Web日志以構(gòu)建用戶的個性化描述文件;WY.Men等人提出根據(jù)用戶的點擊歷史自動把用戶興趣定位到Y(jié)ahoo的某個類別層次上,從而確定用戶的個性化信息;文獻[2]通過增量式文本挖掘方式(incremental text mining)發(fā)現(xiàn)用戶興趣。為了獲取更準確的用戶上下文信息,這些自動方法或者需要長期用戶的檢索任務(wù)上下文信息,或者需要與用戶上下文人工獲取方式結(jié)合起來。
3.1.2 檢索任務(wù)上下文 檢索任務(wù)上下文提供圍繞用戶檢索目的的上下文信息,包括檢索任務(wù)的內(nèi)容特點、發(fā)生時間、發(fā)生地點(IP地址)、作用范圍、發(fā)生背景(客戶端背景)、用戶的反饋信息、響應(yīng)操作等許多因素。根據(jù)這些因素的變化性和復(fù)雜性,我們把檢索任務(wù)上下文分為簡單因素和復(fù)雜因素兩類,兩類因素比較如表1所列。簡單因素包括用戶提交檢索時可以獲得的一次性數(shù)據(jù),這類數(shù)據(jù)在用戶的一次查詢過程中基本沒有變化,如檢索內(nèi)容、發(fā)生時間、發(fā)生地點、發(fā)生背景等因素。根據(jù)這些簡單因素,結(jié)合文檔集的特點,檢索系統(tǒng)可以在第一次返回檢索結(jié)果時向用戶提供更適合其需求的文檔。例如:根據(jù)發(fā)出查詢用戶的IP地址,搜索引擎可以判斷用戶的使用語言偏好以向用戶提供適合用戶語言閱讀的檢索結(jié)果;根據(jù)用戶發(fā)出查詢的時間,例如是在普通工作時間內(nèi)還是在休假時間內(nèi),搜索引擎可以把用戶更滿意的結(jié)果排在前面。Yahoo公司的基于上下文的信息檢索工具Y!Q1首先做到的就是從用戶在Web頁面上選取的上下文中識別出用戶需求并把相關(guān)頁面返回給用戶。復(fù)雜因素是指和用戶進行該檢索時對檢索過程和檢索結(jié)果的響應(yīng)相關(guān)的因素,和簡單因素相比,這類數(shù)據(jù)動態(tài)不定,如用戶的反饋信息、響應(yīng)操作、查詢持續(xù)時間等。根據(jù)復(fù)雜因素,系統(tǒng)可以將反饋結(jié)果應(yīng)用在用戶查看下一頁的結(jié)果排列上。Steve Fox把復(fù)雜因素又劃分為結(jié)果級別(Result-Level)和會話級別(Session-Level),并詳細列出了每一級別上更為細致的因素。
表1 檢索任務(wù)上下文中的簡單因素和復(fù)雜因素的比較
簡單因素 復(fù)雜因素 共同點 都是圍繞用戶檢索任務(wù)的上下文信息 區(qū)別 在用戶的一次查詢過程中基本沒有變化 和用戶在檢索過程中的響應(yīng) 行為有關(guān),動態(tài)不定 具體因 素包括 檢索內(nèi)容、發(fā)生時間、發(fā)生地點、發(fā)生背景等 用戶的反饋信息、響應(yīng)操作、 查詢持續(xù)時間等
復(fù)雜因素與用戶在檢索過程中的響應(yīng)行為有關(guān),而相關(guān)反饋技術(shù)是獲得這些因素最為重要的方法之一。相關(guān)反饋技術(shù)不僅在創(chuàng)建用戶描述文件時可用于獲取用戶的興趣和偏好,對即時提高檢索性能、滿足用戶短期查詢也有很好的效果。相關(guān)反饋分為明確反饋(explicit feedback)、偽反饋(pseudo feedback)、潛在反饋(implicit feedback)3種形式。明確反饋是指由用戶明確給出是否滿意檢索結(jié)果的評價。由于大部分用戶在檢索過程中不愿主動參與,因此在Web檢索系統(tǒng)中單獨應(yīng)用較少;即使有用戶主動參與了明確反饋,效果也不是很好。偽反饋是一種沒有用戶參與的方法,它假設(shè)第一次檢索結(jié)果中Top-N 篇文檔正是用戶所需,并把這種假設(shè)的反饋信息通過查詢擴展(query expansion)技術(shù)調(diào)整新查詢的結(jié)果排序。偽反饋中可提取出許多信息,如段落和概念等,用于優(yōu)化檢索性能,提取出真正有助于增強了解用戶個性化的上下文信息將更具有意義。偽反饋是應(yīng)用較多的一種方法,但它基于的前提假設(shè)“Top-N篇文檔與用戶所需相關(guān)”值得進一步關(guān)注。文獻[7]曾通過實驗發(fā)現(xiàn)偽反饋的效果受N值的影響較大,因此提出了兩階段混合模型的解決方法。
潛在反饋是指在用戶檢索和瀏覽檢索結(jié)果的過程中由檢索系統(tǒng)自動收集有關(guān)用戶響應(yīng)行為的反饋信息,并把反饋信息及時應(yīng)用到當次檢索結(jié)果的優(yōu)化調(diào)整上。潛在反饋由于具有不需用戶主動配合、能即時修正檢索結(jié)果的優(yōu)點,因此成為當前研究領(lǐng)域獲取檢索任務(wù)上下文最主要的方法。也有人對潛在反饋的效
— 歡迎下載 6 果存有疑慮,但研究[8]表明通過潛在結(jié)構(gòu)化的個性化信息進行的個性化Web檢索性能要比明確反饋信息的效果好,文獻[9]也得出了類似的結(jié)論,并且通過進一步研究表明在越復(fù)雜的檢索任務(wù)中,潛在反饋的效果越明顯。隨著人們對檢索任務(wù)上下文內(nèi)容更細致的挖掘應(yīng)用,針對檢索任務(wù)上下文的潛在反饋模型也成為最近研究的重點,如文獻[9]針對用戶的點擊流(click through)信息提出一種基于決策理論的潛在反饋模型;文獻[4]針對用戶與Top-N文檔交互的上下文信息提出一種基于啟發(fā)式的二元投票模型(Binary Voting Model)。
3.2 資源上下文 超鏈分析技術(shù)主要針對Web文檔超鏈分析技術(shù)主要針對Web文檔中的超級鏈接(hypertext)信息,早期曾在Lawrence Page和Sergey Brin等提出的Page Rank算法中實現(xiàn)[1]。考慮到重要的文檔會有更多的鏈接指向它,Page Rank算法從文檔頁面上的進鏈(back ward link)和出鏈(forward
link)數(shù)量出發(fā)計算每個頁面的權(quán)重。近年來,人們又提出了面向主題(topic-sensitive)的Page Rank算法和基于PPV(Personalized Page Rank Vector)的個性化Page Rank算法,這些算法都是在原有Page Rank的基礎(chǔ)上增加了主題特征、用戶偏好等其它上下文因素來計算頁面的權(quán)重。除了Page Rank算法,Kleinberg提出的HITS(Hypertext Induced Topic Search)算法也是超鏈分析技術(shù)中的一個重要算法,與Page Rank的全局平均思想不同,HITS算法針對一個查詢請求分析權(quán)威頁面(Authority)和樞軸(Hub)頁面來計算頁面的重要程度。然而HITS算法還是單純從文檔中的超級鏈接出發(fā),忽略了文檔中的其它因素。
有許多算法研究文檔如何分塊,這些文獻大都從視覺位置、內(nèi)容模式方面著手;也有一些研究專門從文檔分塊角度研究特征,如分塊的重要性、分塊的吸引性、分塊的語義性、分塊的指向性等;這些研究在分析分塊特征時常常依據(jù)的是塊中詞語的熵信息,或者根據(jù)鏈接的統(tǒng)計信息,或者根據(jù)分塊中的語義信息。布局分析的一個重要意義在于充分挖掘文檔特征,以用于提高信息檢索性能。
3.3 系統(tǒng)上下文 信息檢索系統(tǒng)所采用的檢索模型是系統(tǒng)上下文中關(guān)鍵的一種。信息檢索領(lǐng)域中經(jīng)典的3種檢索模型分別是布爾模型、向量模型和概率模型,它們分別基于集合論、代數(shù)論和Bayesian概率論。布爾模型基于簡單的關(guān)鍵詞匹配但檢索效果很差;向量模型雖然提供了更好的改進但缺乏一個規(guī)范的框架;Bayesian概率論最大的優(yōu)勢在于提供了一個完整的框架以便人們把檢索中的各種因素組合在一起考慮。各種模型及其相應(yīng)的模型擴展在文獻[2]中介紹得比較詳細,本文不再一一列舉。
檢索系統(tǒng)中檢索界面決定了人機交互(human-computer interaction)的內(nèi)容,和檢索系統(tǒng)中的其它上下文信息配合使用,對實現(xiàn)智能個性化檢索非常關(guān)鍵。檢索界面主要包括接受用戶的查詢輸入和顯示結(jié)果兩個部分。
對查詢輸入界面,一方面可以在布局設(shè)計上考慮滿足不同用戶的使用偏好和習(xí)慣,另一方面可以在功能上考慮向用戶及時推送其感興趣的檢索信息。如當前的Google,一方面針對不同地區(qū)用戶自動推出不同的語言版本以適應(yīng)用戶的語言習(xí)慣,另一方面結(jié)合世界新聞事件不斷更換其標志圖案(logo)以向用戶推送最新消息。
根據(jù)我們使用Web搜索引擎的經(jīng)驗,結(jié)果顯示界面往往根據(jù)我們使用Web搜索引擎的經(jīng)驗,結(jié)果顯示界面往往是把從海量信息中篩選出的大量信息顯示給用戶,因此除了檢索性能,結(jié)果顯示界面的設(shè)計常常影響用戶對該檢索系統(tǒng)是否偏好。好的結(jié)果顯示界面一方面在布局上要簡潔清晰、便于瀏覽查看,另一方面在功能上還能幫助用戶理解個性化的檢索結(jié)果、提高用戶的檢索效率。例如,在檢索結(jié)果列表中加入準確的文檔摘要信息,高亮度顯示影響文檔排序的關(guān)鍵詞,按類別顯示文檔列表等都是比較有效的方法。
除了接受查詢部分和顯示結(jié)果部分,Jaime Teevan認為增加個性化參數(shù)控制(control over key personalized
parameters)部分也非常重要。雖然這部分功能用戶可能較少使用,但提供給用戶簡易快捷的調(diào)整功能還是可以幫助用戶獲得更加滿意的檢索效果的。
— 歡迎下載 7 另外,我們把獨立于檢索系統(tǒng)之外的社會環(huán)境也看作系統(tǒng)上下文的一部分。這些上下文是指隱藏在社會生活、國際背景和文化趨勢中的一些外界常規(guī)或突發(fā)信息。擁有及時社會環(huán)境的信息檢索系統(tǒng)可以向用戶提供更準確更及時的信息。這類上下文有兩種方式可以獲得,一種是人工收集,另一種是系統(tǒng)自動收集。人工收集是由工作人員根據(jù)現(xiàn)實生活,人工收集這類上下文;系統(tǒng)自動收集是指對所有用戶檢索日志進行統(tǒng)計分析及對比比較,發(fā)現(xiàn)這類上下文。兩種方法相比而言,人工收集方式具有響應(yīng)速度快、準確率高等特點,而系統(tǒng)自動收集往往能發(fā)現(xiàn)潛在的社會環(huán)境信息,從而更易于滿足大部分人群潛在的檢索需求。如谷歌搜索引擎2 能自動向用戶提供和用戶輸入字面最接近的、最常出現(xiàn)的前10個查詢,而網(wǎng)易3總是把系統(tǒng)統(tǒng)計得出的熱門搜索顯示在其主頁面上,以向用戶傳遞人們當前最為關(guān)心的信息。
4 CIR 研究面臨的挑戰(zhàn) 盡管自從上個世紀五六十年代開始的信息檢索技術(shù)研究歷史已達半個多世紀,并且已經(jīng)發(fā)展到當前依賴上下文信息滿足“查詢背后的需求”的第三代檢索技術(shù);盡管各地研究者在理解用戶個性化興趣、解析文檔特征、發(fā)展不斷具有適應(yīng)性的檢索模型等方面進行了多角度研究,并不斷從機器學(xué)習(xí)、人工智能、自然語言處理、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域借鑒方法和思路;但是面對不斷出現(xiàn)的超大規(guī)模在線數(shù)據(jù),面對快速發(fā)展的語義網(wǎng)資源,面對用戶對檢索效果越來越高的檢索要求,基于上下文的信息檢索技術(shù)還面臨著多重挑戰(zhàn)。
1)深入理解用戶需求并建模 無論是當前第三代依賴上下文信息滿足“查詢背后的需求”的檢索技術(shù),還是未來第四代實現(xiàn)“上下文驅(qū)動的信息推送”(context driven information supply)技術(shù),只有深入理解用戶個性化的需求才能達到真正使用戶滿意。雖然有許多研究在用戶靜態(tài)上下文和檢索任務(wù)上下文領(lǐng)域進行了有效的嘗試,但如何深入理解用戶需求有待進一步研究,尤其在用戶需求背景比較復(fù)雜、需求周期變換不定、需求形式多樣化的情況下。文獻[5]曾把用戶上網(wǎng)搜索的需求形式分成3類:對信息的需求(例如:找新聞、找評論、找帖子等)、對導(dǎo)航的需求(找某個特定網(wǎng)站)和對交易的需求(例如:下載軟件、在線購物、訂機票等)。然而,面對不斷增長的海量數(shù)據(jù),我們還需要在理解用戶的個體需求背景下加深用戶需求動機的分析,例如了解用戶已有的和查詢相關(guān)的知識背景等。當然,在深入理解用戶需求的同時也可能會帶來暴露隱私的危險性,這也是個性化信息檢索中一直期待研究的重要問題。
2)加強語義理解 語義網(wǎng)描述了信息資源的語義數(shù)據(jù)模型,提供了計算機理解內(nèi)容的基礎(chǔ)。隨著語義Web和本體技術(shù)的發(fā)展,大家普遍認為按照本體標注和組織資源可以方便計算機之間基于語義的交換和處理。當前的檢索系統(tǒng)雖然大量利用了文檔上下文信息,特別是文檔內(nèi)容中的信息如超鏈接、標簽、文檔視覺形式以及其它各種形式的元數(shù)據(jù)類別等信息。但是,本質(zhì)上這些方法仍然還是靠句法結(jié)構(gòu),基本上是用單詞來匹配文本,缺乏對文檔含義的真正理解。如何適應(yīng)語義網(wǎng)上的處理方式以實現(xiàn)和語義網(wǎng)資源和服務(wù)的無縫連接以及如何深入理解文檔含義和用戶需求的含義都需要深入的語義分析。已有的研究在利用大規(guī)模通用本體如Word Net、OPT等上面取得了提高,但面向領(lǐng)域、粒度細致的語義分析和改進仍需深入研究。
3)提供融合上下文的檢索模型 檢索模型是檢索系統(tǒng)的核心算法,信息檢索領(lǐng)域中已經(jīng)成功發(fā)展了向量空間模型、概率模型和統(tǒng)計語言模型等3種經(jīng)典模型,并且還出現(xiàn)了新型的檢索模型如基于引力的檢索模型(Gravitation-based model)等。對經(jīng)典的向量空間模型而言,雖然已經(jīng)有潛在語義分析(Latent Sementic Analysis)、向量空間基(vector space bases)等方法把文檔的上下文融入到向量空間模型中,但如何把各種上下文信息合理地融入到檢索模型中的研究還不多見。近十年來統(tǒng)計語言模型是被強烈看好的一種支持融入上下文信息的檢索模型。對統(tǒng)計語言模型而言,線性插值法是研究過程中常用的方法之一。然而線性插值項的系數(shù)并不是一件容易確定的事情,特別是在涉及到多種不同類型的上下文信息時。因此,對如何把各類不同上下文信息合理地融入到檢索模型而言,還有許多值得研究的問題。
— 歡迎下載 8 4)CIR標準測試數(shù)據(jù)集和基準測試查詢 眾所周知,TREC會議上的測試數(shù)據(jù)集已成為信息檢索領(lǐng)域公認的標準數(shù)據(jù)集。其中的HARD評測上也專門提供了考察像用戶位置、文檔風(fēng)格、文檔語言等上下文信息的標準評測數(shù)據(jù)。但信息檢索過程中包含用戶、文檔、系統(tǒng)等不同種類的上下文,在TREC標準數(shù)據(jù)集中加入更多標準化的不同類型的上下文信息,特別是便于語義理解的上下文信息如提供標準的領(lǐng)域本體,對考察CIR查詢效果的影響具有重要意義。
5)由被動要求轉(zhuǎn)為主動推送 事實上,“Contextual Information Retrieval”具有一語雙關(guān)的含義,可以具有兩種解釋形式,分別是基于上下文的信息檢索(retrieval determined by context)和上下文中的信息檢索(retrieval determined in context)。這兩種解釋分別代表著當前第三代信息檢索技術(shù)“滿足查詢背后的需求”和未來第四代信息檢索技術(shù)“上下文驅(qū)動的信息推送”的研究方向。雖然現(xiàn)在已有像RSS(Really Simple Syndication)這種在線訂閱推送服務(wù),但這并不是一種根據(jù)用戶上下文信息主動變化而適時推送的服務(wù),距離真正的主動推送服務(wù)還有很大差距。深入了解并理解用戶所處的上下文環(huán)境,并充分利用系統(tǒng)、資源等上下文信息是未來實現(xiàn)向用戶主動推送信息的前提條件。第三代信息檢索技術(shù)的發(fā)展將為第四代技術(shù)奠定堅實基礎(chǔ)。
結(jié)束語
本文全面介紹了上下文信息檢索的研究現(xiàn)狀,概括了國內(nèi)外研究者對上下文信息檢索過程中涉及的上下文因素及其分類,并從用戶上下文、文檔上下文和系統(tǒng)上下文3個角度對國內(nèi)外有關(guān)上下文信息檢索技術(shù)的研究作了概述。分析探討了CIR研究領(lǐng)域面臨的挑戰(zhàn),指出對用戶檢索背后需求的探究、基于語義的理解、創(chuàng)建融合上下文的檢索模型等將是上下文信息檢索領(lǐng)域面臨的一些問題。
參考文獻 [1]丁浩,林云.Internet上的個性化信息服務(wù)[J].軟件世界,2000,(3). [2]趙靜.個性化信息檢索及功能模型[D].圖書與情報,2004,(1). [3]應(yīng)曉敏,等.一種面向個性化服務(wù)的無需反例集的用戶建模方法[J].國防科技大學(xué)學(xué)報,2002。(3):67-71. [4]滕躍.基于用戶興趣的個性化WEB檢索[D].清華大學(xué)。2004. [5]紀明奎.個性化信息檢索探析[M]. 哈爾濱商業(yè)大學(xué)圖書館。2011. [6]張亮,馮志勇.個性化搜索引擎[J].計算機工程,2006,32(18):202-203. [7]宋偉萍,楊建林.個性化信息檢索中的相關(guān)反饋技術(shù)研究[J].圖書情報工作,2008(4):11-12 [8]龔筆宏.基于用戶反饋的個性化檢索技術(shù)研究[D].北京:北京大學(xué),2007:1-4 [9]郭新明,趙 薔,弋改珍.基于相關(guān)反饋的個性化信息檢索模型研究[J]. 咸陽師范學(xué)院學(xué)報,2008。(11):54-57. [10]李樹青.個性化信息檢索技術(shù)綜述[J]. 綜述與述評,2009.(5) [11]朱蘇. 基于用戶信息管理的個性化信息服務(wù). 淮陰工學(xué)院學(xué)報, 2004.12(6):81-82. [12]毛軍. 網(wǎng)絡(luò)環(huán)境下的個性化主動信息服務(wù). 中國信息導(dǎo)報, 2001(9): 27-28. [13]張玉葉, 李連, 王春歆. 個性化主動信息服務(wù)實現(xiàn)研究. 情報雜志, 2005(8):71-72. [14]王玉英, 韓偉. 基于網(wǎng)絡(luò)的個性化信息服務(wù)研究. 圖書情報知識, 2003.12(6):64-65. [15] 徐寶文, 張衛(wèi)豐. 搜索引擎與信息獲取技術(shù). 北京:清華大學(xué)出版社, 2003.1-23. [16]
Network Resource. Mobile Agent. http://www.ecs.soton.ac.uk/~nrj/download-files/KE-REVIEW-95.ps, 2006.09 [17]
Russell. S. Norvig, P. Artifical Intelligence: A Modern Approach. Prentice-Hall,Englewood Cliffs, 1995: 46~47
熱點文章閱讀