信息檢索研究現(xiàn)狀

發(fā)布時間:2020-08-27 來源: 演講稿點擊：

　引言信息檢索的目標是“所得即所需”(What you Get Is What You Want)。一個具體的體現(xiàn)就是：不同的用戶在使用同樣查詢的時候可能獲得不同的結果；更進一步，同一個用戶在不同時間或者不同地點發(fā)出同樣的查詢可能獲得不同的結果。例如，同一個用戶對“java”信息的需求：在工作時間希望得到有關編程語言java的相關文檔，在休息時間希望得到有關java島的旅游信息。為了達到這樣的目的，檢索系統(tǒng)需要充分地理解并掌握檢索活動的主體（用戶）和客體（資源）。面對這樣的挑戰(zhàn)，人們一方面在信息資源端做工作，提出了語義網(wǎng)（Semantic Web，也稱為語義Web）的概念，使得檢索系統(tǒng)能夠更好地理解內容，從而使檢索結果更符合檢索的條件；另一方面是在用戶端做工作，通過各種手段獲得用戶的特征信息并進行用戶建模，使用用戶個性化信息來修正查詢條件，從而改善檢索結果。這兩個方面的研究對達到“所得即所需”的目標起到了很大的推動作用。盡管語義網(wǎng)和用戶建模技術極大地提高了檢索系統(tǒng)的智能化、個性化水平，但是，人們也已經(jīng)意識到，將資源和用戶分開來考慮，難以達到“所得即所需”的目標。必須用系統(tǒng)的觀點來看待信息檢索活動，也就是說，用戶檢索的結果應該是特定“環(huán)境”下的結果，這個環(huán)境就是檢索過程的上下文（context）�？紤]了上下文的檢索稱為上下文信息檢(Contextual Information Retrieval,CIR)。

　1 上下文信息檢索的概念 Word Net 是 Princeton 大學的心理學家、語言學家和計算機工程師聯(lián)合設計的一種基于認知語言學的英語詞典。在 Word Net2.1 中，上下文（context）被定義如下：

�。保┱Z言學上下文，即在一個語言單位附近的片斷，用以幫助解釋該語言單位。

�。玻┉h(huán)境，即一種情形或事件發(fā)生于其中的環(huán)境和背景。信息檢索領域中，上下文最初是指“自然語言處理中的文檔片段”，專門用于自然語言學中指代短語或句子在實際應用中的語言環(huán)境。它在自然語言處理中的價值體現(xiàn)在兩個方面：一方面，在自然語言知識獲取的過程中，上下文是知識獲取的來源，在相應推理機制下，上下文本身就是知識；另一方面，在自然語言處理的應用問題解決過程中，上下文扮演著解決問題所需信息和資源提供者的重要角色。

　從20世紀中期開始發(fā)展的信息檢索系統(tǒng)，基本上是千人一面(one size fits all)，不同用戶提出同一查詢，得到的答案完全相同。這種模式帶來的最大問題就是不夠人性化，難以準確地滿足不同用戶的個性化需求。所以，人們最先關注的是和用戶有關的上下文，即把用戶有關的信息引入檢索系統(tǒng)以滿足用戶的“所得即所需”。文獻[6]于2000年總結的Web搜索中的上下文信息主要包括和用戶查詢意圖以及用戶查詢表達相關的信息。文獻[7]也指出上下文和個性化檢索緊密相關，用來幫助提高用戶檢索體驗，需要理解每一個用戶查找信息的模式習慣、用戶目標，以及信息本身。

　然而，對信息檢索系統(tǒng)而言，可利用的上下文并不僅限于此。2002年9月在Massachusetts Amherst大學智能信息檢索中心（the Center for Intelligent Information Retrieval）召開的關于智能信息檢索未來研究方向和發(fā)展的研討會上，許多信息檢索領域頂級研究者經(jīng)過討論給出了上下文信息檢索定義[8]，即：

　定義１（上下文信息檢索，Contextual Information Retrieval,CIR)就是把有關用戶、查詢的上下文知識和信息檢索技術融合在一起，統(tǒng)一組織在一個整體框架內，以向用戶提供最適合用戶需求的檢索信息。

　隨著人們對CIR的關注，2003年第12屆TREC（Text Retrieval Conference）國際會議第一次增加了HARD評測（High Accuracy Retrieval from Documents Track）。HARD評測的目的是考察用戶及其相關信息對檢索過程和檢索結果評估的影響，即考察信息檢索過程中上下文（如用戶地域特點、文檔風格等上下文信息）對信息檢索性能的影響。

　2004年第１屆IRiX（Information Retrieval in Context）研討會在第27屆SIGIR上舉行，并一舉成為

　— 歡迎下載 2 SIGIR2004上參會人數(shù)最多、最受人關注的研討會。該研討會的總目標是如何在信息檢索過程中考慮上下文因素以提高用戶信息需求滿意度。在該研討會上，信息檢索領域中的上下文定義如下。

　定義2（上下文，Context）信息檢索中的上下文包括一切與檢索查詢相關的任務信息、交互歷史信息、用戶信息等明確給出或隱含在檢索交互環(huán)境中的相關信息。

　從定義２中可以看出，只要和用戶檢索過程相關的一切隱含或明確的信息都將是智能個性化信息檢索的上下文，都可能用于優(yōu)化檢索系統(tǒng)，提高檢索性能。因此，智能信息檢索的上下文實際上是無所不在，無處不在。

　事實上，從20世紀90年代后期以來，圍繞信息檢索、信息推薦等信息服務系統(tǒng)的上下文的研究就層出不窮，有許多研究成果已經(jīng)成功運用在實際系統(tǒng)中來幫助提高效率和性能，如針對用戶興趣的相關反饋技術、針對Web文檔鏈接內容的Page Rank技術、針對用戶訪問歷史記錄的Web日志分析技術等，并取得了一系列重要成果。這為人們進一步挖掘可用上下文以幫助提高檢索效果樹立了信心，指明了方向。在2007年歐洲信息檢索大會上（European Conference On Information Retrieval,ECIR），Yahoo公司新興搜索技術(Emerging Search Technology)部門的Andrei Broder指出上下文信息不僅在當前第三代搜索引擎實現(xiàn)滿足“查詢背后的需求”（the need behind the query）目標中起著關鍵作用，更在未來第四代搜索引擎實現(xiàn)“上下文驅動的信息推送”（context driven information supply）目標中占據(jù)主導地位。

　2 CIR 中的上下文因素及其分類 2.1 學術界的觀點 Peter Ingwersen等人把信息檢索系統(tǒng)中涉及的上下文因素抽象概括為六大因素，表示為一個上下文分層嵌套模型（Nested Model of context stratification for IR），如圖１所示。該模型作者認為，傳統(tǒng)信息檢索技術更多的是關注檢索對象本身以及檢索對象之間的特征，如詞語、段落以及文檔內容的超級鏈接等；如今，信息檢索系統(tǒng)的上下文技術開始轉向用戶檢索對話過程中（session-time）可獲取的上下文信息，如鼠標移動、打印保存等操作，即轉向從交互式過程中獲取用戶的上下文信息。

　圖 1 Peter Ingwersen 等人提出的分層嵌套的上下文模型 2005年IRiX（Information Retrieval in Context）研討會上研究者則把信息檢索中的上下文看作是包含了信息檢索過程中涉及的各種因素的超類，把各種因素不同取值之間的組合看作情景（Situation），把每種因素的取值可能性看作是任務（Task）。上下文中包含的因素主要是３個方面的，分別是系統(tǒng)、用戶和環(huán)境。其中每一方面的因素又包含多種因素，如用戶方面包括動機（Motivation）、知識（Knowledge）、歷史（History）和個體差異（Individual differences）等，系統(tǒng)方面包括資源（Resource）、檢索模型（Retrieval

　Model）、設備（Device）、接口（Interface）等方面。

　— 歡迎下載 3 2.2

　產(chǎn)業(yè)界的觀點 Andrei Broder在2007年歐洲信息檢索大會上強調了當前和未來上下文信息在信息檢索過程中的重要性，指出當前第三代檢索技術是依賴上下文信息滿足“查詢背后的需求”(the need behind the query)，并提出未來第四代檢索技術需要實現(xiàn)“上下文驅動的信息推送”(context driven information supply)。同時，他指出第三代搜索引擎中上下文中的決定因素（Context Determination）包括空間信息（如user local/target location）、查詢信息（如previous queries）、個人信息（如user profile）、明確信息（如user choice of a vertical search）以及潛在信息（如use Google from China, use google.cn）等５種。除了上面學術界給出的闡述外，產(chǎn)業(yè)界給出了更為實用的基于上下文的信息檢索的說明。他們把基于上下文的信息檢索看作是由信息檢索領域３種技術構成的三維空間上的一個平面。這３種技術保障了對上下文信息的獲取和挖掘，如圖２所示。這３種技術分別是：

　1)智能的文本挖掘和數(shù)據(jù)挖掘，通過自動文本概念標注、模式發(fā)現(xiàn)和實體知識識別等技術發(fā)現(xiàn)各種可用的信息； 2)靈活的內容構建技術，能從結構化或半結構化的數(shù)據(jù)源中發(fā)現(xiàn)獨立的XML模式和相關關聯(lián)； 3)高性能的檢索技術，面對超大規(guī)模的數(shù)據(jù)能進行迅速和可擴展的內容處理和檢索。

　圖２產(chǎn)業(yè)界關于上下文檢索的一種觀點 2.3

　本文的分類觀點縱觀上面的討論，Peter Ingwersen等人的看法層次分明，抽象意義明顯；2005年IRiX研討會上給出的結論比較系統(tǒng)、清楚自然，更便于在實現(xiàn)過程中區(qū)分和理解；Andrei Broder給出的上下文更符合Internet上搜索引擎環(huán)境下的應用；而產(chǎn)業(yè)界則在技術層面上給出了挖掘應用上下文因素的相關分析。結合以上討論和上下文信息在信息檢索領域已有的研究成果，本文把人們當前比較關注的上下文因素按照信息檢索的邏輯流程分為3個類別，如圖3所示，分別是用戶上下文、文檔上下文和系統(tǒng)上下文。

　圖 3 本文對檢索系統(tǒng)中上下文因素的分類

　— 歡迎下載 4 １）用戶上下文：檢索系統(tǒng)中圍繞用戶的上下文信息，如用戶的興趣、愛好等，以及用戶的查詢日志、檢索反饋行為等。用戶上下文提供了理解用戶需求的信息，是現(xiàn)在實現(xiàn)個性化檢索及未來實現(xiàn)上下文驅動的信息推送服務的必要條件之一。為了便于詳細解析和用戶有關的上下文信息，本文把用戶上下文分為用戶靜態(tài)上下文和檢索任務上下文兩個類別。用戶靜態(tài)上下文和用戶的專業(yè)背景、工作內容、愛好、經(jīng)驗、生活習慣、理解水平等因素密切相關；檢索任務上下文包括檢索任務的內容、特點、發(fā)生時間、作用范圍、發(fā)生背景等方面，一方面反映用戶本次信息需求的內容，另一方面反映用戶檢索需求的變化和遷移。用戶靜態(tài)上下文描述了用戶檢索需求的一種長期特點，是用戶長期檢索興趣的反映；檢索任務上下文描述了用戶檢索需求的一種短期特點，是用戶短期檢索需求的反映。

　２）文檔上下文：文檔是指信息檢索的目標對象。文檔的內容特征、使用范圍、產(chǎn)生的時間和地點以及其它元數(shù)據(jù)（meta data）信息等都屬于文檔上下文。文檔內容特征包括文檔的書寫語言、術語化程度（專業(yè)性程度）、布局特點等因素。除了文檔內容外，對Web網(wǎng)頁而言，超鏈分析（link analysis）、布局分析（block analysis）可以較準確地挖掘出其特征；對Pdf、Word等文檔而言，元數(shù)據(jù)分析、布局分析能更有效地發(fā)現(xiàn)其特點。另外，整個文檔集的組織結構、文檔之間的關系等獨立于單個文檔之外的信息也屬于文檔上下文的范疇。

�。常┫到y(tǒng)上下文：反映了信息檢索系統(tǒng)實現(xiàn)過程中的相關特征，如采用的索引機制、檢索模型、檢索界面等。

　3 CIR 研究現(xiàn)狀 3.1 用戶上下文 3.1.1 用戶靜態(tài)上下文用戶靜態(tài)上下文包括用戶的專業(yè)背景、工作內容、愛好、經(jīng)驗、生活習慣、理解水平等各種和用戶個體相關的許多因素，用戶建模（user modeling）就是對用戶上下文中的因素進行模型表示。當前，研究者比較關注對用戶上下文中用戶認知特點（cognitive characteristics）的建模，如興趣、技能、偏好等。隨著近年來語義Web（Semantic Web）和本體（Ontology）技術的發(fā)展，許多研究紛紛以本體為工具來分析和描述用戶上下文。文獻[25]在具有層次關系的輕量級本體ODP（Open Directory Project）上對用戶查詢興趣進行擴展：把用戶興趣歸納到ODP上的不同類別上，把用戶對某個類別下的實例興趣度的50%加到其父類別上，達到由下層到上層對用戶興趣進行擴展的目的。文獻[6]提出基于Lycos的目錄層次結構構建一個表示用戶興趣的個性化層次樹，以幫助實現(xiàn)Web的個性化瀏覽。文獻把用[27]戶的研究興趣建立在ODP之上，并通過計算搜索結果網(wǎng)頁所屬類別和用戶興趣所屬類別之間的語義距離來實現(xiàn)個性化的檢索。這些研究使用的本體大都集中在一些大型的通用本體，所利用的語義關系大都是父子關系，還缺乏對本體信息更充分的利用和進一步挖掘，如本體上概念之間的關聯(lián)關系、建立在更細粒度上（如領域本體）的分析等。

　信息檢索系統(tǒng)中常通過用戶描述文件（user profile）為每個用戶刻畫其用戶特征。用戶描述文件可以表示成加權向量模型、層次結構模型、加權語義網(wǎng)模型、書簽和目錄結構等，存儲時可以采用純文本文件、XML文件、關系數(shù)據(jù)庫、XML數(shù)據(jù)庫等各種形式。

　獲取用戶上下文最為直接簡單的方法就是由用戶自我提供確認。系統(tǒng)可以在用戶注冊該系統(tǒng)時獲取相關的用戶上下文信息，如年齡、專業(yè)、興趣等。NEC研究所（NEC Research Institute）著名的Inquirus－２項目[6]就是通過用戶手工選擇查詢類別來獲取相應的用戶上下文信息；Google Personal也是由用戶選擇興趣所屬類別來創(chuàng)建用戶描述文件的。然而，通過許多研究調查表明人工方式獲得的用戶上下文并不很準確，原因在于大部分用戶不愿意花費精力認真準確地填寫自己的相關信息。針對許多系統(tǒng)并不能獲得用戶準確上下文信息的問題，人們提出許多自動獲取方法來獲得用戶靜態(tài)上下文，如相關反饋（Relevant

　— 歡迎下載 5 Feedback, RF，RF）、機器學習（Machine learning, ML）、數(shù)據(jù)挖掘（Data Mining, DM）等。這些方法通過對用戶操作歷史、用戶訪問過的資源特征、用戶訪問日志等信息的統(tǒng)計分析來獲取某方面的用戶上下文，幫助創(chuàng)建用戶描述文件。例如，文獻［12］介紹了使用關聯(lián)規(guī)則挖掘用戶的Web日志以構建用戶的個性化描述文件；WY.Men等人提出根據(jù)用戶的點擊歷史自動把用戶興趣定位到Yahoo的某個類別層次上，從而確定用戶的個性化信息；文獻[2]通過增量式文本挖掘方式（incremental text mining）發(fā)現(xiàn)用戶興趣。為了獲取更準確的用戶上下文信息，這些自動方法或者需要長期用戶的檢索任務上下文信息，或者需要與用戶上下文人工獲取方式結合起來。

　3.1.2 檢索任務上下文檢索任務上下文提供圍繞用戶檢索目的的上下文信息，包括檢索任務的內容特點、發(fā)生時間、發(fā)生地點（IP地址）、作用范圍、發(fā)生背景（客戶端背景）、用戶的反饋信息、響應操作等許多因素。根據(jù)這些因素的變化性和復雜性，我們把檢索任務上下文分為簡單因素和復雜因素兩類，兩類因素比較如表１所列。簡單因素包括用戶提交檢索時可以獲得的一次性數(shù)據(jù)，這類數(shù)據(jù)在用戶的一次查詢過程中基本沒有變化，如檢索內容、發(fā)生時間、發(fā)生地點、發(fā)生背景等因素。根據(jù)這些簡單因素，結合文檔集的特點，檢索系統(tǒng)可以在第一次返回檢索結果時向用戶提供更適合其需求的文檔。例如：根據(jù)發(fā)出查詢用戶的ＩＰ地址，搜索引擎可以判斷用戶的使用語言偏好以向用戶提供適合用戶語言閱讀的檢索結果；根據(jù)用戶發(fā)出查詢的時間，例如是在普通工作時間內還是在休假時間內，搜索引擎可以把用戶更滿意的結果排在前面。Yahoo公司的基于上下文的信息檢索工具Y!Q1首先做到的就是從用戶在Web頁面上選取的上下文中識別出用戶需求并把相關頁面返回給用戶。復雜因素是指和用戶進行該檢索時對檢索過程和檢索結果的響應相關的因素，和簡單因素相比，這類數(shù)據(jù)動態(tài)不定，如用戶的反饋信息、響應操作、查詢持續(xù)時間等。根據(jù)復雜因素，系統(tǒng)可以將反饋結果應用在用戶查看下一頁的結果排列上。Steve Fox把復雜因素又劃分為結果級別（Result-Level）和會話級別（Session-Level），并詳細列出了每一級別上更為細致的因素。

　表１檢索任務上下文中的簡單因素和復雜因素的比較

　簡單因素復雜因素共同點都是圍繞用戶檢索任務的上下文信息區(qū)別在用戶的一次查詢過程中基本沒有變化和用戶在檢索過程中的響應行為有關，動態(tài)不定具體因素包括檢索內容、發(fā)生時間、發(fā)生地點、發(fā)生背景等用戶的反饋信息、響應操作、查詢持續(xù)時間等

　復雜因素與用戶在檢索過程中的響應行為有關，而相關反饋技術是獲得這些因素最為重要的方法之一。相關反饋技術不僅在創(chuàng)建用戶描述文件時可用于獲取用戶的興趣和偏好，對即時提高檢索性能、滿足用戶短期查詢也有很好的效果。相關反饋分為明確反饋（explicit feedback）、偽反饋（pseudo feedback）、潛在反饋（implicit feedback）３種形式。明確反饋是指由用戶明確給出是否滿意檢索結果的評價。由于大部分用戶在檢索過程中不愿主動參與，因此在Web檢索系統(tǒng)中單獨應用較少；即使有用戶主動參與了明確反饋，效果也不是很好。偽反饋是一種沒有用戶參與的方法，它假設第一次檢索結果中Top-N 篇文檔正是用戶所需，并把這種假設的反饋信息通過查詢擴展（query expansion）技術調整新查詢的結果排序。偽反饋中可提取出許多信息，如段落和概念等，用于優(yōu)化檢索性能，提取出真正有助于增強了解用戶個性化的上下文信息將更具有意義。偽反饋是應用較多的一種方法，但它基于的前提假設“Top-N篇文檔與用戶所需相關”值得進一步關注。文獻[7]曾通過實驗發(fā)現(xiàn)偽反饋的效果受N值的影響較大，因此提出了兩階段混合模型的解決方法。

　潛在反饋是指在用戶檢索和瀏覽檢索結果的過程中由檢索系統(tǒng)自動收集有關用戶響應行為的反饋信息，并把反饋信息及時應用到當次檢索結果的優(yōu)化調整上。潛在反饋由于具有不需用戶主動配合、能即時修正檢索結果的優(yōu)點，因此成為當前研究領域獲取檢索任務上下文最主要的方法。也有人對潛在反饋的效

　— 歡迎下載 6 果存有疑慮，但研究[8]表明通過潛在結構化的個性化信息進行的個性化Web檢索性能要比明確反饋信息的效果好，文獻[9]也得出了類似的結論，并且通過進一步研究表明在越復雜的檢索任務中，潛在反饋的效果越明顯。隨著人們對檢索任務上下文內容更細致的挖掘應用，針對檢索任務上下文的潛在反饋模型也成為最近研究的重點，如文獻[9]針對用戶的點擊流（click through）信息提出一種基于決策理論的潛在反饋模型；文獻[4]針對用戶與Top-N文檔交互的上下文信息提出一種基于啟發(fā)式的二元投票模型（Binary Voting Model）。

　3.2 資源上下文超鏈分析技術主要針對Web文檔超鏈分析技術主要針對Web文檔中的超級鏈接（hypertext）信息，早期曾在Lawrence Page和Sergey Brin等提出的Page Rank算法中實現(xiàn)[1]。考慮到重要的文檔會有更多的鏈接指向它，Page Rank算法從文檔頁面上的進鏈（back ward link）和出鏈（forward

　link）數(shù)量出發(fā)計算每個頁面的權重。近年來，人們又提出了面向主題（topic-sensitive）的Page Rank算法和基于PPV（Personalized Page Rank Vector）的個性化Page Rank算法，這些算法都是在原有Page Rank的基礎上增加了主題特征、用戶偏好等其它上下文因素來計算頁面的權重。除了Page Rank算法，Kleinberg提出的HITS（Hypertext Induced Topic Search）算法也是超鏈分析技術中的一個重要算法，與Page Rank的全局平均思想不同，HITS算法針對一個查詢請求分析權威頁面（Authority）和樞軸（Hub）頁面來計算頁面的重要程度。然而HITS算法還是單純從文檔中的超級鏈接出發(fā)，忽略了文檔中的其它因素。

　有許多算法研究文檔如何分塊，這些文獻大都從視覺位置、內容模式方面著手；也有一些研究專門從文檔分塊角度研究特征，如分塊的重要性、分塊的吸引性、分塊的語義性、分塊的指向性等；這些研究在分析分塊特征時常常依據(jù)的是塊中詞語的熵信息，或者根據(jù)鏈接的統(tǒng)計信息，或者根據(jù)分塊中的語義信息。布局分析的一個重要意義在于充分挖掘文檔特征，以用于提高信息檢索性能。

　3.3 系統(tǒng)上下文信息檢索系統(tǒng)所采用的檢索模型是系統(tǒng)上下文中關鍵的一種。信息檢索領域中經(jīng)典的３種檢索模型分別是布爾模型、向量模型和概率模型，它們分別基于集合論、代數(shù)論和Bayesian概率論。布爾模型基于簡單的關鍵詞匹配但檢索效果很差；向量模型雖然提供了更好的改進但缺乏一個規(guī)范的框架；Bayesian概率論最大的優(yōu)勢在于提供了一個完整的框架以便人們把檢索中的各種因素組合在一起考慮。各種模型及其相應的模型擴展在文獻[2]中介紹得比較詳細，本文不再一一列舉。

　檢索系統(tǒng)中檢索界面決定了人機交互（human-computer interaction）的內容，和檢索系統(tǒng)中的其它上下文信息配合使用，對實現(xiàn)智能個性化檢索非常關鍵。檢索界面主要包括接受用戶的查詢輸入和顯示結果兩個部分。

　對查詢輸入界面，一方面可以在布局設計上考慮滿足不同用戶的使用偏好和習慣，另一方面可以在功能上考慮向用戶及時推送其感興趣的檢索信息。如當前的Google，一方面針對不同地區(qū)用戶自動推出不同的語言版本以適應用戶的語言習慣，另一方面結合世界新聞事件不斷更換其標志圖案（logo）以向用戶推送最新消息。

　根據(jù)我們使用Web搜索引擎的經(jīng)驗，結果顯示界面往往根據(jù)我們使用Web搜索引擎的經(jīng)驗，結果顯示界面往往是把從海量信息中篩選出的大量信息顯示給用戶，因此除了檢索性能，結果顯示界面的設計常常影響用戶對該檢索系統(tǒng)是否偏好。好的結果顯示界面一方面在布局上要簡潔清晰、便于瀏覽查看，另一方面在功能上還能幫助用戶理解個性化的檢索結果、提高用戶的檢索效率。例如，在檢索結果列表中加入準確的文檔摘要信息，高亮度顯示影響文檔排序的關鍵詞，按類別顯示文檔列表等都是比較有效的方法。

　除了接受查詢部分和顯示結果部分，Jaime Teevan認為增加個性化參數(shù)控制(control over key personalized

　parameters)部分也非常重要。雖然這部分功能用戶可能較少使用，但提供給用戶簡易快捷的調整功能還是可以幫助用戶獲得更加滿意的檢索效果的。

　— 歡迎下載 7 另外，我們把獨立于檢索系統(tǒng)之外的社會環(huán)境也看作系統(tǒng)上下文的一部分。這些上下文是指隱藏在社會生活、國際背景和文化趨勢中的一些外界常規(guī)或突發(fā)信息。擁有及時社會環(huán)境的信息檢索系統(tǒng)可以向用戶提供更準確更及時的信息。這類上下文有兩種方式可以獲得，一種是人工收集，另一種是系統(tǒng)自動收集。人工收集是由工作人員根據(jù)現(xiàn)實生活，人工收集這類上下文；系統(tǒng)自動收集是指對所有用戶檢索日志進行統(tǒng)計分析及對比比較，發(fā)現(xiàn)這類上下文。兩種方法相比而言，人工收集方式具有響應速度快、準確率高等特點，而系統(tǒng)自動收集往往能發(fā)現(xiàn)潛在的社會環(huán)境信息，從而更易于滿足大部分人群潛在的檢索需求。如谷歌搜索引擎２能自動向用戶提供和用戶輸入字面最接近的、最常出現(xiàn)的前10個查詢，而網(wǎng)易3總是把系統(tǒng)統(tǒng)計得出的熱門搜索顯示在其主頁面上，以向用戶傳遞人們當前最為關心的信息。

　4 CIR 研究面臨的挑戰(zhàn) 盡管自從上個世紀五六十年代開始的信息檢索技術研究歷史已達半個多世紀，并且已經(jīng)發(fā)展到當前依賴上下文信息滿足“查詢背后的需求”的第三代檢索技術；盡管各地研究者在理解用戶個性化興趣、解析文檔特征、發(fā)展不斷具有適應性的檢索模型等方面進行了多角度研究，并不斷從機器學習、人工智能、自然語言處理、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘等領域借鑒方法和思路；但是面對不斷出現(xiàn)的超大規(guī)模在線數(shù)據(jù)，面對快速發(fā)展的語義網(wǎng)資源，面對用戶對檢索效果越來越高的檢索要求，基于上下文的信息檢索技術還面臨著多重挑戰(zhàn)。

　1）深入理解用戶需求并建模無論是當前第三代依賴上下文信息滿足“查詢背后的需求”的檢索技術，還是未來第四代實現(xiàn)“上下文驅動的信息推送”（context driven information supply）技術，只有深入理解用戶個性化的需求才能達到真正使用戶滿意。雖然有許多研究在用戶靜態(tài)上下文和檢索任務上下文領域進行了有效的嘗試，但如何深入理解用戶需求有待進一步研究，尤其在用戶需求背景比較復雜、需求周期變換不定、需求形式多樣化的情況下。文獻[5]曾把用戶上網(wǎng)搜索的需求形式分成３類：對信息的需求（例如：找新聞、找評論、找帖子等）、對導航的需求（找某個特定網(wǎng)站）和對交易的需求（例如：下載軟件、在線購物、訂機票等）。然而，面對不斷增長的海量數(shù)據(jù)，我們還需要在理解用戶的個體需求背景下加深用戶需求動機的分析，例如了解用戶已有的和查詢相關的知識背景等。當然，在深入理解用戶需求的同時也可能會帶來暴露隱私的危險性，這也是個性化信息檢索中一直期待研究的重要問題。

　2）加強語義理解語義網(wǎng)描述了信息資源的語義數(shù)據(jù)模型，提供了計算機理解內容的基礎。隨著語義Ｗｅｂ和本體技術的發(fā)展，大家普遍認為按照本體標注和組織資源可以方便計算機之間基于語義的交換和處理。當前的檢索系統(tǒng)雖然大量利用了文檔上下文信息，特別是文檔內容中的信息如超鏈接、標簽、文檔視覺形式以及其它各種形式的元數(shù)據(jù)類別等信息。但是，本質上這些方法仍然還是靠句法結構，基本上是用單詞來匹配文本，缺乏對文檔含義的真正理解。如何適應語義網(wǎng)上的處理方式以實現(xiàn)和語義網(wǎng)資源和服務的無縫連接以及如何深入理解文檔含義和用戶需求的含義都需要深入的語義分析。已有的研究在利用大規(guī)模通用本體如Word Net、OPT等上面取得了提高，但面向領域、粒度細致的語義分析和改進仍需深入研究。

　3）提供融合上下文的檢索模型檢索模型是檢索系統(tǒng)的核心算法，信息檢索領域中已經(jīng)成功發(fā)展了向量空間模型、概率模型和統(tǒng)計語言模型等３種經(jīng)典模型，并且還出現(xiàn)了新型的檢索模型如基于引力的檢索模型（Gravitation-based model）等。對經(jīng)典的向量空間模型而言，雖然已經(jīng)有潛在語義分析（Latent Sementic Analysis）、向量空間基（vector space bases）等方法把文檔的上下文融入到向量空間模型中，但如何把各種上下文信息合理地融入到檢索模型中的研究還不多見。近十年來統(tǒng)計語言模型是被強烈看好的一種支持融入上下文信息的檢索模型。對統(tǒng)計語言模型而言，線性插值法是研究過程中常用的方法之一。然而線性插值項的系數(shù)并不是一件容易確定的事情，特別是在涉及到多種不同類型的上下文信息時。因此，對如何把各類不同上下文信息合理地融入到檢索模型而言，還有許多值得研究的問題。

　— 歡迎下載 8 4）CIR標準測試數(shù)據(jù)集和基準測試查詢眾所周知，TREC會議上的測試數(shù)據(jù)集已成為信息檢索領域公認的標準數(shù)據(jù)集。其中的HARD評測上也專門提供了考察像用戶位置、文檔風格、文檔語言等上下文信息的標準評測數(shù)據(jù)。但信息檢索過程中包含用戶、文檔、系統(tǒng)等不同種類的上下文，在TREC標準數(shù)據(jù)集中加入更多標準化的不同類型的上下文信息，特別是便于語義理解的上下文信息如提供標準的領域本體，對考察ＣＩＲ查詢效果的影響具有重要意義。

　5）由被動要求轉為主動推送事實上，“Contextual Information Retrieval”具有一語雙關的含義，可以具有兩種解釋形式，分別是基于上下文的信息檢索（retrieval determined by context）和上下文中的信息檢索（retrieval determined in context）。這兩種解釋分別代表著當前第三代信息檢索技術“滿足查詢背后的需求”和未來第四代信息檢索技術“上下文驅動的信息推送”的研究方向。雖然現(xiàn)在已有像RSS（Really Simple Syndication）這種在線訂閱推送服務，但這并不是一種根據(jù)用戶上下文信息主動變化而適時推送的服務，距離真正的主動推送服務還有很大差距。深入了解并理解用戶所處的上下文環(huán)境，并充分利用系統(tǒng)、資源等上下文信息是未來實現(xiàn)向用戶主動推送信息的前提條件。第三代信息檢索技術的發(fā)展將為第四代技術奠定堅實基礎。

　結束語

　本文全面介紹了上下文信息檢索的研究現(xiàn)狀，概括了國內外研究者對上下文信息檢索過程中涉及的上下文因素及其分類，并從用戶上下文、文檔上下文和系統(tǒng)上下文3個角度對國內外有關上下文信息檢索技術的研究作了概述。分析探討了CIR研究領域面臨的挑戰(zhàn)，指出對用戶檢索背后需求的探究、基于語義的理解、創(chuàng)建融合上下文的檢索模型等將是上下文信息檢索領域面臨的一些問題。

　參考文獻 [1]丁浩，林云．Internet上的個性化信息服務[J]．軟件世界，2000，(3)． [2]趙靜．個性化信息檢索及功能模型[D]．圖書與情報，2004，(1)． [3]應曉敏，等．一種面向個性化服務的無需反例集的用戶建模方法[J]．國防科技大學學報，2002。(3)：67-71． [4]滕躍．基于用戶興趣的個性化WEB檢索[D]．清華大學。2004． [5]紀明奎.個性化信息檢索探析[M]. 哈爾濱商業(yè)大學圖書館。2011. [6]張亮，馮志勇.個性化搜索引擎[J].計算機工程，2006，32（18）：202-203. [7]宋偉萍，楊建林.個性化信息檢索中的相關反饋技術研究[J].圖書情報工作,2008(4):11-12 [8]龔筆宏.基于用戶反饋的個性化檢索技術研究[D].北京:北京大學,2007:1-4 [9]郭新明,趙薔,弋改珍.基于相關反饋的個性化信息檢索模型研究[J]. 咸陽師范學院學報,2008。(11):54-57. [10]李樹青.個性化信息檢索技術綜述[J]. 綜述與述評,2009.(5) [11]朱蘇. 基于用戶信息管理的個性化信息服務. 淮陰工學院學報, 2004.12(6):81-82. [12]毛軍. 網(wǎng)絡環(huán)境下的個性化主動信息服務. 中國信息導報, 2001(9): 27-28. [13]張玉葉, 李連, 王春歆. 個性化主動信息服務實現(xiàn)研究. 情報雜志, 2005(8):71-72. [14]王玉英, 韓偉. 基于網(wǎng)絡的個性化信息服務研究. 圖書情報知識, 2003.12(6):64-65. [15] 徐寶文, 張衛(wèi)豐. 搜索引擎與信息獲取技術. 北京：清華大學出版社, 2003.1-23. [16]

　Network Resource. Mobile Agent. http://www.ecs.soton.ac.uk/~nrj/download-files/KE-REVIEW-95.ps, 2006.09 [17]

　Russell. S. Norvig, P. Artifical Intelligence: A Modern Approach. Prentice-Hall,Englewood Cliffs, 1995: 46～47

相關熱詞搜索：信息檢索現(xiàn)狀研究

www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

信息檢索研究現(xiàn)狀

熱點文章閱讀