【基于熵權的搜索引擎評價指標體系的構建】熵權法求指標權重案例
發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:
摘要 在回顧搜索引擎評價研究現(xiàn)狀的基礎上,分析搜索引擎評價指標的基本構成因素。創(chuàng)造性地將熵權理論引入搜索引擎評價領域,建立熵權值模型,并通過科學計算,構建出基于熵權的搜索引擎評價指標體系。
關鍵詞 搜索引擎 熵權 評價指標 模型
分類號 G250
1 引言
搜索引擎評價指標體系的構建,是科學評價搜索引擎質量的重要基礎。對搜索引擎進行全面、客觀、公正、系統(tǒng)的評價,不僅可以為用戶選擇合適的搜索引擎提供科學的依據(jù),而且可以促進搜索引擎的提供者改進服務質量,提高服務水平。本文擬將熵權理論引入搜索引擎評價領域,通過建立熵權值模型,構建出合理的搜索引擎評價指標體系。
2 搜索引擎評價指標的確立
2,1搜索引擎評價指標體系研究的現(xiàn)狀
搜索引擎評價指標體系的研究,起始于1996年。短短十幾年的時間里,國內外學者們在搜索引擎評價指標體系研究方面取得了諸多的成果。如美國南加州大學教授Robert Harris提出了8條標準;Da-vid Stoker和AlisonCooke也提出了與Harris完全不同的8條標準;H.Vernon Leighton和J.deep Srivastava將查準率和查全率引入,并提出了“相關性范疇”的概念;Bar-Ha提出應從數(shù)據(jù)庫覆蓋范圍、查詢響應時間、用戶所需努力和檢索效果來評估;Heting Chu和Marilyn Rosenthal則提出應從標引、檢索能力、檢索效果、輸出、用戶負擔5個方面來評價;Bell提出用戶為中心的評價理念。
國內學者張莉揚提出了重復率、互鏈接率兩個新指標;曾民族在綜合國內外搜索引擎評價研究成果的基礎上提出7項評價指標;南開大學的李培和劉淑華將評價標準歸納為“10C”原則和“CARS”檢驗體系兩種;陶躍華等根據(jù)系統(tǒng)工程的基本思想,提出了評價指標體系并建立了評價模型;郭曉苗則引入了層次分析評價法;劉正春提出了量化評價模型;王靜江對現(xiàn)有的指標體系做了比較研究;朱慶華提出了基于層次分析法的評價指標體系。
2,2搜索引擎評價指標的確立
2,2,1搜索引擎評價指標的確立原則 要確立科學、合理、有效的搜索引擎評價指標,就必須建立相應的指導原則,以保證我們確立的搜索引擎評價指標有一個客觀、統(tǒng)一的基礎。由于搜索引擎終究是為用戶檢索服務的一種網絡工具,確立搜索引擎評價指標最基本的出發(fā)點就是把用戶放在第一位,凸現(xiàn)“人性化”理念。因此搜索引擎評價指標的確立應該符合以下三原則:科學、合理、實用。
?科學原則。確立的搜索引擎評價指標要能客觀、真實、全面地反映搜索引擎的主要性能以及各相關因素之間的內在聯(lián)系。
?合理原則。確立的搜索引擎評價指標是對傳統(tǒng)評價指標體系的揚棄。既要擯棄傳統(tǒng)評價指標中存在的嚴重缺陷,又要適應信息技術的發(fā)展,增加新性能指標。使得其能夠充分體現(xiàn)現(xiàn)代網絡信息檢索技術發(fā)展的基本特點。
?實用原則。確立的搜索引擎評價指標要具有實用性和高效性。既要簡明扼要,便于識別,又要實用方便操作。
2,2,2搜索引擎評價指標的確立基于2,2,1節(jié)提出的理念與原則,搜索引擎評價指標應該包括:
?用戶感覺。包括用戶舒適度與智能化程度。舒適度主要包括:搜索引擎網站界面的外觀設計是否符合美學原則;用戶操作是否方便,是否有幫助系統(tǒng)、是否提供特色服務等;智能化程度則表現(xiàn)為搜索引擎的人性化服務水平,主要包括是否提供網頁快照功能、在保證檢索精度的前提下,搜索引擎能否對網頁按重要性排序以及能否對信息進行智能過濾等。
?數(shù)據(jù)庫。搜索引擎數(shù)據(jù)庫是搜索引擎工作的基礎,也是搜索引擎評價的重要對象。搜索引擎數(shù)據(jù)庫包括數(shù)據(jù)資源庫與資源索引庫兩方面。數(shù)據(jù)資源庫的評價指標主要有數(shù)據(jù)庫內容性質、規(guī)模、學科范圍、信息的權威性、時效性、更新周期,分類體系和信息抓取方式等;資源索引庫的評價指標主要是索引的標引數(shù)量、標引深度和標引方式與方法等。
?檢索功能。是搜索引擎技術能力的綜合體現(xiàn),直接影響著檢索結果質量的高低。搜索引擎檢索功能的評價指標主要包括:基本檢索、目錄式瀏覽檢索、高級檢索和多媒體檢索。
基本檢索通常是指布爾邏輯檢索、截詞檢索、鄰近詞檢索、字段檢索、通配符檢索和區(qū)分大小寫(英語)等功能;高級檢索主要是指加權檢索、模糊檢索、概念檢索、自然語言檢索、聚類檢索、跨語言檢索、不同格式文件檢索以及相關信息反饋檢索等。
?檢索結果。是用戶使用搜索引擎所產生的直接產品。其評價指標主要包括輸出結果與檢索效率兩方面。前者包括查全率(漏檢率)、查準率(誤檢率)、顯示內容的完整率和顯示方式的標準化程度;后者則包括響應時間、死鏈接率以及搜索系統(tǒng)的穩(wěn)定性等。
3構建基于熵權的模糊綜合評價模型
3,1“熵”概念的引入
熵(shannon)是自信息的數(shù)學期望,系統(tǒng)的不確定性被定義為信息熵(簡稱“熵”),其物理含義是指對信源整體的統(tǒng)計特征體的平均不確定性的量度(即平均自信息量)。對于某一特定的信息源,其信息熵只有一個。由于信息的獲得意味著不確定性的減少或消除,所以人們將接受某一信號所獲得的信息熵的減少值,稱為“負熵”。
4,2構建基于熵權的搜索引擎評價指標體系
依據(jù)本文2.2節(jié)設計出專家調查表,然后以電子郵件形式邀請“零點論壇”資深會員對調查表進行評價,依重要程度標注出5、4、3、2、1之中的代碼。本次調查共發(fā)出調查表50份,收回有效調查結果35份。通過對收回的調查結果匯總整理,構建出各級指標的模糊評價矩陣,然后利用Matlab 7.0編程計算出各級指標權重值。最后得出基于熵權的搜索引擎評價指標體系,如表1所示:
5 結論
本文創(chuàng)新之處在于將熵權計算模型引入搜索引擎評價領域。由于熵值賦權可以綜合考慮多個專家信息和指標蘊含的信息量,因此該計算模型對傳統(tǒng)評價中的權重系數(shù)進行了科學的修正,有效地避免了傳統(tǒng)方法中權重系數(shù)確定過程的主觀色彩,同時更加注重評價指標體系中指標自身的重要程度,而且充分利用了被評價指標的信息量,因此有效地彌補了傳統(tǒng)評價方法的缺陷,因此使得其最終評價結果比其他傳統(tǒng)評價方式更客觀、更科學、更合理,達到了科學評價的目的。
相關熱詞搜索:指標體系 構建 評價 基于熵權的搜索引擎評價指標體系的構建 熵權系數(shù)法綜合評價模型 熵權系數(shù)評價模型
熱點文章閱讀