www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

搜索引擎的發(fā)展情況和現(xiàn)狀 [聚類搜索引擎發(fā)展現(xiàn)狀研究]

發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:

  [摘要]分析研究搜索引擎發(fā)展軌跡及國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀,通過對國內(nèi)外現(xiàn)有聚類搜索引擎的基本功能進行分析,并從聚類方式、聚類結果展示形式和聚類效果三個角度進行測評,提出“以用戶為中心”的聚類2.0搜索是未來聚類搜索引擎乃至搜索引擎的發(fā)展趨勢。
  [關鍵詞]聚類搜索引擎 可視化搜索 社會化聚類搜索 聚類2.0搜索 發(fā)展趨勢
  [分類號]G354.2
  
  1 前言
  
  網(wǎng)絡信息的迅猛增長,信息用戶行為的不斷變化,致使網(wǎng)絡檢索需求在原有的全面性和準確性的基礎上,朝著新穎化、個性化的趨勢發(fā)展,從而給搜索引擎的發(fā)展帶來了機遇與挑戰(zhàn)。聚類搜索引擎的突出特點是有利于提高檢索精度,根據(jù)某一屬性,對搜索引擎返回的結果進行聚類,從而使用戶迅速定位所需信息。在當前網(wǎng)絡環(huán)境下,現(xiàn)有的聚類搜索引擎能否滿足日益變化的檢索需求,其今后的發(fā)展態(tài)勢如何呢?本文將對上述問題進行探討。
  
  2 聚類搜索引擎發(fā)展現(xiàn)狀分析
  
  2.1搜索引擎發(fā)展軌跡
  
  隨著搜索技術的不斷發(fā)展,新型異質(zhì)的搜索產(chǎn)品層出不窮。作者將搜索引擎近十多年的發(fā)展大致分為三個階段,即從目錄式搜索(第一代搜索引擎),發(fā)展到基于Robot的搜索(第二代搜索引擎),進而到智能化、個性化搜索(第三代搜索引擎)。智能化搜索采用中文自動分類、自動聚類等人工智能技術,使用內(nèi)容分析及區(qū)域智能識別技術,增強了搜索引擎的查詢能力,產(chǎn)生了元搜索引擎(如Dogpile、mamma等)、聚類搜索引擎(如Clusty、KartOO及比比貓等)、自然語言處理搜索引擎(如Lexxe)以及語義網(wǎng)搜索引擎(如Swogle)等。在滿足用戶個性化檢索需求方面,產(chǎn)生了如移動搜索引擎(如Ask Mobile、儒豹等)、桌面搜索引擎(如Coogle Desktop、百度硬盤搜索等)、可視化搜索引擎(如SearchMe、RedZee)、垂直搜索引擎(如ZabaSearch、沱沱網(wǎng))以及多內(nèi)容搜索引擎(博客、視頻、音頻、地圖等)。
  搜索引擎的發(fā)展可從其緊密關聯(lián)的兩個對象――互聯(lián)網(wǎng)資源(搜索引擎的搜索對象)和用戶(搜索引擎的使用者)來分析。搜索引擎前兩個發(fā)展階段主要聚焦在資源,從第三代開始逐漸注重用戶的搜索體驗,搜索引擎發(fā)展的最終目的是“所得即所需”(What You Get is What You Want)。
  
  2.2國內(nèi)外聚類搜索引擎發(fā)展現(xiàn)狀
  作為第三代搜索引擎的代表――聚類搜索引擎正在蓬勃發(fā)展:2000年出現(xiàn)的Vivisimo可稱為國內(nèi)外最早的聚類搜索產(chǎn)品之一,2004年Clusty在其基礎上得到了進一步發(fā)展;2003年問世的Mooter被人們廣泛看好;近期出現(xiàn)的KartOO(Ujiko及KVisu)、Quintura、KoolTorch和WebBrain等多款可視化聚類搜索引擎帶給用戶全新的視覺感受;可視化音樂電影聚類搜索引擎Liveplasma的出現(xiàn)使聚類搜索向垂直化趨勢邁進。相對于國外來說國內(nèi)聚類搜索引擎的發(fā)展則滯后得多,其中最具競爭力和發(fā)展?jié)摿κ?005年創(chuàng)立的比比貓(Bbmao),它集聚類、去重、收藏等多重功能于一身,是社會化的聚類元搜索引擎;5iseek及SeekXun目前處于聚類的起始階段,只提供搜索結果聚類這一功能。
  
  3 國內(nèi)外聚類搜索引擎功能分析
  
  本文從聚類搜索引擎的基本功能和聚類功能兩個角度分析國內(nèi)外已有成熟聚類搜索引擎產(chǎn)品。
  
  3.省略發(fā)起的“The Top 100Alternative Search Engines”評選結果為標準,并借助調(diào)研和實驗,選取了較具代表性的聚類搜索引擎作為分析對象,如表1所示:
  通過以上分析可以看出,目前聚類搜索引擎得到了快速發(fā)展并取得了一定的成果:①聚類搜索引擎幾乎均為元搜索引擎,檢索對象已不單單為網(wǎng)頁,更觸及到圖像、視頻、博客、地圖、維基及工作等;②將社會性網(wǎng)絡(SNS)的相關概念和技術充分融合其中,如Tag、收藏及掘客等;③在提供個性化服務方面各具特色,其中iBoogie及國內(nèi)的比比貓?zhí)峁┑姆⻊招问绞谷搜矍耙涣,如iBoogie的用戶可根據(jù)自己的偏好,在博客、游戲、軍事及旅游等大類下選擇已提供的信息源,形成個性化的搜索對象,比比貓在頁面右側(cè)將相關圖片、新聞、購物及下載等與網(wǎng)頁檢索結果一并呈現(xiàn)給用戶。
  
  3.2聚類搜索引擎的聚類功能測評
  聚類功能的測評主要從聚類方式、聚類結果展示形式及聚類效果三個角度來分析。
  3.2.1聚類方式 盡管所選取網(wǎng)站的聚類形式不盡相同,但大體上可歸納為三種:目錄結構、層次聚類結構和樹狀及網(wǎng)狀結構。目錄結構即將聚類類目簡單地羅列;層次聚類采用“自下而上”的方式將聚類結果再進行聚類,直到滿足“類內(nèi)最大相似,類間最大差異”的聚類目的;樹狀和網(wǎng)狀結構是將聚類結果進行一系列的控制和優(yōu)化處理,將類目間的關系揭示出來。表2歸納了各聚類搜索引擎的聚類方式:
  3.2.2聚類結果的展現(xiàn)形式 傳統(tǒng)聚類搜索引擎主要通過類目列表的形式來展示搜索結果,即將類目按照一定的組織形式(如類目大小)通過列表呈現(xiàn)給用戶,如Clusty、iBoogie、Carrot2以及比比貓;可視化技術在聚類結果展示方面發(fā)揮了巨大的作用,消除了傳統(tǒng)列表形式不夠“易用”的缺陷,使用戶能夠更方便地理解和使用聚類結果,如Mnemomap、Webbrain及Quintu-ra。筆者認為Quintura在聚類結果可視化方面較具特色且效果較好,其采用Quintura Cloud可視化地圖技術展現(xiàn)聚類結果(見圖1),類目名稱的大小及顏色的深淺代表該類目下搜索結果的多少,字體愈大、顏色愈深表示其結果越多,反之則越少。
  
  在這里介紹一下KVisu引聚類搜索引擎及其Car-tographic Surfaces可視化技術。它使用聚類地圖更形象地展示聚類結果,一塊區(qū)域代表一個類目,區(qū)域面積的大小代表類目下結果的多少,面積愈大表明結果愈多,反之愈少。在地圖上類目的遠近代表類目間關系的緊密程度,愈近則表示類目間關系越密切,進而形成聚類組(Clustering Group),如圖2所示:
  3.2.3聚類的效果 聚類搜索引擎的聚類效果至關重要,筆者選取兩個方向作為評價的內(nèi)容,即類目的邏輯關系和類目名稱的有效性,并選取Java作為關鍵詞展開實驗,Java有三種含義,即:爪哇島(印尼)、爪哇產(chǎn)的咖啡及面向?qū)ο蟮某绦蜷_發(fā)語言。類目的邏輯關系指的是類目之間以及類目與其下位類之間是否存在一定的邏輯關系;類目名稱的有效性是指類名是否能概括聚類的主題,并與其他聚類相區(qū)別,對用戶而言是可 識別并且有意義的。
  類目劃分應依據(jù)聚類的內(nèi)容而不僅依據(jù)字面的差異。通過實驗可看出,目前聚類搜索引擎仍舊依據(jù)網(wǎng)頁所包含的相應關鍵詞作為類目名稱,尚未依據(jù)網(wǎng)頁內(nèi)容來聚類,導致無法體現(xiàn)類目間的邏輯關系,如老牌聚類搜索引擎Clusty,通過搜索Java得到包括Down-10ads、Tutorials、Language及Sun Microsystems等39個類目,類目之間并無關聯(lián);類目的名稱雖是高頻詞(組),但對于用戶來說并無實際意義,如類Additions、List ofJava及l(fā)inks等,用戶無法了解該聚類的明確主題,反而增加了用戶的負擔,類似的情況也出現(xiàn)在Carrot、iBoogie及比比貓等搜索引擎上。部分聚類搜索引擎在此問題上做了一些改進,如WebBrain按照父類、子類、兄弟類及相關類來組織類目;Mnemomap按照標簽、翻譯、鄰居和同義詞組織聚類;iseek依照主題、人、地點、組織、時間、縮寫、發(fā)布時間以及來源控制聚類。雖然它們還是依據(jù)關鍵詞來聚類,但通過對聚類的控制使類目間有了一定的關聯(lián)。
  
  4.1目前聚類搜索引擎存在的問題
  聚類搜索引擎雖取得了階段性的巨大進步,但在聚類方式、結果展現(xiàn)形式以及聚類效果等方面存在不足,如聚類所需時間長、聚類效果不佳、聚類結果展示形式單一等。可以說,目前聚類搜索引擎所關注的是互聯(lián)網(wǎng)資源,即如何更全面、更準確地處理互聯(lián)網(wǎng)信息,而針對用戶設計的產(chǎn)品功能目前只是試探性的,并未產(chǎn)生實質(zhì)性的革新與突破。
  
  
  4.2未來聚類搜索引擎的發(fā)展趨勢――聚類2.0搜索
  Web2.0的出現(xiàn)使網(wǎng)絡步入“全民織網(wǎng)”的時代,用戶已從被動信息接受者轉(zhuǎn)變?yōu)橹鲃犹峁┱。聚類搜索引擎的發(fā)展同樣應在關注互聯(lián)網(wǎng)資源的基礎上,將用戶放在與其同等重要的地位。Vivisimo公司創(chuàng)始人兼CEO――Raul Valdes-Perez2008年1月提出了Clus-tering 2.0的概念,即通過“Remix Clustering”在原有搜索結果上再一次聚類來滿足用戶的個性化需求。由此可看出,聚類2.0搜索是通過用戶的參與將更智能化的聚類結果以更形象的展現(xiàn)形式來滿足用戶的個性化搜索需求。聚類2.0搜索將在繼承傳統(tǒng)聚類搜索引擎已有成果基礎上朝以下4個方向發(fā)展。
  4.2.1聚類結果――智能化 這里的智能搜索有別于基于人工智能的智能搜索引擎,是指聚類的智能化。利用語義分析、智能化的文本挖掘技術及去重技術,通過詞形、詞性以及詞義的處理去除重復網(wǎng)頁,進行真正的基于內(nèi)容的聚類,并使類目之間建立一定的邏輯關系而不是簡單的羅列,類目名稱能夠反映此類目下所含資源的主題。通過聚類,達到減輕用戶負擔,用戶快速定位所需搜索結果的目的。雖然目前尚未有智能化聚類搜索產(chǎn)品問世,但這是未來聚類搜索最重要的發(fā)展趨勢。
  4.2.2結果呈現(xiàn)――可視化 時至今日,已有部分聚類搜索引擎在聚類結果可視化方面進行了有益的嘗試,如Mnemomap、Webbrain、KartOO、Quintura、Liveplas-ma及KVisu等等。可以說后三種可視化聚類搜索引擎在某種程度上代表了未來的發(fā)展方向。利用聚類地圖等形式使類目面積的大小、類目間距離的遠近以及類目的顏色等具有一定的意義,如類目的大小代表該類目下搜索結果的多少,類目間的距離代表類目間關系的遠近,類目的不同顏色代表該類目下搜索結果受關注程度的差異。通過這種更為形象的可視化方式,使用戶能夠方便地掌握聚類結果的整體情況。
  4.2.3用戶參與――社會化 社會化搜索是聚類搜索引擎乃至搜索引擎按照自身邏輯發(fā)展的必然結果,社會化聚類搜索并不是“社區(qū)+聚類搜索”的簡單交叉。提供社會性書簽功能、網(wǎng)頁收藏功能并將具有相似檢索興趣的用戶組成社群網(wǎng)絡,分享交流彼此的搜索結果及經(jīng)驗,這只是社區(qū)化搜索在網(wǎng)頁聚類搜索功能上的橫向補充與擴展。社會化聚類搜索則試圖以用戶參與的方式優(yōu)化搜索結果的聚類,讓用戶根據(jù)自身瀏覽體驗對搜索結果的聚類進行評價,在杜絕作弊的情況下,可以讓用戶判斷搜索結果所屬類目的精度,使聚類效果得到不斷優(yōu)化。
  4.2.4服務提供――個性化 個性化搜索是發(fā)展社會化搜索的另一思路。滿足用戶個性化的檢索需求,提供個性化的檢索體驗是每個搜索引擎所追求的最大目標。用戶可以選擇和添加聚類信息源、設置搜索對象(如包含圖片、視頻及博客等)、設置聚類數(shù)量等,使搜索成為一種普遍性的服務,根據(jù)用戶需求分化出許多異質(zhì)的搜索產(chǎn)品。不僅如此,用戶逐漸可以擁有自己的聚類搜索產(chǎn)品,隨心所欲地設計各種聚類屬性。每個人的聚類搜索引擎都不相同,反映出各自的興趣和習慣,最終每個人都可以經(jīng)營自己的垂直聚類搜索引擎,提高檢索精度,增強用戶體驗。
  
  5 結語
  
  通過對已有聚類搜索引擎功能的分析,可以看出聚類搜索得到了快速蓬勃的發(fā)展,無論是在聚類方式、結果展現(xiàn)形式等方面都取得了巨大的進步。在當今的網(wǎng)絡環(huán)境下,聚類搜索引擎的局限及不足也是顯而易見的。隨著Web2.0思想不斷滲透到聚類搜索引擎當中,聚類2.0搜索必將是未來的發(fā)展趨勢。聚類結果的智能化、結果呈現(xiàn)的可視化、用戶參與的社會化以及服務提供的個性化將是未來聚類搜索發(fā)展的方向。

相關熱詞搜索:發(fā)展現(xiàn)狀 搜索引擎 研究 聚類搜索引擎發(fā)展現(xiàn)狀研究 旅游發(fā)展現(xiàn)狀研究 脆弱性研究發(fā)展現(xiàn)狀

版權所有 蒲公英文摘 www.newchangjing.com