www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<input id="lur7l"></input>

散文精選 蒲公英文摘 > 散文精選 >

【元搜索引擎研究綜述評(píng)】地圖搜索引擎研究綜述

發(fā)布時(shí)間:2020-03-07 來(lái)源: 散文精選點(diǎn)擊：

　　[摘要]介紹元搜索引擎的起源與發(fā)展、基本原理和分類(lèi)，重點(diǎn)從元搜索引擎關(guān)鍵技術(shù)的實(shí)現(xiàn)上闡述元搜索引擎研究的主要內(nèi)容與進(jìn)展，最后分析現(xiàn)有元搜索引擎存在的各種局限性，歸納出未來(lái)值得研究和探討的若干方向。
　　[關(guān)鍵詞]元搜索引擎　個(gè)性化　信息檢索
　　[分類(lèi)號(hào)]G353
　　
　　1　元搜索引擎的起源與發(fā)展
　　
　　Internet自誕生以來(lái)不斷成長(zhǎng)，信息容量呈爆炸性趨勢(shì)增長(zhǎng)。這一方面方便了人們獲取信息；但另一方面也給人們查詢(xún)信息帶來(lái)了麻煩，常常使用戶(hù)陷入“信息過(guò)載”和“資源迷向”的困境。搜索引擎的出現(xiàn)大大增強(qiáng)了人們收集信息的能力，但隨著Web內(nèi)容的飛速發(fā)展，信息膨脹速度遠(yuǎn)遠(yuǎn)超過(guò)了搜索引擎檢索范圍，一個(gè)搜索引擎通常不能找到用戶(hù)所需的全部信息，用戶(hù)在進(jìn)行檢索時(shí)需要在多個(gè)搜索引擎間進(jìn)行切換，找到自己真正需要的信息仍如同大海撈針般困難。在這種情況下，一個(gè)能集合多個(gè)搜索引擎檢索結(jié)果并能對(duì)此做出整合處理的檢索工具――元搜索引擎出現(xiàn)了，它有效解決了獨(dú)立搜索引擎信息覆蓋率不足和查準(zhǔn)率不高的問(wèn)題。
　　自1995年第一個(gè)元搜索引擎MetaCrawler推出以來(lái)，國(guó)外元搜索引擎技術(shù)迅速發(fā)展，目前網(wǎng)絡(luò)中已經(jīng)有上百個(gè)元搜索引擎，其中不乏優(yōu)秀的元搜索引擎，如Mamma、MetaCrawler、SavvySearch等。國(guó)內(nèi)的中文元搜索引擎發(fā)展較為緩慢且數(shù)目不多，如萬(wàn)緯、MetaFisher、北斗星等，其檢索效果也不理想，未來(lái)發(fā)展空間很大。
　　
　　2　元搜索引擎的研究現(xiàn)狀
　　
　　2.1　元搜索引擎的原理及其分類(lèi)
　　元搜索引擎(meta-search engine)是一種基于搜索引擎的搜索引擎，亦稱(chēng)“搜索引擎之母”。用戶(hù)只需提交一次搜索請(qǐng)求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎，并將各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果集中處理后再返回給用戶(hù)。因此，元搜索引擎可根據(jù)檢索的目標(biāo)搜索引擎、檢索提問(wèn)處理方式以及如何編譯與顯示結(jié)果等的不同而劃分為：集中羅列式元搜索引擎(又稱(chēng)“集成搜素引擎”或“all-in-one式搜索引擎”)和統(tǒng)一入口式元搜索引擎(又稱(chēng)“多線(xiàn)索式搜索引擎”)；桌面型元搜索引擎和基于Web的元搜索引擎(也可稱(chēng)為“在線(xiàn)元搜索引擎”)；并行處理式元搜索引擎和串行處理式元搜索引擎。
　　
　　2.2　元搜索引擎研究的主要內(nèi)容與進(jìn)展
　　目前，元搜索引擎研究活動(dòng)主要集中在以下幾個(gè)關(guān)鍵技術(shù)的實(shí)現(xiàn)上：
　　2.2.1 成員引擎的調(diào)度策略提出了若干成員引擎的調(diào)度算法，典型的有：①普通法，即不考慮各個(gè)成員搜索引擎的特性，只是將元搜索引擎的查詢(xún)請(qǐng)求簡(jiǎn)單地發(fā)送給自己的每個(gè)成員搜索引擎，用戶(hù)可自由選擇其成員引擎，如萬(wàn)緯搜索引擎；②定性法，如ALIWEB方法、NetSerf方法、D-WISE方法、gGLoss方法。它跟據(jù)一定的評(píng)分函數(shù)預(yù)測(cè)每個(gè)成員搜索引擎的質(zhì)量；③定量法，根據(jù)一些比定性方法使用的衡量標(biāo)準(zhǔn)更易理解的標(biāo)準(zhǔn)來(lái)衡量成員搜索引擎的有用性，如估計(jì)有用文件的數(shù)量或估計(jì)最相似文件的相似度；④基于學(xué)習(xí)的方法，根據(jù)以往檢索成員搜索引擎的經(jīng)驗(yàn)預(yù)測(cè)各引擎對(duì)新查詢(xún)的有用性。檢索經(jīng)驗(yàn)可能來(lái)自多方面，如靜態(tài)學(xué)習(xí)方法MRDD方法、動(dòng)態(tài)學(xué)習(xí)方法SavvySarch和混合學(xué)習(xí)方法ProFusion方法。在成員引擎的調(diào)度策略方面，國(guó)內(nèi)的一些學(xué)者也提出了幾種比較有特色的調(diào)度算法，如張衛(wèi)豐等提出了一種基于遺傳算法的調(diào)度算法來(lái)實(shí)現(xiàn)成員引擎的調(diào)度。
　　通過(guò)詳細(xì)分析多種調(diào)度策略的優(yōu)點(diǎn)與不足，我們認(rèn)為普通法比較簡(jiǎn)單，但查準(zhǔn)率不高。定性法可提供一些有關(guān)成員搜索引擎數(shù)據(jù)庫(kù)內(nèi)容的信息，能提高查準(zhǔn)率，但不能有效和精確地估計(jì)成員引擎數(shù)據(jù)庫(kù)的有效性，因而也容易遺漏或忽略一些潛在有用的成員搜索引擎數(shù)據(jù)庫(kù)，比如一篇有用的文檔在某個(gè)成員搜索引擎數(shù)據(jù)庫(kù)中出現(xiàn)頻度非常低，利用定性法就可能忽略掉該成員搜索引擎數(shù)據(jù)庫(kù)。定量法根據(jù)給定的查詢(xún)請(qǐng)求計(jì)算數(shù)據(jù)的有用性，如，它試圖估計(jì)成員搜索引擎數(shù)據(jù)庫(kù)有用文件的數(shù)量，并以這個(gè)標(biāo)準(zhǔn)來(lái)選擇數(shù)據(jù)庫(kù)或者估算比較每個(gè)庫(kù)中最有用文件的相關(guān)度高低，以此選出最能滿(mǎn)足查詢(xún)請(qǐng)求的數(shù)據(jù)庫(kù)，則其衡量標(biāo)準(zhǔn)更易理解�；趯W(xué)習(xí)的方法中，靜態(tài)學(xué)習(xí)方法可實(shí)現(xiàn)元搜索引擎在實(shí)際查詢(xún)中利用訓(xùn)練收集的分布向量選擇合適的成員數(shù)據(jù)庫(kù)和需要抽取的結(jié)果數(shù)目，實(shí)現(xiàn)查詢(xún)精度最大化，但其訓(xùn)練收集的分布向量很難適應(yīng)未來(lái)查詢(xún)的變化；動(dòng)態(tài)學(xué)習(xí)方法可始終更新訓(xùn)練結(jié)果集合以適應(yīng)多變的查詢(xún)?nèi)蝿?wù)，但搜索引擎用戶(hù)有檢查排在最前面文件的傾向，其結(jié)果很有可能出現(xiàn)成員數(shù)據(jù)庫(kù)的關(guān)鍵詞權(quán)值不能充分反映成員數(shù)據(jù)庫(kù)對(duì)于該查詢(xún)關(guān)鍵詞的真實(shí)響應(yīng)，所以綜合靜態(tài)學(xué)習(xí)與動(dòng)態(tài)學(xué)習(xí)的混合學(xué)習(xí)方法在實(shí)際中用得較多。
　　2.2.2　搜索結(jié)果的合成　元搜索引擎在結(jié)果顯示過(guò)程中，需要將與用戶(hù)查詢(xún)相關(guān)度高的結(jié)果放在前面，但是由于不同搜索引擎所采用的技術(shù)不盡相同，所以很難按照一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去排列這些結(jié)果。通常，每個(gè)成員搜索引擎返回的文檔根據(jù)局部相似度或全局相似度來(lái)對(duì)文檔進(jìn)行降序排列，代表性的結(jié)果合成算法主要方法如下：①J.P.Callana針對(duì)搜索引擎返回結(jié)果的排序、相關(guān)性分值的不同，給出了三種典型的合成算法――間隔排列合成法、分值合成法、加權(quán)分值法；②Krisch提出通過(guò)修改下層搜索引擎以獲得更多信息，進(jìn)行合成處理；③元搜索引擎系統(tǒng)MetaCrawler引入概念可信度來(lái)決定文檔與檢索請(qǐng)求的相關(guān)程度；④Profusion集成規(guī)范相關(guān)度合成法和加權(quán)分值法；⑤Inquirus認(rèn)為單憑這些信息不足以客觀評(píng)價(jià)搜索結(jié)果與用戶(hù)檢索請(qǐng)求的相關(guān)性，因而采用先下載搜索結(jié)果中的文檔后重新計(jì)算相關(guān)性的客戶(hù)端重新計(jì)算相關(guān)性的排序策略來(lái)對(duì)文檔排序；⑥M，Elena等將聚類(lèi)方法用于查詢(xún)結(jié)果的合成”；⑦國(guó)內(nèi)張衛(wèi)豐將摘要作為相關(guān)度分析的依據(jù)納入搜索結(jié)果的合成。
　　總結(jié)現(xiàn)有搜索結(jié)果合成算法，我們發(fā)現(xiàn)主要有兩類(lèi)：局部相似度調(diào)整算法和全局相似度調(diào)整算法。局部相似度調(diào)整算法，如MetaCrawler和Profusion中采用的，它根據(jù)成員搜索引擎所具有的特點(diǎn)來(lái)調(diào)整文檔的局部相似度，使來(lái)自不同成員搜索引擎的文檔的相似度歸一化到一個(gè)較為統(tǒng)一的值域，再進(jìn)行比較和排序，評(píng)估值高的成員引擎中的文檔將獲得較高的全局評(píng)估值，評(píng)估值的獲取也較簡(jiǎn)單。全局相似度估算算法，如Inquires方法，需要計(jì)算或估計(jì)各個(gè)返回文檔的全局相似度，其實(shí)現(xiàn)通常需要借助搜索引擎返回文檔的URL或一些額外的附加信息(如一段綜述或文檔開(kāi)頭的幾句話(huà)或整個(gè)文檔)，計(jì)算出關(guān)鍵詞在文檔中的頻率，并需要從網(wǎng)上下載該文檔。這一方面可在文檔下載時(shí)確定文檔的URL是否有效(無(wú)效的可從結(jié)果集合中刪去)，同時(shí)還可以通過(guò)分析下載文檔，可以利用其內(nèi)容對(duì)文檔重新排序，因?yàn)橛锌赡芪臋n的局部相似度是根據(jù)文檔的早期版本計(jì)算的；但另一方面搜索引擎必須花大量時(shí)間來(lái)下載文檔，因此該方法要以帶寬、計(jì)算時(shí)間為代價(jià)，很難獲得實(shí)際應(yīng)用。
　　2.2.3 個(gè)性化搜索　個(gè)性化搜索是一種個(gè)性化信息服務(wù)，旨在幫助用戶(hù)更快、更準(zhǔn)確地找到所需信息。它主要通過(guò)收集和分析用戶(hù)信息來(lái)學(xué)習(xí)用戶(hù)興趣和搜索行為，從中識(shí)別用戶(hù)的需求偏好，并且能夠根據(jù)用戶(hù)對(duì)搜索結(jié)果的評(píng)價(jià)，自覺(jué)調(diào)整搜索策略，對(duì)于同一檢索請(qǐng)求，不同用戶(hù)能夠得到各自所需的信息。在國(guó)內(nèi)外搜索引擎巨頭，如Google、雅虎、AOL等紛紛推出個(gè)性化搜索服務(wù)的形勢(shì)下，元搜索引擎的個(gè)性化搜索也備受關(guān)注。元搜索引擎?zhèn)€性化搜索服務(wù)實(shí)現(xiàn)的核心在于用戶(hù)興趣模型的建立和獲取。用戶(hù)模型不僅僅是用戶(hù)的興趣描述信息，而且是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶(hù)描述。相應(yīng)地，用戶(hù)建模是指從有關(guān)用戶(hù)興趣和行為的信息(如瀏覽內(nèi)容、瀏覽行為、背景知識(shí)等)中歸納出可計(jì)算的用戶(hù)模型的過(guò)程。近年來(lái)，有關(guān)用戶(hù)建模技術(shù)的研究開(kāi)始被作為個(gè)性化信息服務(wù)的基礎(chǔ)技術(shù)來(lái)進(jìn)行研究，國(guó)外的代表性研究主要有：①Syskill&Webert是加州大學(xué)的Pazzani等人開(kāi)發(fā)的一個(gè)輔助用戶(hù)瀏覽的導(dǎo)航工具，它可以搜集用戶(hù)對(duì)當(dāng)前瀏覽頁(yè)面的評(píng)價(jià)，逐漸學(xué)習(xí)用戶(hù)的興趣模型；②Morin E.等在文獻(xiàn)中提出一種基于特征詞表示法的用戶(hù)興趣模型，在模型中還存放特征詞之間的語(yǔ)義關(guān)聯(lián)關(guān)系，但這種模型只是簡(jiǎn)單的特征詞集合，沒(méi)有對(duì)特征詞按語(yǔ)義進(jìn)行層次分類(lèi)；③Navigli R.等在文獻(xiàn)中提出基于本體論的用戶(hù)興趣模型，概念按本體論的知識(shí)分類(lèi)體系進(jìn)行表示，通過(guò)學(xué)習(xí)擴(kuò)展概念之間的語(yǔ)義聯(lián)系。國(guó)內(nèi)對(duì)用戶(hù)建模也展開(kāi)了研究：①文獻(xiàn)根據(jù)用戶(hù)提供的各種示例文檔，通過(guò)考察特征和類(lèi)別的表達(dá)能力來(lái)構(gòu)建用戶(hù)模型；②文獻(xiàn)將個(gè)體用戶(hù)的興趣分為長(zhǎng)期模型和短期模型，并引入時(shí)間因素來(lái)模擬用戶(hù)興趣隨時(shí)間的變化，通過(guò)對(duì)用戶(hù)Web緩沖區(qū)的頁(yè)面進(jìn)行Web挖掘特征詞來(lái)更新用戶(hù)的興趣模型；③文獻(xiàn)按本體論建立用戶(hù)興趣模型，通過(guò)Web挖掘來(lái)得到概念之間的語(yǔ)義聯(lián)系；④文獻(xiàn)提出一種加權(quán)特征詞的用戶(hù)興趣模型，通過(guò)強(qiáng)化學(xué)習(xí)更新用戶(hù)模型。
　　總的來(lái)說(shuō)，用戶(hù)建模技術(shù)的研究還處于起步階段，還沒(méi)形成成熟的技術(shù)體系，存在以下幾個(gè)方面的問(wèn)題：①只以單個(gè)用戶(hù)為基點(diǎn)建立用戶(hù)個(gè)體模型，而忽略了用戶(hù)群體模型；②注重用戶(hù)查詢(xún)興趣模型，而忽略用戶(hù)對(duì)成員搜索引擎偏好、用戶(hù)收藏和用戶(hù)好友等與社會(huì)化搜索相關(guān)的用戶(hù)興趣信息；③為了力求準(zhǔn)確表達(dá)用戶(hù)特性，所建的用戶(hù)模型過(guò)于復(fù)雜，導(dǎo)致搜索效率降低。因此各種用戶(hù)模型離實(shí)用還有距離，還有許多關(guān)鍵技術(shù)尚待解決。
　　
　　3　總結(jié)與展望
　　
　　3.1 目前研究的局限
　　通過(guò)上述分析可以發(fā)現(xiàn)元搜索引擎的功能受成員搜索引擎和元搜索技術(shù)的雙重制約：一方面，成員搜索引擎各具特色的強(qiáng)大功能在元搜索引擎中受到限制而不能充分體現(xiàn)；另一方面，任何一種元搜索技術(shù)都不能發(fā)掘和利用成員搜索引擎的全部功能，它的局限性主要包括以下幾個(gè)方面：
　　3.1.1　調(diào)用搜索引擎上的局限性一般的元搜索引擎只是調(diào)用如Google，AltaVisa等幾個(gè)主要的搜索引擎，即使某些元搜索引擎提供了讓用戶(hù)選擇搜索引擎的選項(xiàng)，但也只能在其提供的為數(shù)不多的幾個(gè)搜索引擎中進(jìn)行選擇。
　　3.1.2　查詢(xún)請(qǐng)求上的局限性　元搜索引擎在查詢(xún)語(yǔ)法轉(zhuǎn)換方面的局限性限制了許多高級(jí)的查詢(xún)語(yǔ)法。因?yàn)樵阉饕娴牟樵?xún)語(yǔ)法要考慮到它所調(diào)用的所有搜索引擎的查詢(xún)語(yǔ)法，這種復(fù)雜性使得大多數(shù)元搜索引擎只能提供一些簡(jiǎn)單的查詢(xún)語(yǔ)法。
　　3.1.3 查詢(xún)結(jié)果數(shù)量上的局限性由于網(wǎng)絡(luò)資源的急速膨脹，單個(gè)獨(dú)立搜索引擎搜集就往往會(huì)返回成千上萬(wàn)的搜索結(jié)果。元搜索引擎需要對(duì)多個(gè)獨(dú)立搜索引擎的結(jié)果進(jìn)行處理，考慮到系統(tǒng)運(yùn)行的效率與響應(yīng)時(shí)間，大多數(shù)元搜索引擎只取每個(gè)搜索引擎返回的前幾條搜索結(jié)果，這樣必定影響了信息的覆蓋面。
　　3.1.4 查詢(xún)結(jié)果排序上的局限性由于不同的搜索引擎之間存在搜索信息的數(shù)量、搜集信息的范圍、采用的索引方法、使用的相似度評(píng)價(jià)等方面的巨大差異，再加上元搜索引擎的設(shè)計(jì)者不能獲取這些搜索引擎的很多技術(shù)細(xì)節(jié)，對(duì)不同搜索引擎返回的大額結(jié)果不能很好地進(jìn)行排序。
　　3.1.5 搜索結(jié)果個(gè)性化上的局限性現(xiàn)有元搜索引擎基本上都采用“一個(gè)搜索適用于所有用戶(hù)”的搜索模型(不同的用戶(hù)提交相同的關(guān)鍵字查詢(xún)請(qǐng)求時(shí)，搜索引擎返回相同的搜索結(jié)果)，然而，搜索本身是一項(xiàng)個(gè)性化的活動(dòng)，不同的用戶(hù)對(duì)所需要的信息要求不同，因此，現(xiàn)有的元搜索引擎無(wú)法滿(mǎn)足用戶(hù)的個(gè)性化需求。
　　
　　3.2　未來(lái)發(fā)展方向
　　各種局限性使得元搜索引擎在具體應(yīng)用方面搜索效果始終不理想，所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位，它還有很多值得研究和探討的領(lǐng)域，歸納起來(lái)主要有以下幾個(gè)方向：
　　3.2.1 智能化一個(gè)智能檢索系統(tǒng)應(yīng)該能充分利用分詞詞典、同義詞典、同音詞典改善檢索效果，甚至進(jìn)一步還可在知識(shí)層面或概念層面上輔助查詢(xún)，可通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò)，給予用戶(hù)智能知識(shí)提示，最終可幫助用戶(hù)獲得最佳的檢索效果。
　　3.2.2　個(gè)性化　在輸入方面，使用自然語(yǔ)言輸入，更加方便用戶(hù)使用，更易于用戶(hù)與搜索引擎的交互，更能貼近地表達(dá)用戶(hù)查詢(xún)需求，從而有利于提高查詢(xún)的精度。在返回結(jié)果方面，應(yīng)該充分發(fā)揮預(yù)處理和搜索結(jié)果集成方面的能力，考慮人的性別、年齡、地域等方面的差別而給出個(gè)性化的搜索結(jié)果。同時(shí)，按照語(yǔ)言的不同將用戶(hù)的查詢(xún)請(qǐng)求發(fā)送到對(duì)應(yīng)的獨(dú)立搜索引擎，以提供多語(yǔ)言的搜索功能。
　　3.2.3　專(zhuān)業(yè)化　專(zhuān)業(yè)元搜索引擎是個(gè)很好的概念，不但網(wǎng)絡(luò)資源可以比普通元搜索引擎挖得更深更多，搜索負(fù)擔(dān)還小得多，應(yīng)該是很符合網(wǎng)絡(luò)發(fā)展方向的。
　　3.2.4　中文元搜索引擎　漢語(yǔ)分詞是其實(shí)現(xiàn)的關(guān)鍵，中文元搜索引擎研究目前還處于起步階段，發(fā)展余地非常大。

相關(guān)熱詞搜索：綜述搜索引擎研究元搜索引擎研究綜述評(píng) 搜索引擎評(píng)價(jià)研究綜述元搜索引擎研究綜述

熱點(diǎn)文章閱讀

小葉把初次給乞丐老頭【一個(gè)乞 2019-04-10
[張思德簡(jiǎn)介]張思德事跡簡(jiǎn)介 2018-12-13
打黑風(fēng)暴中的王立軍 2020-04-11
鯤鵬的文學(xué)形象古詩(shī)文中的鯤 2019-01-19
中華人民共和國(guó)主席令:一號(hào)主 2020-02-20
_天津市政協(xié)主席宋平順自殺之 2020-03-03
【讓政協(xié)委員的稱(chēng)號(hào)不再是“貼 2020-03-05
國(guó)產(chǎn)極品女神在線(xiàn)播放尺度誘 2020-03-10
杜平：中國(guó)為何不應(yīng)支持俄羅斯 2020-06-10

版權(quán)所有 蒲公英文摘 www.newchangjing.com

<nav id="mhw33"><source id="mhw33"><dd id="mhw33"></dd></source></nav>