最早的網(wǎng)絡(luò)搜索引擎是( ) 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究
發(fā)布時(shí)間:2020-03-07 來(lái)源: 歷史回眸 點(diǎn)擊:
摘要 認(rèn)為搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究中重要的數(shù)據(jù)收集工具,但也存在著覆蓋率低等不足之處,開(kāi)發(fā)專(zhuān)業(yè)搜索引擎將是未來(lái)的發(fā)展重點(diǎn);另一方面,搜索引擎還是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象,其研究?jī)?nèi)容包括評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究三個(gè)方面,所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。
關(guān)鍵詞 網(wǎng)絡(luò)信息計(jì)量學(xué) 搜索引擎 數(shù)據(jù)收集
分類(lèi)號(hào) G350
隨著互聯(lián)網(wǎng)(Internet)的不斷擴(kuò)展和功能的不斷增強(qiáng),搜索引擎(Search Engine)在網(wǎng)絡(luò)社會(huì)中的地位日益重要。對(duì)于科學(xué)工作者來(lái)說(shuō),搜索引擎研究已成為諸多科學(xué)領(lǐng)域所關(guān)注的焦點(diǎn)。但是,在情報(bào)學(xué)領(lǐng)域,人們對(duì)“搜索引擎”的認(rèn)識(shí)始終停留在“工具”的層面。即使有所嘗試,也因?yàn)槿狈线m的切入點(diǎn),而難以真正介入到這一熱門(mén)的研究領(lǐng)域中。本文的討論正是在這一背景下提出來(lái)的。我們認(rèn)為,搜索引擎既是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究工具,也是重要的研究?jī)?nèi)容,兩者之間存在著十分密切的聯(lián)系,對(duì)兩者進(jìn)行綜合研究具有十分重要的科學(xué)意義和廣闊的發(fā)展前景。
1 搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用
1.1 搜索引擎的重要作用
對(duì)于任何計(jì)量科學(xué)研究來(lái)說(shuō),系統(tǒng)、全面地收集所需要的原始數(shù)據(jù)都是開(kāi)展研究的基本前提。因此,數(shù)據(jù)收集方法始終是網(wǎng)絡(luò)信息計(jì)量學(xué)重點(diǎn)研究的問(wèn)題。
目前用于網(wǎng)絡(luò)信息計(jì)量研究的原始數(shù)據(jù)主要有兩種來(lái)源:結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)資源,主要是連接到互聯(lián)網(wǎng)上的各種專(zhuān)用數(shù)據(jù)庫(kù),包括各種聯(lián)機(jī)信息系統(tǒng)、引文索引、全文數(shù)據(jù)庫(kù)、專(zhuān)題網(wǎng)站等。這類(lèi)數(shù)據(jù)資源屬于高度組織化的信息資源,并配備有專(zhuān)用的信息檢索工具,使用方便,數(shù)據(jù)可靠,但數(shù)量有限,成本較高,而且其數(shù)據(jù)一般都不能直接用于網(wǎng)絡(luò)信息計(jì)量研究,需要進(jìn)一步挖掘;非結(jié)構(gòu)化數(shù)據(jù):網(wǎng)上擁有大量的自然語(yǔ)言文本、圖像、聲音等數(shù)據(jù),無(wú)法用統(tǒng)一的結(jié)構(gòu)表示,被稱(chēng)為“非結(jié)構(gòu)化數(shù)據(jù)”。這類(lèi)數(shù)據(jù)中隱含著許多非常有價(jià)值的信息,如能加以開(kāi)發(fā)利用,將產(chǎn)生巨大的效益。但是,由于具有內(nèi)容豐富、類(lèi)型多樣、數(shù)量巨大、結(jié)構(gòu)復(fù)雜、變化頻繁、質(zhì)量不一等特點(diǎn),對(duì)其進(jìn)行開(kāi)發(fā)利用的難度很大。就目前來(lái)看,人們主要依靠各種商業(yè)“搜索引擎”來(lái)搜集這類(lèi)“非結(jié)構(gòu)化數(shù)據(jù)”。
網(wǎng)絡(luò)信息計(jì)量學(xué)作為一門(mén)以“網(wǎng)絡(luò)信息”為研究對(duì)象的計(jì)量學(xué)科,自其誕生之日起,就與搜索引擎結(jié)下了不解之緣。從最早的T.C.Almind和Peter Ingwersen所做的研究開(kāi)始,一直到今天,相當(dāng)多的網(wǎng)絡(luò)信息計(jì)量學(xué)研究者都依靠搜索引擎來(lái)收集數(shù)據(jù)。所用到的搜索引擎也是種類(lèi)繁多,特點(diǎn)各異,包括AltaVista、AUTheWeb、Northernlight、Google、Excite、Lvcos、HotBot、Infoseek等在內(nèi)的眾多知名搜索引擎都曾被應(yīng)用于數(shù)據(jù)搜集工作中?梢哉f(shuō),沒(méi)有搜索引擎,網(wǎng)絡(luò)信息計(jì)量學(xué)就失去了有效的研究手段,不可能得到如此迅速的發(fā)展,搜索引擎無(wú)疑是當(dāng)前網(wǎng)絡(luò)信息計(jì)量研究中最重要的數(shù)據(jù)收集工具之一。
應(yīng)用搜索引擎的首要問(wèn)題就是選擇合適的搜索引擎。互聯(lián)網(wǎng)上的搜索引擎數(shù)量眾多,且處于不斷增長(zhǎng)之中,但并非每個(gè)搜索引擎都適合于網(wǎng)絡(luò)信息計(jì)量研究。這就需要我們時(shí)刻關(guān)注搜索引擎的最新進(jìn)展情況,充分掌握各種搜索引擎的功能特點(diǎn),在實(shí)踐中根據(jù)具體的研究目標(biāo)和研究對(duì)象,選擇最合適的搜索引擎。就目前而言,AltaVista(www.省略)由于其檢索功能強(qiáng),檢索途徑多,能滿(mǎn)足多種計(jì)量的需要等優(yōu)點(diǎn),成為迄今為止在網(wǎng)絡(luò)信息計(jì)量研究中應(yīng)用最多的搜集引擎。除了選擇合適的搜索引擎之外,恰當(dāng)?shù)厥褂盟瑯邮怯绊憯?shù)據(jù)收集效果的關(guān)鍵。其中最重要的環(huán)節(jié)就是檢索語(yǔ)句的編制。這要求我們要充分掌握搜索引擎的語(yǔ)法格式、指令功能及其正確的使用方法,最終確定高效率、高質(zhì)量的檢索語(yǔ)句來(lái)達(dá)到研究目的。例如,Ray R.Larson在其研究中就靈活使用了AltaVista的高級(jí)檢索式:“l(fā)ink:pubweb.parc.省略/map AND link:xtreme.gsfc.nasa.gov”,來(lái)獲取同時(shí)指向兩個(gè)網(wǎng)址的網(wǎng)頁(yè)。近年來(lái),隨著搜索引擎技術(shù)的迅速發(fā)展,越來(lái)越多的搜索引擎也提供了強(qiáng)大的檢索功能,使研究者們有了更多的選擇。一般來(lái)講,搜索引擎的基本使用方法可查閱有關(guān)的參考書(shū)或者搜索引擎網(wǎng)站上的幫助文件。但是,更復(fù)雜的使用方法和對(duì)使用效果的評(píng)價(jià)則需要研究者的反復(fù)實(shí)驗(yàn)和系統(tǒng)總結(jié)。
1.2 搜索引擎的不足之處
盡管搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中具有如此重要的地位,已成為不可或缺的數(shù)據(jù)收集工具。但與此同時(shí),搜索引擎在實(shí)踐中也表現(xiàn)出了種種局限性,使其檢索效果一直深受質(zhì)疑,并直接影響到了整個(gè)網(wǎng)絡(luò)信息計(jì)量研究的可靠性和合理性。
簡(jiǎn)單地說(shuō),搜索引擎的設(shè)計(jì)目標(biāo)可以用“全”、“準(zhǔn)”、“快”來(lái)概括,與之對(duì)應(yīng)的是評(píng)價(jià)搜索引擎性能的三個(gè)主要指標(biāo):查全率(Recall Ratio)、查準(zhǔn)率(Precision Ratio)和響應(yīng)速度。對(duì)于一般的網(wǎng)絡(luò)用戶(hù)來(lái)說(shuō),“查準(zhǔn)率”是上述指標(biāo)中最為重要的,這也使得近年來(lái)搜索引擎的進(jìn)步主要表現(xiàn)在“查準(zhǔn)率”的提高上。但是,對(duì)于以數(shù)理統(tǒng)計(jì)為基礎(chǔ)的計(jì)量學(xué)科來(lái)說(shuō),數(shù)據(jù)的“查全率”無(wú)疑具有更加重要的意義。因此,我們?cè)诰W(wǎng)絡(luò)信息計(jì)量研究當(dāng)中所使用的搜索引擎,應(yīng)該覆蓋盡量大的網(wǎng)絡(luò),這樣才能得到較為全面的研究數(shù)據(jù)。那么,搜索引擎到底覆蓋了多少網(wǎng)絡(luò)呢?
上世紀(jì)末,NEC美國(guó)研究所(NEC Research Institute.NE-CI)的Steve Lawrence和C,Lee Giles對(duì)AhaVista、Coogle、Hot-Bot、InfoSeek、Lycos、Northern Light、Snap、Yahoo!等主要商業(yè)搜索引擎的網(wǎng)絡(luò)空間覆蓋范圍進(jìn)行了全面而深入的研究,結(jié)果于1998年和1999年連續(xù)發(fā)表在Science和Nature上。他們的研究表明:盡管處于信息技術(shù)飛速發(fā)展的時(shí)代,單一搜索引擎的最大覆蓋率在兩年內(nèi)卻由34%降低到16%。這是因?yàn),盡管隨著網(wǎng)絡(luò)信息檢索技術(shù)不斷提高,搜索引擎所能檢索的信息量在絕對(duì)數(shù)量上不斷擴(kuò)展,但其增長(zhǎng)速度依然落后于網(wǎng)絡(luò)的增長(zhǎng)速度,這就導(dǎo)致搜索引擎原本就不高的覆蓋率繼續(xù)縮小。而事實(shí)上,情況還要糟糕得多。Lawrence等人在研究中引入了“可索引的萬(wàn)維網(wǎng)”(Indexable Web)的概念,將其測(cè)量范圍限定在“能被搜索引擎編入索引的萬(wàn)維網(wǎng)”。那么,“不可索引”的部分呢?2001年,以Michael K.省略)的研究者將網(wǎng)絡(luò)明確劃分為表層網(wǎng)絡(luò)(Surface Web)和深層網(wǎng)絡(luò)(Deep Web)。前者相當(dāng)于Lawrence和Giles所測(cè)量的“可索引的萬(wàn)維網(wǎng)”,后者就相當(dāng)于剩余的“不可索引的萬(wàn)維網(wǎng)”。 他們采用交達(dá)分析(Overlap Analysis)估算出“深層網(wǎng)絡(luò)”的信息量是“表層網(wǎng)絡(luò)”的500倍,且前者的信息增長(zhǎng)速度大于后者。美國(guó)“How much information?”研究小組的報(bào)告進(jìn)一步表明:前者是后者的550倍,證實(shí)了BrightPlanet公司的結(jié)論。綜合以上研究成果,我們可以估算出一個(gè)令人沮喪的結(jié)論:最大覆蓋率的搜索引擎在1999年的時(shí)候僅僅覆蓋了0.03%(=0.16/550)的網(wǎng)絡(luò)信息資源(包括“表層網(wǎng)絡(luò)”與“深層網(wǎng)絡(luò)”)。而且,按照Lawrence等人的研究結(jié)果來(lái)推論,這一比例還在繼續(xù)縮小當(dāng)中。
搜索引擎的覆蓋率如此之低,其適用范圍自然大打折扣。正如龐景安所言:“由于通常搜索引擎對(duì)Web的覆蓋率有限,所以對(duì)這類(lèi)統(tǒng)計(jì)結(jié)果應(yīng)謹(jǐn)慎處理,避免產(chǎn)生荒謬的結(jié)論”。除此之外,搜索引擎還存在使用不便、效率低下、功能不足、穩(wěn)定性差、精度不高、缺乏客觀性等其他不足,同樣限制了其在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用。尤其是商業(yè)利益的驅(qū)動(dòng),使得“商業(yè)搜索引擎的數(shù)據(jù)收集和排列,往往受到收費(fèi)的影響和支配,而導(dǎo)致數(shù)據(jù)的不可信”。Herbert Snyder等人更是一針見(jiàn)血地指出:“搜索引擎種種局限性的根源既不在于Web的固有屬性,也不在于網(wǎng)絡(luò)信息檢索的技術(shù)問(wèn)題,而在于商業(yè)搜索引擎的‘市場(chǎng)驅(qū)動(dòng)(market-driven)’本質(zhì)”。
1.3 困境與展望
一方面,搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究不可或缺的工具;另一方面,搜索引擎所具有的種種局限性,又使得網(wǎng)絡(luò)數(shù)據(jù)的搜集仍然缺乏普遍有效的方法,嚴(yán)重制約著網(wǎng)絡(luò)信息計(jì)量學(xué)的發(fā)展。多年來(lái),研究者們?yōu)榱送黄七@一困境,一直進(jìn)行著不懈的努力。從目前來(lái)看,主要有以下幾個(gè)發(fā)展方向:
?開(kāi)發(fā)專(zhuān)用工具。為了提高數(shù)據(jù)收集效果,一些學(xué)者針對(duì)特定的研究對(duì)象和研究目的,開(kāi)發(fā)了專(zhuān)用的數(shù)據(jù)搜集工具,以實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)收集和篩選工作。例如。Alastair G Smith和Mike Thewall在研究中就使用了自己設(shè)計(jì)的“爬行器”。“專(zhuān)用工具”雖然具有“量身定做”的優(yōu)勢(shì),但開(kāi)發(fā)周期過(guò)長(zhǎng)、投入過(guò)多、技術(shù)門(mén)檻過(guò)高使得這種方案難以推廣。
?利用網(wǎng)絡(luò)信息查詢(xún)平臺(tái)。近年來(lái),網(wǎng)絡(luò)上出現(xiàn)了一些專(zhuān)門(mén)的信息統(tǒng)計(jì)網(wǎng)站,它們提供的統(tǒng)計(jì)數(shù)據(jù)類(lèi)似于傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的“二次文獻(xiàn)”,可以作為開(kāi)展網(wǎng)絡(luò)信息計(jì)量研究的數(shù)據(jù)來(lái)源。例如,“Alexa”(www.省略)就提供了關(guān)于網(wǎng)站統(tǒng)計(jì)(site Stats)、聯(lián)系方式(Contact Info)、流量細(xì)節(jié)(Traf-fic Details)、相關(guān)鏈接(Related Links)等方面的信息。再如,BrightPlanet公司開(kāi)發(fā)的DQM(Deep Query Manager)平臺(tái)就是一個(gè)集信息發(fā)現(xiàn)、收割(harrest)、管理和分析于一體的深層網(wǎng)絡(luò)信息查詢(xún)平臺(tái),不僅可以對(duì)位于“深層網(wǎng)絡(luò)”數(shù)據(jù)庫(kù)進(jìn)行信息查詢(xún),還可同時(shí)對(duì)網(wǎng)絡(luò)上成百上千個(gè)搜索引擎、目錄索引和聯(lián)網(wǎng)數(shù)據(jù)庫(kù)中的信息進(jìn)行自動(dòng)收割。但是,這些平臺(tái)有的還處于起步階段,技術(shù)水平較低,涵蓋范圍有限,難以推廣應(yīng)用;有的需要收費(fèi),成本較高,利用困難。
?專(zhuān)業(yè)搜索引擎。搜索引擎作為IT行業(yè)中炙手可熱的投資領(lǐng)域和研究熱點(diǎn),許多國(guó)家都投入巨大了資源進(jìn)行研究,由此產(chǎn)生的技術(shù)成果自然十分豐富。如果能夠擺脫“商業(yè)搜索引擎”這種通用工具的種種局限性,同時(shí)又能夠充分利用搜索引擎的技術(shù)優(yōu)勢(shì),無(wú)疑是最理想的選擇。以此為出發(fā)點(diǎn),人們開(kāi)始將注意力投入到“專(zhuān)業(yè)搜索引擎”的開(kāi)發(fā)中。這種搜索引擎將檢索范圍限定在一定的專(zhuān)業(yè)領(lǐng)域內(nèi),提高了檢索結(jié)果的有效性。有些還依托特定的數(shù)據(jù)庫(kù),使得“查全率”得到大幅度提高,對(duì)于某一領(lǐng)域的特定研究工作是很有效的工具。從總體上來(lái)看,開(kāi)發(fā)“專(zhuān)業(yè)搜索引擎”是最被看好的發(fā)展方向,受到許多搜索引擎廠商的重視。
2 網(wǎng)絡(luò)信息計(jì)量學(xué)中的搜索引擎研究
以上,我們探討了搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用,它作為數(shù)據(jù)收集工具,其重要性是顯而易見(jiàn)的。但在另一方面,卻很少有人意識(shí)到,搜索引擎同時(shí)是該領(lǐng)域重要的研究對(duì)象。事實(shí)上,針對(duì)搜索引擎的研究始終都滲透在各種網(wǎng)絡(luò)信息計(jì)量研究中,并取得了相當(dāng)多的有益成果。我們可以按照研究目的和內(nèi)容的不同,將這些成果大致分為評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究等三個(gè)方面。
2.1 搜索引擎評(píng)價(jià)研究
如前所述,選擇合適的搜索引擎是應(yīng)用搜索引擎收集數(shù)據(jù)的首要問(wèn)題。搜索引擎評(píng)價(jià)研究的目的正是通過(guò)對(duì)搜索引擎的各個(gè)性能指標(biāo)進(jìn)行比較分析,探討各種搜索引擎的功能特點(diǎn)和適用范圍,為研究人員選擇適合的搜索引擎提供依據(jù)。
對(duì)搜索引擎進(jìn)行時(shí)序跟蹤研究是研究者們最常采用的研究方法。這種方法按照一定間隔,在某些特定時(shí)間點(diǎn)上收錄搜索引擎檢索結(jié)果的數(shù)量、相關(guān)性及其結(jié)構(gòu)特征,以便觀察是否有大量的變化、不一致性或不規(guī)則的現(xiàn)象,探討搜索引擎的穩(wěn)定性問(wèn)題和成長(zhǎng)狀況。例如,Rousseau 于1999年對(duì)Altavista和NorthernLight進(jìn)行了21周的連續(xù)跟蹤研究。結(jié)果顯示,隨著網(wǎng)頁(yè)的成長(zhǎng)NorthernLight檢索的數(shù)據(jù)亦呈穩(wěn)步增長(zhǎng),這與網(wǎng)絡(luò)發(fā)展的步調(diào)是一致的。而Altavista的結(jié)果在某一特定日期前始終處于很大的變化之中,檢索結(jié)果不穩(wěn)定,直到后來(lái)系統(tǒng)重建才進(jìn)入到一個(gè)相對(duì)穩(wěn)定階段。他建議利用中值篩選(Median Filtering)來(lái)降低這種不穩(wěn)定性對(duì)檢出結(jié)果的影響。再如,Judit Bar-Ilan 分別在1998年和1999年對(duì)當(dāng)時(shí)6個(gè)主要的搜索引擎進(jìn)行了連續(xù)幾個(gè)月的跟蹤研究,專(zhuān)門(mén)研究搜索引擎檢索結(jié)果的變化及其原因。MikeThelwaU 則通過(guò)對(duì)多個(gè)搜索引擎為期7個(gè)月的跟蹤研究,得出了Coogle實(shí)時(shí)勝最強(qiáng),而AltaVista最穩(wěn)定的結(jié)論。2001年,夏旭等人對(duì)性能較好的10種醫(yī)學(xué)搜索引擎進(jìn)行檢索和比較分析,結(jié)果發(fā)現(xiàn)醫(yī)學(xué)搜索引擎的覆蓋范圍有限,而且檢索結(jié)果的相關(guān)性不如通用引擎。此外,還有的研究者致力于搜索引擎評(píng)價(jià)的方法研究上,探討如何對(duì)各種搜索引擎的性能進(jìn)行綜合評(píng)價(jià)。例如,1997年,Clarke和Willet 就提出了現(xiàn)實(shí)可行的搜索引擎評(píng)價(jià)方法,并對(duì)AltaVista、Excite以及Lycos三個(gè)搜尋引擎作了比較,結(jié)果發(fā)現(xiàn)AltaVista的性能明顯優(yōu)于Excite和Lycos。
2.2 搜索引擎應(yīng)用研究
盡管目前的搜索引擎存在著種種局限性,但在相當(dāng)長(zhǎng)的時(shí)間內(nèi),它們?nèi)詫⑹蔷W(wǎng)絡(luò)信息計(jì)量研究者們主要依靠的數(shù)據(jù)收集工具。那么,如何在現(xiàn)有條件下利用搜索引擎獲得盡量“優(yōu)質(zhì)”的研究數(shù)據(jù)就成為一項(xiàng)有意義的研究工作。為此,網(wǎng)絡(luò)信息計(jì)量學(xué)的研究者們也做了很多有益的嘗試。例如,Steve Lawrence和C.Lee Gilest就曾指出,為了克服單一 引擎的局限性,可將幾個(gè)主要引擎結(jié)合起來(lái)使用,也可通過(guò)利用一些具有自動(dòng)抓取功能的研究型搜索引擎來(lái)獲得信息。他們的研究結(jié)果表明,多個(gè)搜索引擎的覆蓋范圍組合之和是估計(jì)總頁(yè)數(shù)的42%,遠(yuǎn)高于單一搜索引擎最大16%的覆蓋率。2001年,Alastair G Smith和Mike Thewall自己設(shè)計(jì)的爬行器和A1taVista進(jìn)行了比較,結(jié)果表明:A1taVista更便于做探索性研究,專(zhuān)門(mén)的爬行器在驗(yàn)證性的研究上要好一些。2005年,呂俊生等人對(duì)用于網(wǎng)絡(luò)鏈接關(guān)系檢索的搜索引擎進(jìn)行了系統(tǒng)的調(diào)研分析,提出了用于鏈接分析的搜索引擎的選擇方案。2006年,楊木容對(duì)國(guó)內(nèi)鏈接分析中使用的主要搜索引擎進(jìn)行了比較分析,明確指出需要進(jìn)一步開(kāi)發(fā)針對(duì)網(wǎng)絡(luò)鏈接分析研究的專(zhuān)門(mén)搜索引擎。
還有的學(xué)者提出通過(guò)對(duì)檢索結(jié)果的二次加工來(lái)提高檢索結(jié)果的有效性。例如,2003年,肖建華等人提出的二次搜索系統(tǒng),就借助鏈接分析技術(shù),對(duì)搜索引擎搜索結(jié)果進(jìn)行再次處理,為用戶(hù)提供一個(gè)高質(zhì)量的搜索結(jié)果。
2.3 搜索引擎改進(jìn)研究
隨著搜索引擎的地位日益提高,如何利用信息科學(xué)技術(shù)的新成果、新方法、新工具改進(jìn)搜索引擎的搜索效果,提高搜索引擎的性能已成為互聯(lián)網(wǎng)行業(yè)乃至整個(gè)IT領(lǐng)域的關(guān)注焦點(diǎn)。一直以來(lái),搜索引擎的開(kāi)發(fā)和改進(jìn),似乎都是計(jì)算機(jī)、網(wǎng)絡(luò)、通訊、軟件工程等信息技術(shù)專(zhuān)業(yè)的專(zhuān)利。但事實(shí)上,網(wǎng)絡(luò)信息計(jì)量學(xué)作為研究網(wǎng)絡(luò)信息的數(shù)量特征和內(nèi)在規(guī)律的科學(xué)學(xué)科,它的許多研究成果同樣可用于搜索引擎的改進(jìn)當(dāng)中。下面,我們?cè)嚺e一例。
一個(gè)搜索引擎系統(tǒng)的核心是其所采用的“信息檢索模型”,包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制等諸要素。正如前文所述,“查詢(xún)結(jié)果的排序’’在很大程度上決定了搜索引擎的性能。在過(guò)去,搜索引擎主要采用人工判斷、競(jìng)價(jià)排名、檢索詞頻率、登錄時(shí)間、索引順序等方式來(lái)確定排序標(biāo)準(zhǔn)。但由于主觀性強(qiáng)、效率低下、商業(yè)因素的干擾等原因,這些排序方法的效果都不太理想。
近年來(lái),許多研究者發(fā)現(xiàn),網(wǎng)絡(luò)上的鏈接結(jié)構(gòu)是個(gè)非常豐富和重要的資源,通過(guò)對(duì)鏈接結(jié)構(gòu)進(jìn)行分析來(lái)確定網(wǎng)頁(yè)的重要性,作為檢索結(jié)果排序的依據(jù),可以極大地提高檢索結(jié)果的質(zhì)量。其中最成功的例子莫過(guò)于“Google”。Google作為目前最好的搜索引擎之一,其體系結(jié)構(gòu)類(lèi)似于傳統(tǒng)的搜索引擎,但最大的不同處在于對(duì)網(wǎng)頁(yè)進(jìn)行了基于權(quán)威值的排序處理,使“最重要的”網(wǎng)頁(yè)出現(xiàn)在結(jié)果的最前面。這種重要的網(wǎng)頁(yè)被稱(chēng)為“權(quán)威(Authoritive)網(wǎng)頁(yè)”,其判斷依據(jù)是SergeyBrin和Lawrence Page創(chuàng)立的Pagerank算法。他們使用該算法計(jì)算出網(wǎng)頁(yè)的“Pagerank值”,其含義是:“假定用戶(hù)一開(kāi)始隨機(jī)訪問(wèn)網(wǎng)頁(yè)集合中的一個(gè)網(wǎng)頁(yè),以后跟隨網(wǎng)頁(yè)的向外鏈接向前瀏覽網(wǎng)頁(yè),不回退瀏覽,瀏覽下一個(gè)網(wǎng)頁(yè)的概率就是被瀏覽網(wǎng)頁(yè)的PageRank值”。簡(jiǎn)單而言,Pagerank算法的基本前提是:一個(gè)網(wǎng)頁(yè)被多次引用,則它可能是很重要的;一個(gè)網(wǎng)頁(yè)雖然沒(méi)有被多次引用,但是被重要的網(wǎng)頁(yè)引用,則它也可能是很重要的;一個(gè)網(wǎng)頁(yè)的重要性被平均的傳遞到它所引用的網(wǎng)頁(yè)。顯然,這一基本前提與傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的引文分析法的基本思想如出一轍,可以說(shuō)是網(wǎng)絡(luò)信息計(jì)量學(xué)特征方法的典型應(yīng)用。
3 結(jié)語(yǔ)
綜上所述,網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎之間存在著十分密切的聯(lián)系,兩個(gè)領(lǐng)域的研究工作是相輔相成、互相促進(jìn)的關(guān)系。一方面,過(guò)去和現(xiàn)階段的網(wǎng)絡(luò)信息計(jì)量研究主要依賴(lài)搜索引擎來(lái)獲取原始數(shù)據(jù),搜索引擎的進(jìn)步將為網(wǎng)絡(luò)信息計(jì)量學(xué)提供更加有效的數(shù)據(jù)收集手段;另一方面,搜索引擎一直以來(lái)都是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象,所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。因此,我們有理由相信,把網(wǎng)絡(luò)信息計(jì)量學(xué)研究與搜索引擎研究結(jié)合起來(lái),在這一交叉領(lǐng)域開(kāi)展綜合性、系統(tǒng)性的研究,將是一項(xiàng)十分有意義的研究工作。本文就這一問(wèn)題進(jìn)行了初步探討,權(quán)作引玉之磚,希望能為研究者們提供可咨借鑒的參考。
相關(guān)熱詞搜索:計(jì)量學(xué) 搜索引擎 研究 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究 搜索引擎研究 搜索引擎廣告要研究
熱點(diǎn)文章閱讀