www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

[網(wǎng)絡(luò)使用因子的缺陷及改進(jìn)]遺傳缺陷因子

發(fā)布時(shí)間:2020-03-07 來源: 歷史回眸 點(diǎn)擊:

  [摘要]網(wǎng)絡(luò)使用因子反映桌一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況,可用于測(cè)度某一國家或網(wǎng)站的鏈接分布特征。網(wǎng)絡(luò)使用因子自誕生起就不可避免的存在一些缺陷,尤其是假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面。建議開發(fā)專業(yè)鏈接分析工具,構(gòu)建鏈接分類體系,對(duì)不同類型的鏈接進(jìn)行加權(quán)得到“加權(quán)出鏈數(shù)”,并據(jù)此計(jì)算“加權(quán)網(wǎng)絡(luò)使用因子”。
  [關(guān)鍵詞]出鏈數(shù) 網(wǎng)絡(luò)使用因子 鏈接分析工具 加權(quán)網(wǎng)絡(luò)使用因子
  [分類號(hào)]G353.1
  
  在圖書情報(bào)領(lǐng)域,鏈接分析已成為學(xué)術(shù)研究熱點(diǎn),從最初的介紹性研究到越來越多的實(shí)證研究,其研究日益深入實(shí)際應(yīng)用。在實(shí)證研究中,某些鏈接指標(biāo)備受爭(zhēng)議。鏈接分析計(jì)量指標(biāo)大體可分為4類:①鏈接數(shù)量特征計(jì)量指標(biāo):總鏈接數(shù)、出鏈數(shù);②鏈接分布特征計(jì)量指標(biāo):鏈接密度、頁面平均鏈接數(shù)、網(wǎng)絡(luò)使用因子;③網(wǎng)站影響力計(jì)量指標(biāo):入鏈數(shù)、網(wǎng)絡(luò)影響因子、鏈接傾向;④網(wǎng)頁重要性計(jì)量指標(biāo):Pagerank算法、HITS算法等。因?yàn)閷?duì)鏈接的討論往往只涉及大學(xué)網(wǎng)站的入鏈數(shù),而較少涉及大學(xué)網(wǎng)站的出鏈數(shù),導(dǎo)致與出鏈數(shù)密切相關(guān)的網(wǎng)絡(luò)使用因子在應(yīng)用廣泛性、受關(guān)注度方面遜色于網(wǎng)絡(luò)影響因子(Web Impact Factors,WIF)。本文對(duì)網(wǎng)絡(luò)使用因子在鏈接分析中存在的缺陷進(jìn)行探討,并提出一些改進(jìn)意見。
  
  1 網(wǎng)絡(luò)使用因子簡介
  
  1.1 網(wǎng)絡(luò)使用因子的起源及概念
  網(wǎng)絡(luò)使用因子(Web Use Factors,WUF)是反映某一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況的計(jì)量指標(biāo),可用來測(cè)度某一國家或網(wǎng)站的鏈接分布特征。長期以來,對(duì)鏈接的討論只涉及大學(xué)網(wǎng)站的入鏈數(shù),而沒有涉及大學(xué)網(wǎng)站的出鏈數(shù)。直到2003年Thelwall M.省略WUF可根據(jù)有.con域名的鏈接網(wǎng)頁來計(jì)算。對(duì)網(wǎng)絡(luò)不同區(qū)域在計(jì)算上的限制,要求對(duì)不同類型網(wǎng)頁如國內(nèi)、國際、教育、商業(yè)網(wǎng)頁進(jìn)行比較。另外,解釋頂級(jí)域名如.tom、edu、uk的計(jì)算結(jié)果時(shí)必須謹(jǐn)慎,因?yàn)椴荒苤粡谋砻娼忉岉敿?jí)域名。例如,.省略域名,并且在現(xiàn)實(shí)中,.com域名包含了龐雜無章的各類信息;即使是.edu域名也不局限于美國的大學(xué)。
  
  1.2 網(wǎng)絡(luò)使用因子的算法
  出鏈數(shù)指從某個(gè)網(wǎng)頁出發(fā)的鏈接總數(shù)量。某一國家或網(wǎng)站的出鏈數(shù)除以網(wǎng)頁數(shù)、科研人員數(shù)或科研生產(chǎn)率便得到了網(wǎng)頁平均出鏈數(shù)、科研人員平均出鏈數(shù)或科研生產(chǎn)率平均出鏈數(shù),即WUF。如果一個(gè)國家的科研生產(chǎn)率數(shù)據(jù)很難獲得,并且有理由相信該國的大學(xué)在研究能力上相似,或者因?yàn)樯虡I(yè)搜索引擎和專業(yè)網(wǎng)絡(luò)爬行工具覆蓋范圍的問題導(dǎo)致難以計(jì)算一個(gè)網(wǎng)站的網(wǎng)頁數(shù),則科研人員數(shù)就成為WUF的分母;但若科研人員數(shù)無法獲得,仍要用網(wǎng)頁數(shù)作分母。
  綜上所述,筆者用某一國家或網(wǎng)站的出鏈數(shù)作為分子,分別用該國家或網(wǎng)站的網(wǎng)頁數(shù)、科研人員數(shù)和科研生產(chǎn)率作為分母,得出WUF的不同算法,即:
  
  1.3 網(wǎng)絡(luò)使用因子的應(yīng)用
  其實(shí),WUF在統(tǒng)計(jì)意義上的可信度并不比WIF低。WUF與平均科研生產(chǎn)率顯著相關(guān);科研生產(chǎn)率高的大學(xué)建立了更多出鏈,可能因?yàn)檫@些大學(xué)制作了數(shù)量更多、質(zhì)量更高的網(wǎng)頁。這與對(duì)入鏈原因的解釋也是密切相關(guān)的。
  WUF反映網(wǎng)站出鏈的平均量,通常WUF越高,說明網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的程度越高,該網(wǎng)站的信息數(shù)量和質(zhì)量也就可能越高。某一網(wǎng)站可以通過WUF的計(jì)算知道該網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的能力高低,以及利用其它網(wǎng)絡(luò)信息資源的迫切性,并促使該網(wǎng)站評(píng)估其網(wǎng)頁對(duì)其它網(wǎng)頁既往的鏈接中哪些是好的、需要繼續(xù)鏈接的,哪些是差的、需要終止鏈接的以及需要尋找并鏈向哪些新的、優(yōu)質(zhì)的網(wǎng)頁。雖然目前關(guān)于WUF應(yīng)用的專門的研究還很少,但WUF與WIF等計(jì)量指標(biāo)相結(jié)合,在網(wǎng)站建設(shè)和管理等方面有很大的應(yīng)用前景。
  
  2 網(wǎng)絡(luò)便用因子的缺陷
  
  2.1 假設(shè)前提方面存在的問題
  對(duì)鏈接的分析是基于一定假設(shè)前提的,不同假設(shè)基礎(chǔ)上的計(jì)量指標(biāo),其適用范圍不同。為了證明WUF賴以存在的假設(shè)前提難以成立,我們先看WIF成立的假設(shè)前提。李江在《鏈接分析工具》中將WIF的假設(shè)前提總結(jié)為:(A1)從網(wǎng)頁A指向網(wǎng)頁B的鏈接是網(wǎng)頁A對(duì)網(wǎng)頁B的推薦或認(rèn)可;(A2)所有鏈接都是等價(jià)的。該假設(shè)前提同樣適用于WUF,因?yàn)榫W(wǎng)頁A對(duì)網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對(duì)網(wǎng)頁A的入鏈。
  先從鏈接分類的角度來考查第一條假設(shè)前提是否合理。Smith A.G.將鏈接分為兩類:即實(shí)質(zhì)性鏈接和非實(shí)質(zhì)性鏈接,實(shí)質(zhì)性鏈接可理解為代表“推薦或認(rèn)可”,可用于WUF的計(jì)算,而非實(shí)質(zhì)性鏈接因?yàn)椴淮怼巴扑]或認(rèn)可”,不可用于計(jì)算WUF。文中,作者通過統(tǒng)計(jì)分析得出:所有鏈接中,實(shí)質(zhì)性鏈接約占20%;鏈接到大學(xué)網(wǎng)站的鏈接中,實(shí)質(zhì)性鏈接約占27%。Chu Heting將學(xué)術(shù)機(jī)構(gòu)網(wǎng)站的入鏈分為4類:即服務(wù)、主頁、研究、教學(xué),其中前兩類共占73%,后兩類占27%,并且僅有教學(xué)類的入鏈才可用作學(xué)術(shù)機(jī)構(gòu)的評(píng)估,能用于評(píng)價(jià)的人鏈不足27%。由此可見,盡管不同類型網(wǎng)站的鏈接類型不同和不同研究者從不同角度出發(fā)設(shè)立的分類體系迥異,但若把實(shí)質(zhì)性鏈接的比例看成WUF有效性的比例,則網(wǎng)WIJF的有效性比例僅為27%左右。
  第二條假設(shè)顯然也是不合理的,因?yàn)榉菍?shí)質(zhì)性鏈接對(duì)于WUF的計(jì)量是沒有價(jià)值的,即便同為實(shí)質(zhì)性鏈接,不同類型的實(shí)質(zhì)性鏈接也不可能具有同等的價(jià)值。其實(shí),在WUF被提出之前,與WIF幾乎同時(shí)誕生的Pagerank算法在鏈接是否等價(jià)的問題上已提出更有說服力的表述:(B1)一個(gè)網(wǎng)頁盡管沒有被多次引用,但被一個(gè)重要網(wǎng)頁引用,則這個(gè)網(wǎng)頁很重要;(B2)一個(gè)網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁。這個(gè)表述科學(xué)的多,但可惜的是,迄今為止,有關(guān)WUF的算法還沒有引入類似于Pagerank算法的表述。
  
  
  2.2 數(shù)據(jù)獲取方面存在的問題
  早期對(duì)出鏈數(shù)等指標(biāo)進(jìn)行統(tǒng)計(jì)時(shí),主要以商業(yè)搜索引擎Google、Altavista、Alltheweb等為工具。及至商 業(yè)搜索引擎的缺陷盡顯且無法避免,某些學(xué)者擇優(yōu)使用某些商業(yè)搜索引擎;另一些學(xué)者則嘗試使用自制的鏈接分析工具,但是自制鏈接分析工具也存在一定的缺陷。
  2.2.1 商業(yè)搜索引擎的覆蓋范圍有限眾所周知,動(dòng)態(tài)性是網(wǎng)絡(luò)與生俱來的特性,每時(shí)每刻都有成千上萬的網(wǎng)頁出現(xiàn)或消失,因此任何一個(gè)搜索引擎都不可能覆蓋和采集到所有的網(wǎng)頁。有數(shù)據(jù)顯示(見表1),各搜索引擎收錄網(wǎng)頁的范圍各不相同,因而獲得的鏈接數(shù)據(jù)也不同。據(jù)估計(jì),現(xiàn)在搜索引擎覆蓋網(wǎng)頁的數(shù)量只占總數(shù)的20%左右。袁毅認(rèn)為單個(gè)搜索引擎只能搜索到Web資源的16%,即使是幾個(gè)搜索引擎結(jié)合,也只能搜索到整個(gè)Web的30%~40%。伯克利信息管理系統(tǒng)的一項(xiàng)統(tǒng)計(jì)結(jié)果表明,2006年人類產(chǎn)生了約1000萬TB(不重復(fù))數(shù)據(jù),而搜索引擎覆蓋率最新調(diào)查顯示Google在2006年共組織了1085TB數(shù)據(jù),可見,Google僅僅組織了其中的0.02%。
  2.2.省略的網(wǎng)頁數(shù)量和反向鏈接數(shù)量進(jìn)行檢索,發(fā)現(xiàn),各搜索引擎所得出的結(jié)果相差很大,如表2所示:
  
  其次,即使是同一搜索引擎,在不同時(shí)間段其檢索結(jié)果也有很大差異,通常,在高峰期的檢索結(jié)果,其可信度通常要低一些。
  再次,使用不同語法意義的檢索表達(dá)式,其檢索結(jié)果也不盡相同。對(duì)此,筆者在MltheWeb中進(jìn)行了試驗(yàn),檢索結(jié)果如表3所示:
  2.2.3 自制鏈接分析工具功能簡單、使用范圍狹窄面對(duì)商業(yè)搜索引擎無法避免的缺陷,部分學(xué)者嘗試用自制鏈接分析工具取代商業(yè)搜索引擎或彌補(bǔ)其不足。其中較突出的有:Lei Cui等人參照引文分析法自制的“Checkweb”,用于分析鏈接狀況,為統(tǒng)計(jì)鏈接數(shù)量作準(zhǔn)備;Miekle Thelwall針對(duì)商業(yè)搜索引擎檢索結(jié)果的不一致性自制的“WIF web crawler”,用于測(cè)度WIF;段宇鋒自制的“Webstat”,用于鏈接分析的實(shí)證研究。但遺感的是,這些個(gè)人自制的鏈接分析工具因其專門性不可避免的具有功能簡單,使用范圍狹窄的缺陷。
  
  2.3 算法自身存在的問題
  2.3.1 分子存在的缺陷WIF借鑒JW算法的同時(shí),陷入了JIF算法無法回避的缺陷,即無視入鏈的質(zhì)量差異,這也是WIF算法自身最大的缺陷。而WUF用出鏈數(shù)作分子,這與WIF很相近,因?yàn)榫W(wǎng)頁A對(duì)網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對(duì)網(wǎng)頁A的人鏈;因此,也存在與WIF類似的缺陷,即無視出鏈的質(zhì)量差異,這也是WUF在計(jì)量的準(zhǔn)確性方面存在的最大問題。
  2.3.2 分母存在的缺陷WUF算法的分母是該國家或網(wǎng)站的總網(wǎng)頁數(shù),但什么樣的內(nèi)容才能被當(dāng)作一個(gè)網(wǎng)頁并沒有公認(rèn)的標(biāo)準(zhǔn),一篇論文可以被視為一個(gè)網(wǎng)頁,該論文也可以被分為幾個(gè)網(wǎng)頁顯示從而被看作幾個(gè)網(wǎng)頁。舉個(gè)簡單的例子,某篇在線電子文檔向其它網(wǎng)站或網(wǎng)頁發(fā)出100個(gè)鏈接,若這篇電子文檔的內(nèi)容全部包含在一個(gè)頁面中,則其WUF為100,若其內(nèi)容被分成100個(gè)頁面顯示,則其WUF僅為1。這表明WUF會(huì)因電子文檔在Web上顯示形式的不同而迥異。
  2.3.3 整體存在的缺陷WUF不一定能反映網(wǎng)站真實(shí)的鏈接分布特征。假設(shè)有同樣主題的兩個(gè)網(wǎng)站:A和B。A網(wǎng)站有10個(gè)網(wǎng)頁,并在一定時(shí)期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了10次鏈接,而B網(wǎng)站有100個(gè)網(wǎng)頁,并在同一個(gè)時(shí)期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了100次鏈接,顯然,它們的WUF是一樣的,但這兩個(gè)網(wǎng)站的鏈接分布特征是否一樣呢?很明顯,雖然兩者的WUF一樣,但B網(wǎng)站指向其它網(wǎng)站或網(wǎng)頁的能力更大,不過是因?yàn)榫W(wǎng)站的高資源率和高鏈接率相互抵消導(dǎo)致計(jì)算出相同的WUF罷了。
  事實(shí)上,WUF的缺陷還存在于網(wǎng)站的語言差異、學(xué)科背景差異、專業(yè)影響范圍差異等方面。
  
  3 對(duì)網(wǎng)絡(luò)使用因子的改進(jìn)意見
  
  3.1 對(duì)假設(shè)前提的改進(jìn)意見
  針對(duì)“所有鏈接都是有實(shí)質(zhì)意義的”、“所有鏈接都是等價(jià)的”兩條假設(shè)前提,可以參考Pagerank算法在鏈接是否等價(jià)問題上的表述:(B1)一個(gè)網(wǎng)頁盡管沒有被多次引用,但被一個(gè)重要網(wǎng)頁引用,則這個(gè)網(wǎng)頁很重要;(B2)一個(gè)網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁,即認(rèn)為不是所有的鏈接都是有推薦或認(rèn)可意義的,并且不同類型的鏈接是具有不同價(jià)值的。這就為在算法上對(duì)WUF的改進(jìn)提供了理論依據(jù)。
  
  3.2 對(duì)數(shù)據(jù)獲取的改進(jìn)意見
  盡管學(xué)者們?cè)噲D利用自制鏈接分析工具彌補(bǔ)商業(yè)搜索引擎的缺陷,且自制鏈接分析工具針對(duì)性比較強(qiáng),但由于它是個(gè)人制作用于專業(yè)研究,因而功能簡單、適用范圍狹窄。這樣,WUF無論多科學(xué)、合理,都將因?yàn)闆]有有效的工具提供準(zhǔn)確數(shù)據(jù)而難以得到廣泛應(yīng)用。因此,在鏈接分析研究中,很有必要開發(fā)專業(yè)鏈接分析工具,用來計(jì)算WUF等計(jì)量指標(biāo)。該專業(yè)鏈接分析工具應(yīng)以引文分析工具如CSSCI等為參照,兼顧覆蓋率、性能穩(wěn)定性、能有效識(shí)別鏈接類型的專業(yè)性等。
  
  3.3 對(duì)算法本身的改進(jìn)意見
  可以設(shè)立一套針對(duì)特定類型網(wǎng)站的鏈接分類體系,例如,可在一級(jí)類目上將所有鏈接分為“實(shí)質(zhì)性鏈接”和“非實(shí)質(zhì)性鏈接”,并在多次試檢網(wǎng)站鏈接的過程中不斷修訂鏈接分類體系;在鏈接分類體系的基礎(chǔ)上采用層次分析法,對(duì)不同的鏈接類型賦予不同的權(quán)重。據(jù)此,筆者嘗試提出“加權(quán)出鏈數(shù)”,在將其用于計(jì)量WUF時(shí)得出“加權(quán)網(wǎng)絡(luò)使用因子”。于是:
  其中,分母也可以用該國家的科研生產(chǎn)率或科研人員數(shù)代替。
  
  4 結(jié)語
  
  WUF自誕生之初就不可避免的存在一些缺陷,尤其是在假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面問題較大,據(jù)此,建議開發(fā)專業(yè)的鏈接分析工具;構(gòu)建鏈接分類體系并對(duì)不同類型的鏈接進(jìn)行加權(quán)得到“加權(quán)出鏈數(shù)”,然后在此基礎(chǔ)上計(jì)算“加權(quán)網(wǎng)絡(luò)使用因子”。這是一項(xiàng)任重而道遠(yuǎn)的工作,我們已對(duì)此展開研究。即便如此,也不能保證計(jì)算出的WUF絕對(duì)準(zhǔn)確,因此,最好綜合使用包括WUF在內(nèi)的多個(gè)鏈接指標(biāo)進(jìn)行網(wǎng)站評(píng)價(jià)、網(wǎng)絡(luò)信息資源管理以及時(shí)下方興的網(wǎng)站健康度檢驗(yàn)等。

相關(guān)熱詞搜索:因子 缺陷 改進(jìn) 網(wǎng)絡(luò)使用因子的缺陷及改進(jìn) 因子分析模型的改進(jìn)與應(yīng)用 bp神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)及改進(jìn)

版權(quán)所有 蒲公英文摘 www.newchangjing.com