[對學術文獻引用網(wǎng)絡信息的反思]百度學術怎么引用文獻
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
[摘要]以《中國圖書館學報》1995至2008年所載論文引用的網(wǎng)絡信息為樣本,利用網(wǎng)絡計量學方法,就“l(fā)inkrot”的發(fā)生率及其與時間因素的關系進行統(tǒng)計和分析,從而證實網(wǎng)絡學術信息存在“l(fā)inkrot”現(xiàn)象。最后,提出應建立一套被引網(wǎng)絡學術信息的長期保存機制來解決因“l(fā)inkrot”而造成的人類記憶缺失。
[關鍵詞]學術文獻 網(wǎng)絡信息 linkrot
[分類號]G203
隨著網(wǎng)絡信息量的激增和網(wǎng)絡應用的普及,學術文獻中引用的網(wǎng)絡信息數(shù)量日益增多。然而,這些信息的內(nèi)容變化甚至消逝(即“l(fā)inkrot”現(xiàn)象)成為阻礙人們再現(xiàn)研究過程、繼承既有成果和實現(xiàn)創(chuàng)新的障礙。本文在綜述研究現(xiàn)狀的基礎上,以《中國圖書館學報》為例,客觀地反映我國學術期刊所引網(wǎng)絡信息的“l(fā)inkrot”現(xiàn)象,以此呼吁社會關注和解決這一問題。
1 研究現(xiàn)狀
“l(fā)inkrot”不僅影響網(wǎng)絡信息的獲取和利用,更重要的是它會造成人類記憶的缺失。因此,自20世紀90年代中期至今,國外進行了大量研究。
1.1 國外研究現(xiàn)狀
1.1.1 一般網(wǎng)絡信息“l(fā)inkrot”現(xiàn)象的研究GUY在1997年4月的調(diào)查顯示,59.65%的用戶認為“brokenlinks”嚴重影響他們對互聯(lián)網(wǎng)的使用;次年,JakobNielsen(1998)注意到,“broken links”的比例比1997年的6%幾乎增加了1倍,因而指出要高度重視“l(fā)inkrot”現(xiàn)象;此后,許多學者對“l(fā)inkrot”進行了研究,最有代表性的是Wallace Koehler。Koehler在1999年和2002年的研究中發(fā)現(xiàn)在6個月和1年內(nèi)發(fā)生過變化的網(wǎng)站分別占97%和超過99%,而網(wǎng)頁則達到98.3%和99.1%;同時,有一半的網(wǎng)絡信息會在2年內(nèi)消失。在近7年跟蹤研究的基礎上Koehler總結出兩個結論:其一,“l(fā)inkrot”與網(wǎng)絡信息的存續(xù)時間相關,盡管約2/3的URL在4年內(nèi)失效,但隨后卻相當穩(wěn)定;其二,信息類型、學科屬性和所屬域名與“l(fā)inkrot”相關。
1.1.2 網(wǎng)絡學術信息“l(fā)inkrot”現(xiàn)象的研究StephenP.Harter和Hak Joon Kim(1996)是最早關注網(wǎng)絡學術信息“l(fā)inkrot”現(xiàn)象的學者。他們從74種同行評議電子期刊發(fā)表的279篇文獻中提取到83條被引網(wǎng)絡信息,但能訪問到的只有43個,占51.8%。他們因此對引用網(wǎng)上學術信息的合理性提出質(zhì)疑。此后,許多學者對學術數(shù)字資源所含URL進行了研究,代表性研究有:Bar-Ilan和Pentz(1999)、John Markwell和Davidw.Brooks(2002)、Steve Lawrence等(2001)、CarmineSellitto(2005)。
還有一些研究描述了紙質(zhì)期刊文獻所引網(wǎng)絡信息的“l(fā)inkrot”狀況,典型研究包括:Carol Anne Gemain(2000)對隨機抽取的31篇文獻中引用的64個URL進行了為期三年的觀察,1997至1999年無法訪問的比例分別占26.5%、37.5%、48.4%。Mary K.Taylor和Diane Hudson(2000)對College&Research LibraryNews的“Internet Resource”欄目所列482個URL跟蹤研究9個月,發(fā)現(xiàn)“l(fā)inkrot”比例從13.3%上升到22.2%,時間、域名、所有者等因素可能與此有關;此后,David c.Tyler和Beth McNeil(2003)、Mary F.Casserly和James E.Bird(2003)、Evangelos Evangelou等(2005)、Dion Hoe-Lian Goh和Peng Kin Ng(2006)也對紙質(zhì)期刊文獻所引網(wǎng)絡信息的“l(fā)inkrot”現(xiàn)象進行了不同的研究。
除上述成果,比較有代表性的研究還有Donna Bergmark(2000)、Diomidis spinellis(2003)、Frank McCown等(2005)、JoseLuis Ortega等(2006)、Dominik Aronsky等(2007)、DanielaV.Dimitova和Michael Bugeja(2007)、Matthew E.Falagas等(2007)、Ailsa Parker(2007)、Edmund Russell和Jennifer Kane(2008)。
1.1.3 “l(fā)inkrot”問題的對策研究
目前,深入探討“l(fā)inkrot”應對策略的研究不多,專門針對網(wǎng)絡學術信息的就更少。依據(jù)解決方式,現(xiàn)有解決方案分為三類:一是依靠網(wǎng)絡工具(主要指軟件)及時發(fā)現(xiàn)“brokenlinks”,或依據(jù)信息的狀態(tài)向用戶預警。譬如,WE-Gauge、Dying Link、Link Walker、Xenu’s Link Sleuth、Checkbot、Link Alarm;二是以檔案方式長期保存網(wǎng)絡信息,譬如,Wayback Machine、Google和百度的Cached Pages、NECI的Intermemory項目、斯坦福大學的LOCKSS系統(tǒng);三是依靠分散于各處的信息碎片重建,譬如,Opal、Warrick系統(tǒng)。
為應對網(wǎng)絡信息URL的頻繁變化提出了DOI和URN,基于此的系統(tǒng)相繼出現(xiàn),譬如DOI-X、PURL、Hartdie。DOI和URN能解決由于URL變動而產(chǎn)生的“l(fā)inkrot”,但對刪除造成的“l(fā)inkrot”無能為力。
1.2 國內(nèi)研究現(xiàn)狀
國內(nèi)2008年才出現(xiàn)專門研究“l(fā)inkrot”現(xiàn)象的文獻,比較有代表性的成果包括:筆者(2008)為揭示中國網(wǎng)絡信息的穩(wěn)定程度,對隨機獲取的10萬個有效URL跟蹤觀測近4個月。發(fā)現(xiàn)“l(fā)inkrot”的比例在1.535%至4.724%之間波動,41.36%的樣本內(nèi)容發(fā)生了變化,8.99%的更新周期小于3天;吳志強(2009)對1999年至2003年《軟件學報》、《中國圖書館學報》所載文獻引用的1637個URL的研究發(fā)現(xiàn),“l(fā)inkrot”的比例超過47.34%,該現(xiàn)象與域名、訪問協(xié)議、文件類型相關。
2 實證研究
2.1 研究方法
2.1.1 樣本選擇 參考文獻著錄的規(guī)范程度直接影響研究結果,鑒于絕大多數(shù)圖書館學研究者對學術文獻的引用和參考文獻的著錄極其規(guī)范,所以,本研究直接將樣本鎖定在圖書館學領域;谡撐牡膬(nèi)容質(zhì)量和形式的規(guī)范程度,本研究確定以1995至2008年《中國圖書館學報》所載論文引用的網(wǎng)絡信息為樣本。
2.1.2 研究步驟 具體如下:
?查閱《中國圖書館學報》1995至2008年各期所刊文獻,記錄每篇文獻的收稿時間、所引網(wǎng)絡信息的鏈 接;
?逐一訪問上述URL,記錄訪問時間、異常響應代碼或信息;
?統(tǒng)計llnkrot發(fā)生率及異常響應類型;
?分析linkmt與時間因素的關系。
2.2 數(shù)據(jù)和結果
2.2.1 Linkrot發(fā)生率統(tǒng)計 以異常響應數(shù)與引用的網(wǎng)絡信息量之比計算Linkrot的發(fā)生率,結果如表1所示:
2.2.2 異常響應類型統(tǒng)計 本研究統(tǒng)計到的異常響應代碼包括301、400、401、403、404、410、500,分別代表被請求的資源已永久移動到新位置;由于包含語法錯誤,當前請求無法被服務器理解;當前請求需要用戶驗證;服務器已經(jīng)理解請求,但是拒絕執(zhí)行它;請求所希望得到的資源未被在服務器上發(fā)現(xiàn);被請求的資源在服務器上已經(jīng)不再可用,而且沒有任何已知的轉發(fā)地址;服務器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。另有9個URL未提供具體的異常響應代碼和說明,空白頁、“數(shù)據(jù)庫連接錯誤”、“Multiple Choices”、“網(wǎng)站正在維護”各1項,上述13項歸入表2的其他項:
2.2.3 Linkrot與時間因素的關系分析 1997年至2008年,《中國圖書館學報》所載論文中有491篇引用了網(wǎng)絡信息。其中,13篇由于未提供具體的投稿時間,無法計算URL的訪問時間與投稿時間之差,因而從數(shù)據(jù)中剔除。描述各年刊載的論文所引網(wǎng)絡信息Linkrot的發(fā)生率和各篇論文所引網(wǎng)絡信息Linkrot的發(fā)生率,如圖1、圖2所示:
2.3 討論
?表1顯示,自1997年至今,《中國圖書館學報》所刊論文引用的2160條網(wǎng)絡信息中已有1043條無法訪問,占總數(shù)的48.29%。該數(shù)據(jù)尚不包括URL訪問響應正常,但內(nèi)容已發(fā)生變化的情況。如將內(nèi)容變化考慮在內(nèi),根據(jù)Koehler等人以及筆者以往的研究,網(wǎng)絡信息的Linkrot發(fā)生率將超過70%。僅憑這一個數(shù)據(jù),足以指出目前的互聯(lián)網(wǎng)絕非理想的學術信息源。
?為進一步揭示Linkrot現(xiàn)象的成因,筆者對異常響應代碼進行了分類統(tǒng)計。表2顯示,“404”錯誤占79%;其次是“500”錯誤,占14%。
?圖1的數(shù)據(jù)點呈現(xiàn)出Linkrot發(fā)生率隨時間逐漸升高的趨勢,但對每篇論文的分析結果僅部分地支持該結論。統(tǒng)計表明,2005年至2008年所刊論文中,超過23%的論文所引網(wǎng)絡信息已經(jīng)全部無法訪問,但也有近21%的論文所引網(wǎng)絡信息的Linkrot發(fā)生率為0。將統(tǒng)計范圍擴大至所有樣本,這兩個數(shù)據(jù)分別為53%和20%。結合圖2數(shù)據(jù)點的分布,似乎能夠歸納出兩點結論:其一,網(wǎng)絡信息的Linkrot發(fā)生率確與時間有關;其二,網(wǎng)絡信息Linkrot現(xiàn)象的發(fā)生不是勻速的,前2年出現(xiàn)的機率較大,此后遞減,直至趨于穩(wěn)定。
?上述結果與國外研究者所得到的結論基本一致。當然,由于時間、人力等因素的制約,本研究僅包括《中國圖書館學報》1995年至今的數(shù)據(jù),尚不具備將研究結論推廣到所有學科領域的條件。
3 結語
一邊是學術參考信息源要求具有穩(wěn)定性和可獲得性,而另一邊卻是網(wǎng)絡學術信息廣泛存在的“l(fā)inkrot”現(xiàn)象。那么,應該把網(wǎng)絡信息作為學術參考信息源嗎?事實上,學術文獻中日益增多的網(wǎng)絡信息引用已不容我們?nèi)ビ懻搶⒕W(wǎng)絡作為學術參考信息源的合理性,而是考慮如何解決“l(fā)inkrot”產(chǎn)生的問題。
目前,絕大多數(shù)研究者仍將這一問題的解決寄希望于網(wǎng)絡信息的長期保存。但是,網(wǎng)絡信息分布分散、變化迅速、數(shù)量巨大成為長期保存策略難以實現(xiàn)的障礙。筆者認為,詳盡無遺地發(fā)現(xiàn)和保存所有網(wǎng)絡學術信息既沒必要,也無可能。既然要解決的是引文網(wǎng)絡中的“l(fā)inkrot”,我們只需要實現(xiàn)被引網(wǎng)絡信息的長期保存。因此,通過合理利用編輯部和圖書館的資源,建立一套行之有效的被引網(wǎng)絡信息的長期保存機制,是保存學術成果、促進學術交流的當務之急。
相關熱詞搜索:反思 文獻 引用 對學術文獻引用網(wǎng)絡信息的反思 百度學術文獻引用 學術論文文獻引用標準
熱點文章閱讀