博客長期存取的國外研究與實踐|臨床醫(yī)學研究與實踐
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]認為博客同其它數字化資源一樣是人類的重要文化遺產,在博客中有大量有價值的信息,由于作者的放棄、運營的不穩(wěn)定、服務的免責性及缺乏有效的保存策略面臨生存危機。論述國際組織和機構在博客保存方面的探索和實踐以及在版權糾紛、技術障礙、成本核算和開放獲取等問題上的研究突破。
[關鍵詞]博客長期存取實踐
[分類號]G250
1、博客長期存取的危機
2007年12月底,國內各大新聞網站爭相報道:《未來檔案:未來五十年歷史》的作者理察華琛在“滅絕時間表”中預言許多目前人們習以為常的事物或現象將消失,其中網絡日志將于2022年消失。博客已成為龐大的信息資源集散地,但博客資源在大量生成的同時,也正以驚人的速度死亡或消失。網絡信息的平均壽命為44-75天,博客的平均壽命只有38.2天,大量博客由于未制定歸檔保存策略處于自生自滅中。導致博客消失或死亡的原因有:
博客作者的放棄。當寫博的熱情被有規(guī)律的更新任務拖累時,博主的熱情也許就會減少。CNNIC調查顯示,截至2007年11月底,中國博客作者規(guī)模達到4698.2萬人,只有36%的人會經常更新博客。博客空間規(guī)模達到7282.2萬個,只有39.省略免費主機服務器的提供者Winer因租用站點的成本、將博客移至新服務器時技術上的困難及個人健康等問題關閉了Weblogs.Com,3 000多個用戶無法連接他們的博客。由于沒有預警,許多用戶都沒有機會去備份博客。雖然后來Winer將全部博客轉移到另一個服務器上,但博客被丟失的風險仍然存在。
博客服務的免責性。大多數BSP博客軟件和服務器常常自帶歸檔功能,但只要看看服務條款就會發(fā)現,對于博客服務的安全性和穩(wěn)定性,BSP并不承擔任何責任,甚至可以單方面修改和終止與用戶的合約。國內圖情博客領域享有盛名的“數圖研究筆記”因BSP的種種不如意(包括刪掉評論、服務不穩(wěn)定等)一再搬遷,最終不得不“成為一個獨立博客,經營自己的網站”。而MSN spages也常有將用戶“整個網站都刪除了”的記錄。
2、博客長期存取認識上的演變
雖然人們對網絡資源長期保存的重要性已有認識,但大多數人還沒有認識到博客值得收集和保存,甚至還有人反對保存。如有信息技術專家認為,“隨網絡產生的博客,如脫離生成環(huán)境,將喪失全部含義和背景”,在難以有效保存博客的情況下,根本就沒有必要保存。不過,也有先知先覺者意識到博客保存的重要性。2004年8月,CNI(Coalition for Networked Infor-mation)執(zhí)行主席Clifford A.Lynch在接受RLG(Re-search Library Group)“數字化和數字化保存”問題訪談時指出,博客和網站一樣重要,可能是思考、分析、指引興趣的極好源泉。博客的成功與否取決于內容質量,確實有許多值得保存的博客。
牛津大學和曼徹斯特大學圖書館聯合開展的“個人檔案數字化”項目認為,電子郵件、網絡日志、博客等數字檔案比傳統檔案更難保存。傳統檔案往往在當事人退休甚至死亡后才開始處理,只要進行簡單處理和適當保存,紙本檔案幾乎可以毫無損害地保留給下一代。而包括博客在內的原生數字資料的長期生存能力是不確定的,保存期內的所有努力可能由于硬件、軟件和媒體的退化和過時而失敗。
國際組織和機構對博客的認識也在加深。2005年11月,聯合國教科文組織等機構在海牙召開了“保護數字遺產”會議。麻省理工技術學院的WilliamUricchio指出,真正的挑戰(zhàn)是博客和多人參與的在線游戲等“社會媒介”資源,如構成他們具體特性的相互作用能被充分搶救,對未來史學家將具有巨大意義。阿姆斯特丹大學的John Mackenzie Owen也認為,網站、博客、討論組等新型網絡資源具有無邊界、動態(tài)性、交互性和零散性特點,為捕獲這種數字資源,需建立一個新型的遺產機構作為博物館、圖書館和檔案館的補充。
2003年,法國、意大利、丹麥和英國的國家圖書館及美國國會圖書館發(fā)起成立了國際互聯網保護聯盟(IIPC),IIPC早期也未將博客作為特別的網站類型進行保存,直到最近才意識到博客的重要性。2008年5月,為共享Web資源采集和歸檔的經驗和做法,IIPC決定建立一個新郵件組,第二個主題即是“如何采集和檢索blogs和Wikis”
SXSW(South by Southwest)在2006年3月年會上對討論組主題“數字化保存和博客”進行闡述時也指出:“早期的網頁和博客,正如早期的電影一樣,如不盡快開始保存,這種新媒介的早期大部分資源都將丟失,未來人們將只能依據幸存的碎片來認識它!
3、博客長期存取的實踐探索
2003年之前,圖書館學界和檔案學界都未對博客長期存取作出特別研究和實踐,許多國家根據呈繳法開展的Web資源歸檔活動,也大都因太早沒有提及博客,一些網絡資源保存項目甚至將博客排除在外。
澳大利亞國家圖書館1996年啟動Pandora項目,與相關機構合作建立Pandora檔案館,以確保澳大利亞網絡出版物及Web資源長期保存。在制定項目指導方案時認為,最根本的原則是以澳大利亞為中心,歸檔時排除“數據庫、網上日報、論壇、聊天室、海報欄、博客”等。2003年,Pandora更新了“澳大利亞在線出版物:歸檔和保存選擇標準”,博客被繼續(xù)排除。所幸這一偏見逐步得到修正。2003年3月澳大利亞國家圖書館制定了《數字遺產保存指南》,將“機構和個人的活動、交易和通訊等記錄”界定為新型數字遺產,指出網絡日記和博客等由數字技術產生的動態(tài)、非正式的交互信息中,也許包含著重要的數字檔案。2005年8月Pandora再次更新了“澳大利亞在線出版物:歸檔和保存選擇標準”,雖未再排除博客,卻未對博客收集作出特別規(guī)定。2005年開始,Pandora嘗試進行了博客歸檔。
英國第一個公眾網絡信息保存計劃UKWAC由英國國家圖書館、國家檔案館、JISC、蘇格蘭國家圖書館、威爾士國家圖書館和韋爾科姆圖書館于2004年共同 開展,聯盟成員選擇和捕獲的與其館藏發(fā)展政策相關網站中就包括博客。UKWAC還歸檔一些可擴展某個新聞故事、事件或普遍性主題的網站,如婦女問題、英國鄉(xiāng)村、2004年印度洋海嘯等,博客也是聯盟歸檔的主題之一。UKWAC目前收集了37個博客,均由國家圖書館歸檔保存。
2006年10月17日,“英國的歷史事件運動”在全國舉辦了單日博客活動――“歷史上的這一天”,共有41 250個博主參賽。記錄這一天內容的所有參賽博客組成一個社會歷史檔案收藏在國家圖書館的“Web檔案館”中!拔覀兿M@將是人民日常生活的詳細記錄”,歷史學家Dan Snow告訴BBC,“正是那些世俗的、枯燥的細節(jié),對幾百年后的人們非同尋常!睔v史研究學院的David Cannadine補充說:“未來的歷史學家們也許會感到驚訝,2006年10月17日我們竟然在吃肉或駕駛私人轎車”。
美國國會圖書館2000年開展的“電子資源虛擬檔案館”(MINERVA)是最初的Web站點歸檔實踐,歸檔站點包括美國政府、外國政府、政黨、媒體、宗教組織、支持團體、教育研究機構和博客等。2003年3月,國會圖書館宣布開展網絡資源歸檔活動,目前正在開展的歸檔主題“2008年選舉”中包含了博客,已經歸檔的主題2008年埃及、2006年、2002年選舉、9.11事件中也都有博客內容。
互聯網檔案館是美國的非贏利性組織,定期收錄并永久保存全球網站上可以抓取的信息,現已保存1996年以來的550億份網頁,可免費、公開獲取;ヂ摼W檔案館雖未明確表示要歸檔博客,但如果作者擔心失去博客,可向互聯網檔案館提出歸檔要求;ヂ摼W檔案館試圖對Web內容進行全面采集,爬行器每隔幾個月采集一次。在該站點可以查詢到國內部分博客的內容,都屬于不完全保存。
新西蘭國家圖書館網頁歸檔項目開展較晚,因此將博客長期存取問題納入考慮范圍。他們認為,保護新西蘭社會文化歷史是國家圖書館的法律權力和社會責任,無論歷史是以書籍、報紙、照片還是網站、博客形式存在。由IIPC發(fā)起、新西蘭和英國的國家圖書館聯合開展的網絡資源選擇性歸檔項目WCT(The Web Cu-rator Tool)2007年1月起在新西蘭國家圖書館運行。同年9月,WCT對新西蘭每三年一次的地方政府選舉進行了為期12周的集中采集,這是WCT收割的第一個主要事件及其嘗試收割的最大主題,共選擇了238個網站,包括候選人和政黨競選活動的網站和博客,城市和地區(qū)委員會網站,新聞站點,與選舉或地方政府相關的博客等。被選擇的網站都在新西蘭國家呈繳法范圍之內,無需再尋求明確的許可。
4、博客長期存取關鍵詞的突破
4.1版權糾紛
對于歸檔網頁(博客)可能遇到的版權糾紛,一些業(yè)已開展的項目都做了努力。如互聯網檔案館采集的網頁都可公開使用,對于需要密碼才能訪問、頁面標記為“排斥機器人”、需用戶填寫表格后才能訪問、或存放在受保護服務器上的網頁均不會歸檔。如果網頁所有者希望網頁不被歸檔,也可要求從互聯網檔案館移走已歸檔的網頁,同時使用者必須遵守使用條款。
即使如此,互聯網檔案館還是遭遇到版權困擾。2007年3月,互聯網檔案館被美國科羅拉多州一婦女起訴,理由是她聲明了該網頁不能被收錄,但互聯網檔案館的爬蟲還是爬走了她的網頁。該婦女并不是以通用的Robot.txt方式做的聲明,而是在網站主頁頁腳注明“轉載或分發(fā)網站內容意味著你已同意了我們的版權合同”,內容包括只可在電腦上瀏覽,不可打印、不可復制等。雖然只在博客歸檔上做了一些嘗試,UK-WAC也意識到版權問題:當用戶希望UKWAC存檔自己的網上電子資源(包括博客)時,需在線填寫一份表格,表格中的第5個問題“如果我們選擇您的資源,你會授予UKWAC許可歸檔您的資源嗎”為必填項,決定是否給予UKWAC歸檔資源的許可。
4.2技術障礙
現有的網絡資源長期保存項目對博客的采集大都由機器人定期跟蹤抓取,對于非主流BSP上的博客可能無法發(fā)現和識別;遇到機器人被拒絕、動態(tài)內容、密碼保護、奇特的文件格式或錯誤編碼時,博客也很難被存檔。此外,博客是一種不斷變化與更新的動態(tài)資源,更新頻率亦不相同,如果采集期間服務器發(fā)生故障或關閉,歸檔活動也會失敗。如何根據BSP及博客特點確定采集頻率,是博客保存的一個技術難題。
博客和網上銀行帳戶、個人網站、數碼照片及PC文檔一樣,都被認定為個人數字化資產。Catherine C.Marshall曾建議,個人存檔技術應有機融入日常實踐,如有一個可自行處置的歸檔系統,也許人們就會樂意進行個人存檔。這種理念在互聯網檔案館網頁歸檔活動中已經實現。如果某個網站長時間未被互聯網檔案館收錄,網站所有者可通過“Alexa提交入口”提交網站,以提醒搜索引擎前往抓取網站數據;蛲ㄟ^Alexa工具欄訪問自己的網站,Alexa將自動獲悉并將其添加到需訪問的網站清單;蛟诰填寫一份表格,輸入網址,點擊按鈕“抓取我的網站”,Alexa將在下次爬行時抓取該網站,這種歸檔方式對于博客非常方便,還可避免版權糾紛。
4.3成本核算
保存博客需要一定代價,難以作出合理估計。即使選擇有較高價值博客,保存的累計成本也較高。英國國家圖書館“電子文獻的生命周期”項目由國家圖書館和倫敦大學學院服務部聯合開展,獲得“數字資源長期保存聯”2007年“數字資源保存獎”。項目組2006年提交的報告指出,Web資源歸檔保存成本隨時間推移不斷增加,其1年、5年、lO年和20年的成本分別達到707英磅、3 449英磅、6 876英磅和13 731英磅。
雖然報告只針對Web資源歸檔成本進行研究,未特別計算博客保存成本,但UKWAC所開展的博客歸檔活動均是由英國國家圖書館網頁歸檔小組執(zhí)行,后者在開展案例研究時不會不考慮博客的成本模型。項目研究認為Web資源歸檔成本包括獲取、攝入、元數據、檢索、存儲和長期保存,其歸檔流程和成本特性與博客歸檔并無二致。由于博客生命周期更短,來源更為復雜,攝取和采集過程中人工干預可能更多,其成本還會高于普通Web資源。
4.4開放獲取
提供利用是歸檔保存的目的,歸檔后的博客必須提供開放存取服務。博客利用模式包括簡單利用和綜合利用,前者通過再現博客原貌滿足用戶需求,后者通過知識挖掘和知識發(fā)現,與保存機構的現有資源進行整合,為用戶提供集成后的信息和服務,最終實現博客長期存取的可持續(xù)性。
現有的網頁歸檔項目雖采集到一些博客,但在提供使用方面卻不盡如人意。許多博客一經保存,只能按原址提供檢索,不能提供主題或關鍵詞檢索,有的由于未有效解決版權問題甚至還不能提供使用,無疑會影響博客長期保存的積極性。在這方面,UKWAC做了很好嘗試。一旦網站和博客已完成歸檔、編目和完整性檢查,就可在UKWAC網站中進行檢索。用戶可通過標題字母檢索,或利用主題詞瀏覽歸檔后的網頁,搜索特定的地點和主題資源。
相關熱詞搜索:存取 實踐 長期 博客長期存取的國外研究與實踐 地理實踐力國外研究現狀 地理實踐力的培養(yǎng)
熱點文章閱讀