[數(shù)字資源收割工作的發(fā)展]數(shù)字資源建設(shè)與發(fā)展建議
發(fā)布時間:2020-03-07 來源: 短文摘抄 點擊:
[摘要]介紹各國數(shù)字資源收割技術(shù)的發(fā)展,如挪威、新加坡、丹麥等從法律上明確公共圖書館對數(shù)字資源進行收割和保存的職責(zé);日本、韓國、美國等都各自開發(fā)有對網(wǎng)絡(luò)資源爬行和抓取的工具軟件。并著重論述新西蘭國家圖書館與英國不列顛圖書館合作開發(fā)Web CuratorTool,在收割質(zhì)量保障、保存格式、授權(quán)管理等方面優(yōu)點明顯,但在圖像資源收割及大規(guī)模任務(wù)執(zhí)行等方面還存在不足。
[關(guān)鍵詞]數(shù)字資源長期保存 數(shù)字資源收割
[分類號]G253
1 數(shù)字資源收割工作的現(xiàn)狀
當(dāng)今的數(shù)字資源將成為未來的科學(xué)史、文化史、社會史。正如我們從印刷資源中追溯文明一樣,后代將從被保存的數(shù)字資源中回顧和利用我們所創(chuàng)造的知識,讓人類可持續(xù)發(fā)展。數(shù)字資源長期保存工作的意義不言而喻。
數(shù)字資源收割是數(shù)字資源長期保存的第一步,近年來,各國的數(shù)字資源的收割工作在制度、機構(gòu)和工具等各方面都有了長足的發(fā)展。
1.1 數(shù)字資源收割的相關(guān)制度
挪威于1990年生效的《保存本法》所規(guī)定的國家圖書館收割和保存范圍涵蓋了網(wǎng)絡(luò)電子出版物,并提供了具體實施規(guī)章。
新加坡于1995年通過了“新加坡國家圖書館管理局法案”(NLB Act),規(guī)定在法定的呈繳框架下,電子或聯(lián)機形式傳播的出版物不論是否已通過網(wǎng)頁內(nèi)容收割和存檔,都須向管理局呈繳兩份復(fù)本。
丹麥于2000年出臺的第340號法案規(guī)定了公共圖書館收割、保存和提供包括因特網(wǎng)與多媒體在內(nèi)的電子信息的職能。
澳大利亞聯(lián)邦于2006年修正的著作權(quán)法案(Amendments t0 the Copyright Act)第40條和41條,對圖書館的數(shù)字收割和保存活動給予了重視與支持。
英國國家圖書館正建議國家立法,不限制數(shù)字資源的自動獲取,支持以保存為目的繳送和復(fù)制,并涵蓋有可能增加的各種介質(zhì)出版物。
德國的國家存檔項目Nestor正建議修改《呈繳本法》,要求法律支持?jǐn)?shù)字資源副本的創(chuàng)建和修改權(quán),取消由DRM提出的限。
1.2 數(shù)字資源收割的執(zhí)行機構(gòu)
目前進行數(shù)字資源收割和保存的執(zhí)行機構(gòu)主要是各國的國家圖書館,但除此之外,許多政府、文化與科研機構(gòu)及聯(lián)盟也成為了重要力量。
澳大利亞的PANDORA項目以國家圖書館為核心,參與機構(gòu)包括國家聲像檔案館、戰(zhàn)爭紀(jì)念館、原住民及托雷斯海峽居民研究協(xié)會、澳大利亞可持續(xù)知識倉儲伙伴計劃(APSR)中的聯(lián)盟成員等。
德國國家圖書館組建了數(shù)字資源長期保存專業(yè)技術(shù)網(wǎng),參與的組織除幾所大學(xué)圖書館外還包括柏林博物館信息協(xié)會和巴伐利亞州檔案館。
互聯(lián)網(wǎng)檔案組織(Internet Archive,IA)由美國國會圖書館和Smithsonian組織共同構(gòu)成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯(lián)網(wǎng)資源為目的。
澳大利亞、加拿大、丹麥、芬蘭、法國、冰島、意大利、挪威、瑞典等國的國家圖書館,英國不列顛圖書館,美國國會圖書館和IA等機構(gòu)共同建立了國際網(wǎng)絡(luò)資源保存社團(International Internct Preservation Consorti―um,IIPC),鼓勵和支持利用通用工具、技術(shù)與標(biāo)準(zhǔn)建設(shè)國際檔案館(international archives),并資助相關(guān)研究項目。
1.3 數(shù)字資源收割的工具
2006年,在WARP項目(Web Archiving Project)中,日本國會圖書館開發(fā)了一個須版權(quán)人授權(quán)的網(wǎng)頁爬行機器人進行網(wǎng)絡(luò)資源收割。主要收割對象是網(wǎng)站,其次是在線期刊和城鎮(zhèn)農(nóng)村信息資源。
2008年,韓國國家圖書館在OASIS計劃(Online Archiving&Searching Internet Sources)中進行網(wǎng)絡(luò)數(shù)字資源的收割和保存。目前的收割對象主要為兩類:網(wǎng)站和其他單獨網(wǎng)頁數(shù)字資源。
新加坡國家圖書館管理局從2006年開始啟動了收割互聯(lián)網(wǎng)中所有與新加坡有關(guān)的網(wǎng)頁內(nèi)容計劃。2007年,該局建設(shè)并使用了一個自助提交系統(tǒng),出版者可以在網(wǎng)絡(luò)上直接提交數(shù)字出版物。
澳大利亞PANDORA項目開發(fā)了PANDAS系統(tǒng),與IA協(xié)作進行大規(guī)模地域收割活動,已完成兩次大規(guī)模的資源“爬行”,主要抓取采用.au頂級域名的網(wǎng)頁資源。
2006年,美國國會圖書館開通了直接隸屬于國家數(shù)字信息基礎(chǔ)設(shè)施和保存計劃(NDIIPP)的網(wǎng)頁抓取項目,使用IA專門設(shè)計的開發(fā)源代碼爬蟲軟件Heri―trix進行網(wǎng)頁收割。
2 新西蘭的數(shù)字資源收割工作
2.1 相關(guān)制度和機構(gòu)
新西蘭于1965年出臺了136號法令――《新西蘭國家圖書館法》,并在1971―2003年間進行了多次補充和修訂,對國家圖書館進行數(shù)字資源收割與保存的職責(zé)及權(quán)利提供了法律支持。
2.省略站點下載。新西蘭國家圖書館使用WCT的硬件系統(tǒng)是Sun SPARC servers,操作系統(tǒng)是Solaris,數(shù)據(jù)庫管理系統(tǒng)是Oracle,網(wǎng)絡(luò)服務(wù)系統(tǒng)是Apache HTrP Server and Tomcat,用戶識別系統(tǒng)是Novell e―Directory。整個軟件系統(tǒng)被布署在兩個服務(wù)器上:一個服務(wù)器用作核心指令艙(core module);另一個用作收割器(harvest―er)。
WCT工作系統(tǒng)的主菜單上共包括9個功能模塊,如圖1所示:
In Tray:總覽模塊。Harvest Authorisations:收割授權(quán)模塊。Targets:收割對象管理模塊,負責(zé)管理收割任務(wù)時間表。Target Instances:收割對象列表模塊。Groups:收割對象分組模塊,通過比較元數(shù)據(jù)信息、對同類資源進行成批收割。Permission Request Tem―plates:收割許可請求生成模塊。Reports:報告生成模塊。Harvest Configuration:收割設(shè)置模塊,負責(zé)依據(jù)時 作界面可列出輔助評估的數(shù)據(jù)清單,包括:概述信息、起始日期、已下載數(shù)據(jù)、獲取成功的和失敗的URL,共用時間與當(dāng)前狀態(tài)等。WCT還可提供多個窗口,以對比收割結(jié)果和該資源的原始版本及其他版本間的差異,使得評估更直觀、有效。2007年,新西蘭國家圖書館共進行了1249項收割任務(wù),其中953(76%)項完成了收割并經(jīng)評估被認(rèn)可后保存,69(6%)項未完成收 割,224(18%)件收割結(jié)果未通過評估被拒絕保存。
2.4.2 不斷改進適宜被長期保存的數(shù)據(jù)格式新西蘭國家圖書館早在1999年就已開始進行程控Web資源收割,在2006年底以前一直使用的收割工具是:HT―Track Website Copier。長期以來,HTTrack對MARC格式的網(wǎng)絡(luò)資源數(shù)據(jù)庫進行資源選擇和獲取,累積性地遺留了海量的無法被長期保存的數(shù)據(jù),目前正依靠數(shù)據(jù)遷移技術(shù)對這部分資源進行格式轉(zhuǎn)化處理。2007年,新西蘭國家圖書館開始使用WCT,其顯著的不同在于:使用ARC文檔格式輸出收割結(jié)果,ARC以“分要素層存放數(shù)據(jù)”為特征,這種格式使得長期保存工作更為方便和有效。
2.4.3 通過建立各環(huán)節(jié)間的溝通機制提高收割效率WCT的設(shè)計充分考慮了過去類似軟件在各環(huán)節(jié)工作間存在的鴻溝(gap),設(shè)計了加強整個工作流程整體性的各環(huán)節(jié)交流機制。例如,規(guī)定評估環(huán)節(jié)每周向描述環(huán)節(jié)提交報告,以提示資源描述需求、預(yù)告技術(shù)層對資源數(shù)量和大小的后續(xù)要求。
2.4.4 收割任務(wù)規(guī)模有限WCT還不能同時進行多項(大于8項)收割工作,也不能勝任對大規(guī)模網(wǎng)站資源的收割任務(wù)。目前已成功完成的最大的一次收割任務(wù)數(shù)據(jù)量是10G,新西蘭國家圖書館曾嘗試過一次21G的收割任務(wù),但收割結(jié)果未通過評估。
2.4.5 圖形資源收割能力不足對于用Javascript建設(shè)的網(wǎng)站圖像資源,WCT在收割后難于對其圖像要素(如下拉菜單)進行導(dǎo)航加工,也難以收割深植(embeded)的背景圖像(background images)。WCT圖像收割能力的提高將依賴于當(dāng)代圖像傳輸和處理技術(shù)的全面提升。
3 新西蘭國家圖書館數(shù)字資源收割工作的參考意義
3.1 以應(yīng)用集成的方式實現(xiàn)機構(gòu)間分工合作
新西蘭國家圖書館與新西蘭維多利亞大學(xué)(新西蘭唯一開設(shè)圖書館學(xué)與信息學(xué)專業(yè)的大學(xué))、新西蘭電子文本中心聯(lián)合構(gòu)建“收割結(jié)果評估工具”(Quality Review Tools),并以在線鏈接的方式實現(xiàn)輔助工具的遠程調(diào)用(見圖6),充分實現(xiàn)了分布式應(yīng)用的集成。我國的相關(guān)機構(gòu)(如國家圖書館、國家檔案館、中國科學(xué)院、教育部、科技部等)也可以組建“協(xié)作鏈”,實現(xiàn)技術(shù)上的合作攻關(guān)、工作環(huán)節(jié)的分布式操作、經(jīng)費支持上的合理分配。
3.2 建立和依據(jù)數(shù)字資源呈繳制度
新西蘭以及新加坡、丹麥、挪威等國在數(shù)字資源呈繳制度方面成為了先行者,以法規(guī)形式規(guī)定了圖書館負責(zé)該國數(shù)字資源長期保存的職責(zé)和權(quán)利,并建立了國家層面上的數(shù)字資源呈繳框架與信息存檔體系,值得我國借鑒。
3.3 健全收割授權(quán)管理避免版權(quán)糾紛
WCT的“獲取版權(quán)許可”工作環(huán)節(jié),有效地保障了整個收割過程的版權(quán)合法性。而我國現(xiàn)階段的一些網(wǎng)絡(luò)資源收割活動,仍采用先侵權(quán)后處理的工作方式,為日后的知識產(chǎn)權(quán)糾紛埋下了巨大隱患。WCT通過主動請求版權(quán)許可,防患于未然,使長期保存工作可持續(xù),是可學(xué)習(xí)的模式。
4 結(jié)語
保存人類記憶,傳承社會政治、經(jīng)濟、科技、文化的整體圖像,是圖書館的社會職責(zé)和歷史任務(wù)。新西蘭國家圖書館在國家法律授權(quán)前提下,應(yīng)用WCT自動收割來自網(wǎng)絡(luò)圖書、網(wǎng)絡(luò)報紙、網(wǎng)站、網(wǎng)頁、博客和各種數(shù)字媒體的各類數(shù)字信息,捕獲并再現(xiàn)資源原有的整體性與真實性,并保證版權(quán)的合法性,這種做法值得我國數(shù)字資源長期保存工作者借鑒。
相關(guān)熱詞搜索:收割 數(shù)字 發(fā)展 數(shù)字資源收割工作的發(fā)展 數(shù)字資源整合的發(fā)展與實踐 數(shù)字化部部門工作規(guī)劃匯報
熱點文章閱讀