網(wǎng)絡(luò)信息資源保存:網(wǎng)絡(luò)信息資源的特點
發(fā)布時間:2020-03-10 來源: 歷史回眸 點擊:
[摘要]通過列舉國際間相關(guān)網(wǎng)絡(luò)資源保存項目,分析各項目所采用的信息組織規(guī)范,探討網(wǎng)站信息多元層次的組織架構(gòu)以及網(wǎng)絡(luò)信息保存的多元層次描述方法。闡述檔案來源原則的理論基礎(chǔ)與控制層次應(yīng)用。通過分析互聯(lián)網(wǎng)多元層次的組織架構(gòu),探討網(wǎng)絡(luò)資源基于多元層次的組織和描述方法。最后,提出關(guān)于網(wǎng)絡(luò)信息長期保存發(fā)展的建議。
[關(guān)鍵詞]多元層次描述 網(wǎng)絡(luò)信息保存 檔案來源理念
[分類號]G250.73
隨著信息網(wǎng)絡(luò)環(huán)境快速發(fā)展,互聯(lián)網(wǎng)技術(shù)的興起與普及,各種原生型數(shù)字資源不斷蓬勃發(fā)展,特別是在互聯(lián)網(wǎng)上的信息資源更是與日俱增。圖書館與各種信息服務(wù)機構(gòu)正著手研究數(shù)字資源保存和利用的相關(guān)問題,并開始進行各種網(wǎng)絡(luò)信息保存計劃。網(wǎng)絡(luò)信息資源的長久保存不僅是要提供現(xiàn)階段的使用與服務(wù),同時也為將來提供研究及傳播知識的服務(wù)。
1 網(wǎng)絡(luò)信息資源保存計劃及其資源組織現(xiàn)狀
隨著互聯(lián)網(wǎng)的發(fā)展與信息技術(shù)的重大變革,知識傳播主要媒介已經(jīng)由傳統(tǒng)紙質(zhì)轉(zhuǎn)移到數(shù)字形式,而互聯(lián)網(wǎng)正是數(shù)字資源傳播的主要環(huán)境。目前,互聯(lián)網(wǎng)可謂是世界上最龐大的數(shù)字資源集中地。有鑒于網(wǎng)絡(luò)資源已成為知識的主要形式,而網(wǎng)絡(luò)信息資源快速增長及迅速消失的特性使各國開始注意到網(wǎng)絡(luò)信息資源保存的重要性并開展相關(guān)的研究及實踐。從1996年起,澳大利亞國家圖書館(Library of Australia,NLA)開始進行Pandora計劃,美國公益性組織創(chuàng)辦Intemet Archives,美國國會圖書館于2000年開始著手Minerva計劃,我國的國家圖書館于2004年進行網(wǎng)絡(luò)信息資源保存試驗項目。
1.1 國外主要網(wǎng)絡(luò)資源保存項目簡介
?Internet Archive:人類知識的全球化使用(Universal access to human knowledge)o Internet Archive成立于1996年,由Alexa創(chuàng)始人布魯斯特?卡利(Brewster Kahle)創(chuàng)辦,是一個網(wǎng)絡(luò)信息保存及研究的公益性計劃。定期收錄并永久保存全球可開放獲取(Openaccess)的HTML網(wǎng)頁資源。
?Pandora:澳大利亞網(wǎng)絡(luò)文獻資源的保存與利用(Preserving and Accessing Networked Documentary Resources of Australia)。該項目由澳大利亞國家圖書館于1996年開始啟動,其目的是在建立一個澳大利亞網(wǎng)絡(luò)信息資源歸檔系統(tǒng)的同時,為保護和存取澳大利亞電子資源制定政策和程序。
?Minerva:網(wǎng)絡(luò)電子資源虛擬檔案鏡像(Mapping the Interact Electronic Resources Virtual Archive)。由美國國會圖書館從2000年開始實施,主要目標是為有關(guān)網(wǎng)絡(luò)信息的選擇和收集方面的實際問題提供試驗,從而為美國國會圖書館運行一個大規(guī)模的網(wǎng)絡(luò)信息保存項目提供指導(dǎo)和經(jīng)驗。
1.2 網(wǎng)絡(luò)信息資源收集策略對比分析
以上三個項目所采取的網(wǎng)絡(luò)信息資源收集策略主要有兩種:一是主體收集:所有符合標準的網(wǎng)站都加以收集,如Internet Archive是收集所有HTML網(wǎng)頁;二是選擇性收集:由圖書館員或其他專家針對個別網(wǎng)站評選,按照相應(yīng)標準進行選擇性收集。如澳大利亞的Pandora計劃和國會圖書館的Minerva項目。
選擇性收集的優(yōu)點在于不必將有限的人力、物力等資源浪費在保存很多垃圾信息上,同時還可以對收集到的網(wǎng)絡(luò)信息進行質(zhì)量控制,并根據(jù)實際情況提供檢索。但是選擇性策略的缺點也比較突出,首先進行甄別篩選是非常費力的事情,需要相當多的人力、財力;其次選擇標準主觀性很強,由人為主觀進行選擇一方面可能會漏掉一些重要的網(wǎng)絡(luò)信息;另一方面也會有對選擇標準的非議。
主體收集可能會保存很多沒有價值的網(wǎng)絡(luò)信息,但是會節(jié)省人力。盡管從理論上來講主體收集可以對選定域名內(nèi)的網(wǎng)絡(luò)信息的所有更新進行收集,但是由于目前收集工具的收集能力和其他技術(shù)因素,導(dǎo)致收集周期比較長,在這期間,可能就會漏掉一些重要的網(wǎng)絡(luò)信息。由于收集范圍廣,很難對所有收集到的網(wǎng)絡(luò)信息進行質(zhì)量控制,因此很難保證收集的網(wǎng)絡(luò)信息資源的真實性和完整性。兩種資源收集策略的項目比較情況如表1所示:
1.3 網(wǎng)絡(luò)信息資源組織及描述方式對比分析
3個項目在收集工具、收集方式、資源描述、檢索存取等方面各有特點,現(xiàn)將其歸納,如表2所示:
1.4 網(wǎng)絡(luò)信息資源保存項目優(yōu)劣分析
Internet Archive就其資源組織而言是以定期收集整個網(wǎng)站內(nèi)容的快照方式,數(shù)據(jù)量巨大,能以最全面最完整的形式保存網(wǎng)站資源。但其所收集的資源并未進行整理與描述,僅能通過URL進行地址查詢、網(wǎng)頁瀏覽,無法提供關(guān)鍵詞或更深入的內(nèi)容查詢服務(wù),缺乏信息的主題性和特征性描述,對于網(wǎng)站信息整體架構(gòu)和發(fā)展脈絡(luò)的研究有一定的局限性。
Pandora對每一個收集的項目都經(jīng)過評估及并得到相應(yīng)的技術(shù)支持,資源組織方式是將網(wǎng)頁主題內(nèi)容加以選擇并收集網(wǎng)頁快照,以整個網(wǎng)站或?qū)n}為描述單元,參考有關(guān)電子資源編目標準并建立查詢系統(tǒng),同時使所收集的網(wǎng)頁資源編目紀錄能納入其國家書目網(wǎng),提供一致性的書目查詢服務(wù)。Minerva則以主題選擇方式收集與保存網(wǎng)頁資源,其特點體現(xiàn)在以MODS作為專題下的目錄層級的描述標準,提供二元層次的整理與描述。以上兩個項目雖然在資源整理描述的方式和手段上優(yōu)于Interact Archive,但在資源組織方式上都是以主題內(nèi)容為選擇性的網(wǎng)絡(luò)信息保存,是主題導(dǎo)向的收集。由于收集者主觀判斷所產(chǎn)生的偏差以及將資源抽離原有情境所產(chǎn)生的干擾,可能導(dǎo)致重要信息與研究價值的缺失。
2 檔案編排來源原則與實施方式
網(wǎng)絡(luò)資源的保存與開放使用,其核心在于網(wǎng)頁資源的編排與描述方式。網(wǎng)絡(luò)資源如同檔案數(shù)據(jù),是一個有機成長的可收集性資源,資源之間是一個具有相互關(guān)聯(lián)的結(jié)構(gòu)性組織。
2.1 檔案編排來源原則的理論基礎(chǔ)
檔案編排來源原則最初起源于1841年法國檔案學者所提出關(guān)于“尊重全宗”的概念。來源原則具體實施方式為控制層次,其最佳闡釋是由美國學者荷默斯于1964年所提出的“現(xiàn)代檔案工作重點是由廣泛與一般性到微觀性與特定性,以漸進方式收集與描述檔案單元”。具體理論表現(xiàn)為:
2.1.1 概念思想:來源原則 檔案編排的來源原則,定義于檔案是隨著機構(gòu)或個人的業(yè)務(wù)與活動所產(chǎn)生的文件,經(jīng)過有條件的價值鑒定,才得以成為長久保存的檔案數(shù)據(jù)。而經(jīng)由檔案可反映出某一機構(gòu)或個人的特征,因此檔案編排必須依據(jù)其來源。
2.1.2 具體表現(xiàn):尊重全宗在檔案實體整理與保管領(lǐng)域充分尊重檔案的自然形成規(guī)律,以檔案產(chǎn)生的有機體――機構(gòu)、家庭或個人的所有檔案,作為檔案編排 整理的全宗。
2.1.3 內(nèi)容發(fā)展:尊重原始順序尊重原始順序原則是用以維護歸檔系統(tǒng),包括管理特殊的文件與其相互之間的關(guān)系。運用尊重原始順序處理檔案在于原始順序具有下列特征:①反映當時業(yè)務(wù)的確實情況;②保存文件原有的關(guān)系;③提供有關(guān)記錄產(chǎn)生、利用或活動的文件證明;④增加檔案價值。
2.1.4 實施方式:檔案控制層次來源原則實際應(yīng)用的方式體現(xiàn)于控制層次,它是以全宗、系統(tǒng)、案卷與件為四個基本層次,從整體性到特定性,以漸進方式收集與描述檔案單元。
現(xiàn)代檔案科學的發(fā)展表明,檔案編排以來源原則為理論基礎(chǔ),外部具體表現(xiàn)是尊重全宗,內(nèi)部延伸結(jié)構(gòu)為尊重原始順序,實際應(yīng)用方法是檔案控制層次。其理論結(jié)構(gòu)如圖1所示:
2.2 檔案控制層次模式
來源原則的具體實施是以檔案控制層次方式進行,在全宗、系列、案卷與件等四大主要層次,依尊重全宗與尊重原始順序編排。每一基本層次中都包含有處理需求和檢索等內(nèi)涵與信息,具體包括:①全宗:通常由一個機構(gòu)的文書或一個人的所有文件組成,應(yīng)收集該全宗檔案的一般性內(nèi)容與其整體的歷史或傳記信息。②系列:系列是在全宗之下,依機構(gòu)的下屬單位、業(yè)務(wù)或功能的記錄組成,包含有產(chǎn)生文件的特定業(yè)務(wù)與歸檔結(jié)構(gòu)等信息。系列是檔案描述最基本的單元。其描述項目應(yīng)包含:題名、日期、檔案數(shù)量、實體編排、內(nèi)容摘要等。③案卷:系列下包括的案卷,主要是檔案產(chǎn)生時為便于管理與保存,通過立卷依一定順序或標準將性質(zhì)相同的文件歸類。④件:指個別文件,是案卷下的組成單元。
檔案編排通過控制層次,提供全宗、系列、案卷與個別文件四項基本控制層次,形成多元層次編排的基礎(chǔ),可建立多元層次描述,提供多元層次描述信息及檔案內(nèi)容查詢與使用的服務(wù)。
3 基于檔案來源理論構(gòu)建的網(wǎng)絡(luò)信息資源多元層次描述結(jié)構(gòu)
3.1 網(wǎng)絡(luò)信息資源的多元層次組織結(jié)構(gòu)
來源原則的編排依據(jù),有別于主題內(nèi)容選擇的主觀性,具有客觀、理性基礎(chǔ),適合網(wǎng)絡(luò)信息資源的特征。在互聯(lián)網(wǎng)內(nèi),網(wǎng)絡(luò)信息資源以統(tǒng)一資源定位符――網(wǎng)址(URL),以規(guī)定格式來獲取,例如http、ffp、gopher、news與maiho等協(xié)議。URL是用來界定資源對象的位置與該對象的存取方式,URL中的域名是共享一個共同地址的網(wǎng)絡(luò)計算機群組,域名本身具有結(jié)構(gòu)性,域名采用樹狀結(jié)構(gòu),并采用層級式管理。因此,網(wǎng)絡(luò)信息資源的編排可依據(jù)域名的層級式結(jié)構(gòu)來組織網(wǎng)站資源的控制層次,并形成網(wǎng)絡(luò)信息資源多元層次的界定與結(jié)構(gòu)。
3.1.1 最高層:機構(gòu)或個人網(wǎng)站
域名是組織、企業(yè)或個人在網(wǎng)絡(luò)環(huán)境中身份的代表,可作為定義一個全宗的明確的界定。如www.nlc.省略是國家圖書館的機構(gòu)域名。
3.1.2 第二層:網(wǎng)站下子域名或主要欄目
在機構(gòu)域名下,可根據(jù)網(wǎng)站各種服務(wù)功能(即欄目),針對子域名區(qū)分成不同系列。例如wenjin.nlc.省略國家圖書館文津圖書館獎網(wǎng)站。
3.1.3 第三層:在子域名或服務(wù)項目下相同性質(zhì)的網(wǎng)頁在子域名下,由于網(wǎng)絡(luò)資源更新,為便于保存與管理可經(jīng)由收集相關(guān)性質(zhì)的網(wǎng)頁,依日期或字母順序等次序加以編排。
3.1.4 第四層:個別網(wǎng)頁網(wǎng)頁是網(wǎng)絡(luò)資源的最基本組成元素,有文本、視頻、動畫等形式,同時也是以URL界定與存取。
依域名與網(wǎng)址結(jié)構(gòu)所界定的網(wǎng)絡(luò)信息資源控制層次,是尊重網(wǎng)站創(chuàng)建者(機構(gòu)或個人)的原始結(jié)構(gòu)加以定義,如同檔案來源原則與控制層次的具體實現(xiàn),具備了客觀性且符合目的性的理論基礎(chǔ)。在網(wǎng)絡(luò)信息資源多元層次應(yīng)用中二者的對應(yīng)關(guān)系,如表3所示:
以來源原則為理論基礎(chǔ),依據(jù)檔案控制層次應(yīng)用方式,所構(gòu)建的網(wǎng)絡(luò)信息資源多元層次結(jié)構(gòu),除以域名為最高層級的來源用來了解網(wǎng)站創(chuàng)建者的歷史與建站目的外,運用個別網(wǎng)站的網(wǎng)域結(jié)構(gòu)與尊重網(wǎng)站內(nèi)容歸類順序,更能符合網(wǎng)絡(luò)信息資源產(chǎn)生的背景與內(nèi)容結(jié)構(gòu)。
3.2 網(wǎng)絡(luò)信息資源的多元層次描述模式
由尊重來源原則所建立多元層次描述模式,由整體性到特定性,從宏觀到微觀,以循序漸進的方式來進行描述,符合網(wǎng)絡(luò)信息資源有機成長的可收集性與結(jié)構(gòu)性,達到網(wǎng)絡(luò)信息資源組織的客觀性與目的性。根據(jù)網(wǎng)絡(luò)資源結(jié)構(gòu)與檔案控制層次的對應(yīng)關(guān)系,依照檔案來源原則描繪出網(wǎng)絡(luò)信息資源多元層次結(jié)構(gòu)如圖2所示:
從圖2所知,各個層次描述的信息內(nèi)容深度和層級是成反比的,即最高層的描述內(nèi)容是簡要概述,最底層的描述是深入到個別網(wǎng)頁內(nèi)容。各層次描述內(nèi)容為:①最高層:機構(gòu)或個人網(wǎng)站。最高層是依據(jù)檔案來源原則,尊重資源的產(chǎn)生者(即網(wǎng)站創(chuàng)建者)來進行描述。有別于Pandora和Minerva所定義的主題內(nèi)容導(dǎo)向,而以網(wǎng)站為一個整體來源,是以域名為基礎(chǔ)的客觀性結(jié)構(gòu)。描述項目包括網(wǎng)站的創(chuàng)建者、擁有者與收集保存者等三方面的信息需求,主要描述信息有創(chuàng)建者背景信息(機構(gòu)歷史或個人傳記)、網(wǎng)站內(nèi)容概述、網(wǎng)站信息獲取規(guī)則、網(wǎng)站保存需求、網(wǎng)站組織管理等,對資源保存機構(gòu)而言,最重要是收集其歷史描述和網(wǎng)站整體的內(nèi)容概述。②第二層:網(wǎng)站下子域名或服務(wù)項目。網(wǎng)站下屬子域名或服務(wù)項目,通常是網(wǎng)站創(chuàng)建者就內(nèi)容主題性與服務(wù)功能性加以分類的項目,第二層描述項目應(yīng)包含欄目名稱、內(nèi)容摘要、主題、資源涵蓋日期、資源組織等。③第三層:相同性質(zhì)的網(wǎng)頁。在第二層子域名下,是由網(wǎng)站創(chuàng)建者將具有相同性質(zhì)的網(wǎng)頁加以集中呈現(xiàn),以方便資源的管理與使用。第三層描述項目主要為欄目名稱,資源涵蓋更新日期、資源格式等。④第四層:個別網(wǎng)頁。個別網(wǎng)頁是網(wǎng)絡(luò)信息資源最基本的元素,是指單一個別網(wǎng)頁,在網(wǎng)絡(luò)中以網(wǎng)址定義,提供鏈接與瀏覽或下載等服務(wù)。資源的格式可以是文字、視頻、音頻等。對個別網(wǎng)頁的描述,可深入至網(wǎng)頁內(nèi)容,包括全文等。
4 結(jié)語
依據(jù)網(wǎng)站創(chuàng)建者尊重來源的多元層次組織結(jié)構(gòu),由最高層的全宗描述到最底層的個別網(wǎng)頁內(nèi)容循序漸進逐級描述。并通過多元層次描述建立層次目錄,除了提供整體及深入的描述內(nèi)容外,還有最高層整體網(wǎng)站的描述,以及對于網(wǎng)站來源的歷史性描述與整體網(wǎng)站內(nèi)容結(jié)構(gòu)關(guān)系的概述,更可作為網(wǎng)絡(luò)信息資源長期保存的管理基礎(chǔ)。
網(wǎng)絡(luò)信息與檔案一樣,客觀記錄并反映著人類的實踐活動,是研究及了解知識發(fā)展的寶貴原始記錄。其高度共享、傳遞及時等特點,是傳統(tǒng)檔案所不能比擬的。同時,網(wǎng)絡(luò)資源自發(fā)產(chǎn)生的特性及資源的易失性,又使其成為一種珍貴而脆弱的信息資源。檔案來源原則的理論基礎(chǔ)與控制層次的具體方式,符合網(wǎng)絡(luò)資源有機成長的收集性與結(jié)構(gòu)性,以整個網(wǎng)站為收集對象,通過域名與網(wǎng)址的系統(tǒng)化結(jié)構(gòu),分層組織網(wǎng)站中所有網(wǎng)頁資源,并以多元層次描述模式,由上而下、循序漸進,具有較強的適用性和可行性。
參考文獻:
[1]代根興當代高校圖書館的功能定位與發(fā)展趨勢,[2010-03-01]當代高校圖書館的功能定位與發(fā)展趨勢ppt
[2] Arms W Y, Adkins R, Ammen C. Collecting and preserving theweb : The minerva prototype.省略/arcviewer/1/OCC/2007/08/08/0000070511/viewer/file1424, html featurel
[3]Koerbin P,澳大利亞網(wǎng)絡(luò)域名爬行與收割研究報告,魏來,編譯,圖書情報工作動態(tài),2006(2):10-17
[4] The Library of Congress. [2010-03-01]. http://lcweb2, loc.gov/diglib/lcwa/html/lewa - techinfo, html.
[5] About the wayback machine. [2010-03-01 ].省略/web/web, php
[6] National Library of Australia and Partners. General procedures col-lectlons. [2010-03-01]. http://pandora. nla. gov.au/manual/collections, html.
[7]趙俊玲,美國國會圖書館網(wǎng)絡(luò)信息保存項目Minerva及啟示,圖書館建設(shè),2005(5):40-42
[8] Fredric M M. Arranging and Describing Archives and Manuscripts.Society of American Archivists, 1990:28.
[9]何嘉蓀檔案管理理論與實踐,北京:高等教育出版社,199I
[10]郭東升,全宗理論創(chuàng)新論,檔案管理,2009(3):90-93
相關(guān)熱詞搜索:信息資源 保存 網(wǎng)絡(luò) 網(wǎng)絡(luò)信息資源保存 網(wǎng)絡(luò)信息資源的特點 網(wǎng)絡(luò)信息資源檢索與利用
熱點文章閱讀