[數(shù)字報紙典藏項目(DiNeR)介紹] 暗黑破壞神3數(shù)字典藏包有什么
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]從介紹數(shù)字報紙典藏項目的建設(shè)背景入手,具體分析項目設(shè)計的思路、系統(tǒng)框架、系統(tǒng)功能,包括數(shù)據(jù)的采集、轉(zhuǎn)換、管理、整合與服務(wù)以及長期保存等。進而闡述項目建設(shè)中遇到的知識產(chǎn)權(quán)問題和實施過程中的解決辦法,并對項目的長遠發(fā)展提出規(guī)劃。
[關(guān)鍵詞]數(shù)字報紙典藏國家圖書館
[分類號]G250.76
1 背景介紹
報紙保存了大量第一手的材料,是研究一個國家、一個地區(qū)或一個特定歷史時期的社會狀況、方針、政策以及民風(fēng)、民俗的重要依據(jù),具有極高的史料價值。在數(shù)字化、網(wǎng)絡(luò)化浪潮沖擊下,作為歷史的真實縮影,報紙的價值越來越得到各國政府和公益事業(yè)組織的認知和重視。在這種背景下許多國家圖書館都得到了相應(yīng)資助,紛紛開展報紙數(shù)字化項目的建設(shè)。美國建有NDNP項目(National Digital NewspapersProjects)、英國建有NEWSPLAN項目、澳大利亞國家圖書館建有Australian Newspapers Online項目等。
國家圖書館是國家的總書庫,基于數(shù)字資源長期保存的戰(zhàn)略考慮,于2005年開始著手建立數(shù)字報紙典藏(DigitalNewspaper Repository,DiNeR)項目,2007年底該項目已經(jīng)初具規(guī)模,并將正式對外公布。
中國國家圖書館的數(shù)字報紙典藏項目的理想目標是實現(xiàn)圖書館與報社合作、在不斷更新報紙品種和最新數(shù)據(jù)的同時,進而開展舊報紙數(shù)字化加工,實現(xiàn)數(shù)字報紙系統(tǒng)結(jié)構(gòu)化、數(shù)據(jù)格式標準化、實現(xiàn)數(shù)據(jù)管理和發(fā)布的協(xié)調(diào)統(tǒng)一。
2 系統(tǒng)設(shè)計
2.1 系統(tǒng)設(shè)計指導(dǎo)思想
DiNeR的系統(tǒng)設(shè)計相對圖書、期刊等資源有其相對的特殊性,這主要是由于報紙資源的內(nèi)容和版式等特性來決定的,一份報紙具有多個版面,大報可達上百個版面;一版上又有多篇內(nèi)容,包括圖片、文字、表格等多種信息;而且還存在著轉(zhuǎn)版、連載等多種形式,從而使報紙的元數(shù)據(jù)加工,包括描述型以及結(jié)構(gòu)型元數(shù)據(jù)變得復(fù)雜。在系統(tǒng)設(shè)計時要參照相關(guān)國際標準如OAIS、PRIMS、METS、PREMIS標準以及J2EE、XML、Unicode、Web Service等;既要考慮完整性、前瞻性、連續(xù)性、擴展性;還要考慮可用性、穩(wěn)定性、成熟性、靈活性和開放性的要求,并體現(xiàn)出安全性、可擴展性、可管理性、用戶界面友好性和高性能等特點,如圖1所示。不僅需要考慮滿足數(shù)據(jù)的信息查詢與瀏覽,還要考慮數(shù)據(jù)挖掘以及資源重組的需要,即現(xiàn)實需要以及長期保存與利用的需求。
2.2 系統(tǒng)結(jié)構(gòu)
DiNeR平臺以B/S結(jié)構(gòu)的系統(tǒng),以J2EE三層結(jié)構(gòu)的形式進行開發(fā),如圖2所示:
3 系統(tǒng)功能
3.1 數(shù)據(jù)攝入
目前,DiNeR數(shù)據(jù)來源主要是報社呈繳的數(shù)據(jù)以及從報紙網(wǎng)站下載的數(shù)據(jù),數(shù)據(jù)攝入系統(tǒng)為報社提供數(shù)據(jù)呈繳,并為數(shù)據(jù)提供清洗、查毒等相關(guān)業(yè)務(wù)。數(shù)據(jù)攝入還包括為系統(tǒng)攝入規(guī)范數(shù)據(jù),包括人名、地名、主題詞表等,為系統(tǒng)搭建底層知識庫準備素材。
3.2 數(shù)據(jù)轉(zhuǎn)換與加工
通過反解、人工干預(yù)等方式,將數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)庫中統(tǒng)一的文件格式,包括元數(shù)據(jù)及對象數(shù)據(jù)。描述性元數(shù)據(jù)制作參考PRISM(Publishing Requirements for Industry StandardMetadata,《工業(yè)標準元數(shù)據(jù)的出版需求》)、《中文新聞信息置標語言國家標準》(GB/T 20092―2006)以及《中文新聞信息分類與代碼》,采用語義描述方法,為檢索系統(tǒng)實現(xiàn)語義檢索提供。對象數(shù)據(jù)采用Adobe的雙層PDF文件格式進行存檔。
3.3 數(shù)據(jù)管理
數(shù)字報紙內(nèi)容管理主要有以下幾部分內(nèi)容:①數(shù)字報紙內(nèi)容分類管理:通過類別設(shè)定來管理不同報社的數(shù)字報紙內(nèi)容;②數(shù)字報紙內(nèi)容聚集整合:按照某一類方式如專題把內(nèi)容重新整理和組織;③數(shù)字報紙內(nèi)容發(fā)布管理:發(fā)布內(nèi)容、渠道及發(fā)布方式設(shè)置;④數(shù)字報紙內(nèi)容存儲管理:實現(xiàn)對數(shù)字報紙內(nèi)容的存儲、備份、恢復(fù);建議采用全文數(shù)據(jù)庫的方式實現(xiàn)對海量的數(shù)字報紙信息進行整合、存儲和恢復(fù)的功能。在數(shù)據(jù)管理中,根據(jù)內(nèi)容或分類建立不同的本體(Ontology),并利用系統(tǒng)攝入的規(guī)范詞表,合并生成底層知識庫,以供查詢使用。
3.4 數(shù)據(jù)的長期保存
對于數(shù)字資源的長期保存來說,僅僅保存數(shù)字對象的比特或字節(jié)是遠遠不夠的,要使數(shù)字信息在更長的時間能被人們所理解和應(yīng)用,保存關(guān)于數(shù)字對象創(chuàng)建和使用的技術(shù)信息和環(huán)境信息是十分必要的。DiNeR采用METS作為結(jié)構(gòu)元數(shù)據(jù)的標準,來進行數(shù)據(jù)封裝,并參考OCLC的PREMIS保存元數(shù)據(jù)字典制作保存元數(shù)據(jù)。
3.5 數(shù)據(jù)發(fā)布與檢索
?發(fā)布進行程序定制開發(fā),實現(xiàn)對報紙數(shù)據(jù)的檢索,按照報紙地區(qū)、首字母等分類進行瀏覽導(dǎo)航。
系統(tǒng)部署主要在兩臺服務(wù)器上,分別用于Web及存儲服務(wù)器、檢索服務(wù)器,各服務(wù)器的主要用途如下(見圖3):
Web及存儲服務(wù)器主要為數(shù)字報系統(tǒng)提供網(wǎng)上信息瀏覽服務(wù)。是數(shù)字報系統(tǒng)的對外服務(wù)的唯一出口,需要較好的性能要求。其主要功能是存儲報刊發(fā)布后的靜態(tài)頁面。為了保證系統(tǒng)性能,報刊頁面訪問速度等,系統(tǒng)采用靜態(tài)發(fā)布的技術(shù),本次部署的數(shù)據(jù)已達到將近500萬個文件,總占用磁盤空間近600G,這需要服務(wù)器有較高的磁盤I/O性能。
檢索服務(wù)器主要功能為提供全文檢索服務(wù)。檢索功能是數(shù)字報系統(tǒng)核心功能之一,報紙有著海量的全文數(shù)據(jù),為保證全文檢索的響應(yīng)時間、并發(fā)性能等,所以專門選用一臺作為檢索服務(wù)器。
新平臺上提供245種數(shù)字報紙進行展示,其中145種可以進行全文檢索,另外100種報紙目前只提供瀏覽服務(wù)。大部分數(shù)據(jù)為2007年的新數(shù)據(jù),部分報紙可以回溯到2004年。
?檢索檢索是本平臺很重要的組成部分,系統(tǒng)采用靜態(tài)內(nèi)容檢索方式提供查詢檢索服務(wù)。用戶通過輸入關(guān)鍵字、時間范圍、內(nèi)容分類、作者信息等進行組合查詢,檢索基于全文和字段檢索聯(lián)合查詢的方式,用戶檢索的內(nèi)容是整個索引庫。檢索的字段包含標題、關(guān)鍵字、正文、時間、欄目的聯(lián)合查詢,以準確、快速的定位需要的內(nèi)容。
4 平臺優(yōu)勢
主要有以下方面:
?以多種方式呈現(xiàn)數(shù)字報紙內(nèi)容,互為補充,滿足各種類型讀者需要:①網(wǎng)頁式數(shù)字報紙:版面內(nèi)容以網(wǎng)頁方式展現(xiàn),非常容易地實現(xiàn)版面內(nèi)容的高速瀏覽、期間掉轉(zhuǎn)、全文檢索、字段的結(jié)構(gòu)化查詢等功能;②傳統(tǒng)電子報閱讀形式:與紙質(zhì)內(nèi)容完全一致,呈現(xiàn)原版原式、原汁原味的電子報,采用PDF格式顯示,實現(xiàn)文章在版面中的定位,在DRM數(shù)字產(chǎn)權(quán)保護的管理體系下進行傳遞、流轉(zhuǎn)、閱讀;③考慮到數(shù)字報紙呈現(xiàn)的靈活性、閱讀的方便性,系統(tǒng)采用模板技術(shù),用以方便地設(shè)計出界面和閱讀方式能夠定制、風(fēng)格和內(nèi)容可以靈活展現(xiàn)的系統(tǒng);④數(shù)字報紙模板為網(wǎng)頁數(shù)字報紙呈現(xiàn)和閱讀模 板:網(wǎng)頁數(shù)字報紙呈現(xiàn)的各種內(nèi)容形態(tài)以及各種閱讀方式可以方便地通過定制該模板來實現(xiàn)。
?完善的期、版索引,方便歷史資料的查閱,能夠提供標準化的系統(tǒng)接口,方便數(shù)字報刊內(nèi)容的再次利用。
?符合閱讀紙報的傳統(tǒng)看報習(xí)慣;融合網(wǎng)上看新聞的方便快捷;能夠快速檢索、定位、生成所需的報刊數(shù)據(jù)。5知識產(chǎn)權(quán)問題
DiNeR建設(shè)之初就雙管齊下:一方面主動與報社取得聯(lián)系直接獲取Ps排版文件或者是PDF的數(shù)據(jù);另一方面從網(wǎng)上采集免費的電子報紙資源。直接從報社獲取的數(shù)據(jù)由于是所有者主動提供的,所以可以視為已經(jīng)將復(fù)制權(quán)、匯編權(quán)和傳播權(quán)授權(quán)圖書館,但授權(quán)范圍分為局域網(wǎng)使用和互聯(lián)網(wǎng)使用兩種。這部分數(shù)據(jù)的知識產(chǎn)權(quán)保護只要嚴格遵守授權(quán)許可使用協(xié)議中的規(guī)定即可。網(wǎng)絡(luò)信息采集數(shù)據(jù)的知識產(chǎn)權(quán)問題現(xiàn)在是矛盾的焦點。
由于《著作權(quán)法》和《信息網(wǎng)絡(luò)傳播權(quán)保護條例》對數(shù)字文獻的知識產(chǎn)權(quán)持肯定的態(tài)度,因此網(wǎng)絡(luò)內(nèi)容同其他任何出版物一樣都受到知識產(chǎn)權(quán)的保護。對于網(wǎng)絡(luò)資源的采集各國法律的規(guī)定基本上是相同的,即如果只是出于長期保存的目的是可以主動采集的,但是不能以任何形式發(fā)布,除非得到權(quán)利人的授權(quán)。法律的過多限定給與了權(quán)利人利益上的保障,而對于身為履行文化遺產(chǎn)保存和信息傳播中心職能的圖書館來講卻被束縛手腳,兩者的利益沒有得到很好的平衡。要求為公眾服務(wù)的公益性單位耗費巨大的人力和物力尋求權(quán)利人的授權(quán)許可并不現(xiàn)實。鑒于網(wǎng)絡(luò)資源的平均壽命只有44天到2年,這期間大部分的網(wǎng)頁會在1年里出現(xiàn)變更,因此網(wǎng)絡(luò)采集的工作刻不容緩。目前,只是被動的在國家圖書館主頁上發(fā)布免責聲明,對于不希望我們采集內(nèi)容所有者可以通過電話或者電子郵件的方式告訴我們其意向,對于有異議的網(wǎng)頁將不再采集,已經(jīng)采集的網(wǎng)頁也將刪除。但是這種方式是在著作權(quán)所有者有機會進行反對之前侵權(quán)行為已經(jīng)產(chǎn)生,只是一種彌補措施,不排除可能會有一些人堅決地要通過法律途徑起訴網(wǎng)絡(luò)信息保存機構(gòu)。迫使網(wǎng)絡(luò)信息保存機構(gòu)可能會把所有潛在的侵犯著作權(quán)的信息都進行刪除。
國際上通行的主動做法大概包括用戶認證、遲延發(fā)布以及協(xié)議解決等。用戶認證并不能避免文獻的二次上載問題,而且無形中會增加長期保存機構(gòu)的操作成本。遲延發(fā)布的方式要想達到保護知識產(chǎn)權(quán)的目的,通常要將資源推遲3年、5年甚至10年的時間,時效性缺失的情況下,保存的資源只能作為歷史回顧,參考價值將會降低。協(xié)議解決是在沒有法律強制授權(quán)下最完善的解決方式。出版者擔心的最主要的問題就是使用環(huán)節(jié)將導(dǎo)致其商業(yè)利益受到巨大影響。因此保存機構(gòu)如果能向出版者證明有能力將使用限制在一定的范圍內(nèi),那么就比較容易和出版者達成協(xié)議。實踐中主要通過兩個途徑解決:通過和出版者探討檢索范圍和檢索時限盡可能保護出版者的利益。澳大利亞Pandora項目和版權(quán)所有者進行協(xié)商,在不損害出版者利益的前提下探討存取條件。
DiNeR項目中授權(quán)數(shù)據(jù)是可以全文檢索,未授權(quán)的采集數(shù)據(jù)只能進行版面瀏覽。最根本的解決方案應(yīng)該是將網(wǎng)絡(luò)信息資源納入常規(guī)繳送范圍,通過法律的授權(quán)來保障資源的獲取和發(fā)布,對于信息傳播中心的數(shù)字圖書館建設(shè)具有重大意義。《著作權(quán)法》頒布的目的不僅是要保護作者的利益,更需要鼓勵作品的創(chuàng)作和傳播。從根本上就是要在著作權(quán)人權(quán)利和公眾權(quán)利之間獲得一種平衡。著作權(quán)的保護不足和過當都會引起權(quán)利關(guān)系的失衡。圖書館作為公眾利益的代表和體現(xiàn),應(yīng)該通過立法擴大其信息網(wǎng)絡(luò)傳播權(quán)適用的范圍,將網(wǎng)絡(luò)采集的資源也界定為圖書館館藏文獻的一部分。
6 亟待解決的方面
6.1 數(shù)據(jù)來源
兩年的實踐,我們積累了一定量的數(shù)據(jù),但同時也發(fā)現(xiàn)一些問題:一方面,采集數(shù)據(jù)的任務(wù)主要由人工完成,工作量巨大,由于沒有專門的監(jiān)控軟件,無法對網(wǎng)絡(luò)報紙更新的內(nèi)容進行實時監(jiān)控;另一方面,部分PDF格式的內(nèi)容在進行反解時會出現(xiàn)識別錯誤,難以實現(xiàn)報紙文獻的全文檢索。因此,圖書館應(yīng)該繼續(xù)加強與報業(yè)間的合作,從源頭獲取數(shù)據(jù);依靠報社在出版行業(yè)的多年經(jīng)驗以及資源獲取方面的優(yōu)勢,開展數(shù)字報紙保存與利用的探索與嘗試,并利用國家圖書館在資源整合與挖掘上的優(yōu)勢,擬在報紙數(shù)字典藏資源基礎(chǔ)上衍生各類數(shù)字服務(wù),進一步提升國家圖書館在印刷出版業(yè)、圖書館業(yè)的核心權(quán)威價值。
6.2 建設(shè)方向
各大報社每天都在自己網(wǎng)站的主頁上更新電子版報紙,雖然每種報紙的展示形式和時間跨度不一致,而且需要使用者分別登陸相互獨立的報紙網(wǎng)站進行查詢,使用起來非常不方便,但是不難發(fā)現(xiàn),新報紙的網(wǎng)絡(luò)化和數(shù)字化工作是報社的強項,他們有這方面的先天優(yōu)勢。雖然今年與國家圖書館開展了數(shù)據(jù)資源的合作,但是各報社并不主動,而且數(shù)據(jù)的更新也存在許多問題,除了在整合檢索方面以外,圖書館并不占據(jù)優(yōu)勢。但相對回溯報紙來說,圖書館所擁有的報紙資源是任何一個報社所無法比擬的,我們擁有所有曾經(jīng)和正在國內(nèi)發(fā)行的全部紙本報紙以及報紙的縮微膠片,盡快將沒有版權(quán)問題的縮微膠片數(shù)字化,與國際化項目接軌,在采集和征集新數(shù)據(jù)的同時加強舊報紙的數(shù)字化和利用,是我們今后希望開展的工作。
7 結(jié)語
新的信息技術(shù)環(huán)境在給圖書館信息服務(wù)帶來挑戰(zhàn)的同時也帶來了機遇,把握機遇,將使圖書館與用戶之間的聯(lián)系更加緊密,進而不斷推動圖書館事業(yè)向前發(fā)展。數(shù)字報紙項目的建設(shè)是中國國家圖書館在數(shù)字圖書館建設(shè)中的一個實踐,還有許多需要進一步完善的地方。我們將在2007年工作的基礎(chǔ)上繼續(xù)加大項目建設(shè),擴展數(shù)據(jù)范圍,努力將該項目建成國家圖書館的品牌工程。
數(shù)字報紙典藏項目是清華大學(xué)圖書館數(shù)字圖書館資源建設(shè)的重要組成部分,它不僅可以提供一般用戶對數(shù)字報紙的瀏覽與檢索,而且為專題資源加工奠定了基礎(chǔ)。同時,還可為報社搭建數(shù)據(jù)長期保存、展示的平臺。
相關(guān)熱詞搜索:典藏 報紙 數(shù)字 數(shù)字報紙典藏項目(DiNeR)介紹 testyourself報紙八下 the dinner party課后答案
熱點文章閱讀