數(shù)字倉儲【數(shù)字倉儲庫的發(fā)展】
發(fā)布時間:2020-03-10 來源: 幽默笑話 點擊:
[摘要]綜述數(shù)字倉儲庫的發(fā)展現(xiàn)狀,歸納總結倉儲庫的類型和內(nèi)容特點,詳細分析倉儲庫建設過程中的典型用例,重點對出版商用例和多機構用例的數(shù)據(jù)處理、服務管理和效果進行歸納和分析,詳細說明其建設過程和方法。并結合倉儲庫管理者的意見和倉儲庫目前存在的問題,提出下一步倉儲庫建設的重點和發(fā)展的方向。
[關鍵詞]數(shù)字倉儲庫 倉儲 用例分析
[分類號]G25
1. 引言
數(shù)字倉儲庫(Digital Repositories)相對于其他數(shù)據(jù)庫有自己的特點:倉儲內(nèi)容是由內(nèi)容創(chuàng)建者或擁有者提交數(shù)據(jù)庫的;倉儲內(nèi)容既有內(nèi)容又有描述內(nèi)容的元數(shù)據(jù);系統(tǒng)具有基本的PUT、GET、SEARCH、ACCESSCONTROL的功能;倉儲庫必須是可持續(xù)的和可信任的并被很好地支持和管理。數(shù)字倉儲庫在近年來獲得了長足的發(fā)展,包括以某個機構或校園為基礎的機構倉儲庫(Intltutional Repository),以某個或某些學科為基礎的學科倉儲庫(Disciplinary Repository)和跨國跨學科的綜合性倉儲庫(Aggregating Repository)快速發(fā)展。據(jù)OpenDOAR(Directory of Open Access Reposito―ries)的最新統(tǒng)計,2010年7月登記的可開放獲取的倉儲庫數(shù)量達到了1650個,其中機構倉儲庫占到了81%。而通過DRIVER-Digital Repositories Infrastruc-ture Vision for European Research項目可搜索到超過2500000篇的科技論文、學位論文和會議報告等文獻,DRIVER項目定期收割33個國家的249個倉儲庫的元數(shù)據(jù)并提供集成的檢索。據(jù)Bo-Christer Bjork等人的研究,2008年研究論文的20.4%都是可以開放獲取的,其中8.5%可以在出版商的網(wǎng)站上獲取,11.9%可通過搜索引擎得到免費的原文。數(shù)字倉儲庫在開放獲取中扮演了重要的角色,本文試圖分析數(shù)字倉儲庫的發(fā)展現(xiàn)狀和相關的項目研究情況,發(fā)現(xiàn)其運行的關鍵因素,并探索可持續(xù)發(fā)展的策略。
2. 數(shù)字倉儲庫的類型和內(nèi)容特點
數(shù)字倉儲庫包括多種類型,由研究型學術機構建立的稱為機構倉儲庫,收集、保存和分發(fā)一個機構產(chǎn)生的數(shù)字資產(chǎn),包括學位論文、預印本、研究論文和技術報告等文獻類型,也包括一個機構的管理性文檔。各國大學和研究機構都先后建立了自己的機構倉儲庫。機構倉儲建設典型的例子是加利福利亞大學數(shù)字圖書館的eScholarship Repository。建立在專門的研究部門或?qū)嶒炇业膫}儲庫稱為Departmental Repository。以某個或某些學科的資料收藏和保存為基礎的學科倉儲庫(Disciplinary Repository),由政府或某科學組織來管理和維護,其中有影響力的學科倉儲庫有arXiv,倉儲數(shù)學和物理學方面的論文和報告;PubMed Central倉儲生物醫(yī)學方面的論文,CiteSeerX倉儲計算機和信息科學方面論文和報告。在一個國家層面上建立的倉儲庫稱為國家倉儲庫(National Repository),大英圖書館維護了一個國家的倉儲庫,提供給沒有機構倉儲庫的組織和研究人員使用。
數(shù)字倉儲庫在原來文獻收藏的基礎上不斷演化,形成了非文獻類型的數(shù)字倉儲庫。其中有以數(shù)據(jù)為倉儲對象的數(shù)據(jù)倉儲庫(Data Repository),主要收集和保存科學研究中產(chǎn)生的各種數(shù)據(jù),包括圖表、統(tǒng)計表格、實驗數(shù)據(jù)、測試數(shù)據(jù)等。例如DataShare是由JISC支持的關于數(shù)據(jù)倉儲庫建設的項目。以教學參考資料為主要倉儲對象的教學參考資料倉儲庫也快速發(fā)展,JISC支持的Jorum項目收集倉儲來自英國高等教育機構創(chuàng)建的教學資料,并根據(jù)創(chuàng)建者的授權提供相應的訪問。還有專門以地理數(shù)據(jù)為倉儲對象的地理數(shù)據(jù)倉儲庫ShareGeo,以演示文稿和講演視頻為倉儲對象的Slideshare。各國高校的學位論文倉儲庫普遍建立。
OpenDoar的統(tǒng)計顯示,盡管期刊論文依然是倉儲庫的主要文獻類型,63%的倉儲庫包括期刊論文,51%的倉儲庫包括學位論文,但沒有正式出版的報告和工作文檔也有40%的倉儲庫收集,其他多媒體資料、圖書和教學參考資料也有15%到31%的比例?梢灶A測將來多種類型的倉儲資源會大量增加。也有觀點認為倉儲庫的數(shù)據(jù)結構也應多元化,包括元數(shù)據(jù)+對象數(shù)據(jù),或者元數(shù)據(jù)+對象數(shù)據(jù)指針(如DOI),或者僅僅是倉儲元數(shù)據(jù)。后文還會論述這一問題。
3. 數(shù)字倉儲庫的持續(xù)發(fā)展
數(shù)字倉儲庫的可持續(xù)發(fā)展是各個方面都關心的問題,如何設計有效的倉儲庫建設政策和經(jīng)濟有效的建設策略是當前倉儲庫建設面臨的重大問題。英國數(shù)字倉儲庫的發(fā)展得到了JISC基金的支持,2006年和2009年JISC分兩期在英國高等教育機構的數(shù)字倉儲和數(shù)字內(nèi)容基礎設施上共投入了約1400萬英鎊,支持包括倉儲支持、倉儲研究、倉儲聯(lián)合搜索、Interim Reposi―tory等方面的項目和建設內(nèi)容,目前在Key Digital Re―pository Activities題目下列有21個基金項目計劃和230個支持項目。
倉儲庫建設的可持續(xù)發(fā)展問題是倉儲庫建設者們考慮的一個重要問題,不僅僅是完全依靠項目運作方式維持倉儲庫發(fā)展。其中如何解決倉儲庫的數(shù)據(jù)提交效率和效果成為一個關注的焦點。下面的用例分析了倉儲庫建設各方面參與者角色,試圖找到合適的提高倉儲效率的路徑。
3.1 用例分析
JISC支持的一個小的思想庫試圖探討倉儲庫的運作問題,有來自三個國家的倉儲庫建設方面的專家組成的名為“Repository Handshake”的聚焦小組,于2009年3月在荷蘭阿姆斯特丹開了一個專題討論會。第一個聚焦的問題為Deposit Opportunities,主要探討在開放存取環(huán)境下半自動提交和呈繳的過程,討論包括倉儲空洞化的危險與如何避免標準和技術的絕對化;評估通過SWORD實現(xiàn)交互的能力,交互過程中的工作流管理;倉儲庫管理者的角色等。重點考慮其他系統(tǒng)對倉儲系統(tǒng)的沖擊,包括作者工具、書目索引工具和其他管理工具,如CRIS和REF。如圖1所示:
作者要面對至少5個方面的對自己產(chǎn)出的要求。在這種狀況下,無論是智力成果的創(chuàng)造者還是倉儲庫的管理者,都面臨多個方面的要求,會讓倉儲過程本身充滿了煩惱。需要認真思考解決方案。
JISC支持的SONEX(Scholarly Output Notificationand Exchange)項目旨在重新明確倉儲的對象是學術產(chǎn)出而不僅僅是正式出版的內(nèi)容,學術信息的傳遞只需要元數(shù)據(jù)即可,數(shù)據(jù)的交換需要雙方的互操作和協(xié) 商。本文重點確認和分析倉儲用例,目的是在不同的應用環(huán)境下推動和促進研究產(chǎn)出的倉儲過程,也包括如何實現(xiàn)對現(xiàn)有多個倉儲庫內(nèi)容的傳遞和跨庫獲取的問題,比如如何從大學研究管理系統(tǒng)CRIS Systems獲取內(nèi)容到機構倉儲庫。分析整個倉儲環(huán)境中各種可能的用例,確認有效的倉儲機會,用例的詳盡分析也有助于多種數(shù)據(jù)庫間合作的發(fā)展。
下面就是詳盡的用例分析和在該用例下部署開展的項目:
?用例1,著者。服務于多個研究機構著者的研究成果,或者研究成果中的多個著者來自不同的機構,在這個用例中,一篇論文按照通常的情況,要在多個機構倉儲庫中提交倉儲,毫無疑問會給著者帶來*許多的操作負擔;谶@個用例,Open Access RepositoryJunction(OA-RJ)Project主要研究通過代理方式向多個機構倉儲提交成果的機制和應用。該用例不包括單一著者單一機構的情況。
?用例2,管理機構。這個用例主要是大學或研究機構的研究信息管理系統(tǒng)CRIS。在一般情況下,這些用例出于管理的目的,已聚集了研究的產(chǎn)出。這就需要交換研究產(chǎn)出的信息,有幾個項目正在集成CRIS和IR,如University of Glasgow和Trinity College Dublin。
?用例3,書目編制者。個人、研究項目組或院系的成果展示,圖書館的研究成果收藏和列表。該方面的成果輸出很多,多是用于宣傳或項目資助者要求?膳c機構倉儲庫形成數(shù)據(jù)交換關系。
?用例4,出版者。主要指那些愿意幫助著者將他們出版的全文或全文URI提交到倉儲庫的出版者。一般是自動完成倉儲過程,在這方面的項目有OA-RJProject和European PEER Project。在這些項目中解決提交開放獲取的全文和全文的URI。
?用例5,倉儲庫的管理者。主要指機構倉儲庫管理者從學科倉儲庫獲得自己機構的學術產(chǎn)出,或者是從其他相關的機構倉儲庫中獲得本機構的學術產(chǎn)出?赏ㄟ^數(shù)據(jù)的交換協(xié)議完成。
?用例6,研究評估機構。研究評估機構會要求被評估機構提供詳盡的研究產(chǎn)出列表,RAE/REF驅(qū)動了機構完成本機構學術產(chǎn)出的倉儲管理。機構倉儲庫在研究評估中起著重要作用。
?用例7,其他用例。直接從國際知名數(shù)據(jù)庫,比如WoS或PubMed攝取元數(shù)據(jù),之后由作者補充相應的全文。盡管這個過程應包含在用例3中,但因為該過程較為特殊,所以單獨拿出來作為一種用例。
應該說詳細的用例分析和倉儲建設者補充的用例極大豐富了倉儲庫建設過程中可能的相關者和合作者,筆者參與所做的用例分析納入了SONEX項目。在此后的實踐中每個用例有相應的研究項目來保證在該用例下倉儲過程的有效實現(xiàn)。
3.2 重點用例分析
本文首先重點選擇分析出版者用例。BioMedCentral和Massachusetts Institute of Technology(MIT)圖書館共同開發(fā)了一個應用系統(tǒng)來同步出版BioMedCentral’s Journals中的學術成果到MIT的數(shù)字倉儲庫DSpace@MIT中。這個系統(tǒng)為了保證同步的效果,使用了Simple Web―service Offering Repository Deposit(SWORD)協(xié)議,SWORD協(xié)議允許機構倉儲庫接收BioMed Central的200多種期刊中最新出版的論文,不再需要著者重復在倉儲庫中提交論文。毫無疑問,SWORD極大地降低了倉儲的障礙,通過SWORD來倉儲是一個標準的過程,可以很方便地傳送元數(shù)據(jù)和全文。圖2顯示了BioMed Central’s SWORD倉儲服務的過程:
在這個過程中,可以看到文章一旦在BioMed Cen―tral Journal正式出版就通過SWORD輸入到機構倉儲庫中,這個過程避免了著者多次重復提交自己文章到不同數(shù)據(jù)庫中的過程。同樣地,ISI―WoS也支持通過SWORD協(xié)議將機構的篇名文摘信息傳送到指定的倉儲庫。SWORD協(xié)議是個重要的協(xié)議,如果更多的出版商采用這個協(xié)議,無疑將對倉儲庫的建設具有重大的意義
第二個重點分析的用例是用例1的詳細解決方案。OA-RJ項目目標是支持開放的倉儲過程,通過建設一個倉儲代理系統(tǒng)來支持對已有倉儲數(shù)據(jù)庫的互操作。這個項目著重解決用例1中多服務機構著者和多著者多機構論文的倉儲問題以及用例4中出版者開放論文的獲取和倉儲問題。其中Repository Junction工具獲取和判斷機構的信息,通過Broker方式將出版者或?qū)W科倉儲庫的相應論文提交到相應作者所在機構的倉儲庫中。
Broker Service與出版商的數(shù)據(jù)庫、學科倉儲庫之間使用SWORD協(xié)議獲取相應的數(shù)據(jù),Junction工具判斷機構名稱時利用了Names項目的成果。OA-RJ工作的流程圖見圖3。
這個項目的基本工作流程為:用戶和內(nèi)容的發(fā)現(xiàn);獲取或攝取數(shù)據(jù)包(元數(shù)據(jù)+對象數(shù)據(jù));判斷數(shù)據(jù)應倉儲到哪個目標倉儲庫;重新打包倉儲相應數(shù)據(jù)包到目標倉儲庫;發(fā)送成功倉儲的消息給倉儲庫的管理者。在實現(xiàn)發(fā)現(xiàn)功能時,Junction工具基于大量的數(shù)據(jù)源和算法來分析論文和那個倉儲庫有關。而Broker的功能是根據(jù)junction傳送的信息從出版商或?qū)W科倉儲庫獲得數(shù)據(jù)并分別送入合適的機構倉儲庫。數(shù)據(jù)傳送過程中可定制數(shù)據(jù)格式并通過SWORD協(xié)議傳送數(shù)據(jù)。
上面兩個項目只是眾多支持機構倉儲項目中的兩個項目,根據(jù)初步統(tǒng)計在支持方便倉儲和協(xié)同方面的項目有20多項,來自英國、美國、德國、荷蘭等國。倉儲庫的建設將在這些項目的支持下走上方便和快速發(fā)展的道路。
4. 數(shù)字倉儲庫的發(fā)展趨向
在UKCORR-discussion@jiscmail.ac.uk討論組中,對倉儲庫的描述和定位有多種多樣,其中Dorothea Salo整理的一些意見具有一定代表性。比如美國的倉儲庫更多是開放的全文,英國更多是服務于研究評估,所以英國倉儲庫存儲了大量的元數(shù)據(jù)而缺少全文。來自University of Lancaster&Northampton的意見認為因為CRIS系統(tǒng)的數(shù)據(jù)描述信息不準確,IR必須得做成果列表。Oxford University的意見認為IR過去是為了支持研究評估(RAE2008),現(xiàn)在應更多地注重收集全文。Oxford/Bodleian的意見認為IR的建設動機是數(shù)字資源保存,與REF是不同的。University of Warwick的意見認為RAE/REF是支持IR發(fā)展的機會。University ofSouthampton的意見認為IR系統(tǒng)應能被允許嵌入REF或CRIS系統(tǒng)。University of Nottingham的意見是RAE/REF和IR應該有不同的發(fā)展目標,IR中過低的全文 收集將影響OA的發(fā)展。
中國科學院國家科學圖書館大力推動的中國科學院機構倉儲庫群,強調(diào)研究所保存智力成果的責任和科學家共建資源的責任,推動機構倉儲庫的發(fā)展。在倉儲方式上也有考慮從其他渠道獲取元數(shù)據(jù)和全文資源。
Confederation of Open Access Repositories(COAR)2010年3月在馬德里召開了第一屆General Assembly會議(COAR成員單位現(xiàn)在有48家),討論推出了2010年12月前的工作計劃。11個議題中有兩個議題是關于數(shù)據(jù)的協(xié)同和交互的,其他包括倉儲庫的繼續(xù)推廣、最佳實踐指導文件、相關技術指引和提供、全球元數(shù)據(jù)倉庫以及與其他設施的合作和協(xié)同等。從會議的重點問題看,目前在倉儲庫建設中普遍關注的問題和趨向,一是重視全文的收集;二是重視成為RAE/REF的工具,重視與CRIS、REF系統(tǒng)形成良好的合作關系,并在某種程度上代替它們成為科研產(chǎn)出展示的工具。
數(shù)字倉儲庫的建設源自開放獲取活動,但倉儲庫在此后的發(fā)展中已超越了當初開放獲取賦予倉儲庫的角色范疇,倉儲內(nèi)容從傳統(tǒng)的論文發(fā)展到教育資源、數(shù)據(jù)、倉儲非正式出版的報告以及開放源碼等。數(shù)字倉儲庫的服務也在Creative Commons下具有了新的活力,在教育科研過程中產(chǎn)生的智力成果只要作者授權都可以提供開放的訪問和獲取。同時倉儲庫也不僅僅是簡單的倉儲數(shù)據(jù)的過程,在有關新的倉儲建設項目和研究項目中,可以看出支持建設的重點不再僅僅是倉儲技術本身,而更加注重機構的智力成果的管理和長期保存,關注智力成果的管理流程,注重在倉儲庫中收集各種類型的智力成果并有效保存。倉儲庫的建設目標有了更多的內(nèi)涵,比如IR就代替其他工具更多地成為展示本機構的科研產(chǎn)出和研究能力的平臺,成為一個機構核心知識資產(chǎn)的管理平臺,成為一個機構共享、知識交流學術和發(fā)布科研成果的學術空間。
Lynch C A關于IR的論述今天來看仍然有意義,大學或機構的倉儲庫是支持本機構數(shù)字資產(chǎn)的管理和分發(fā)的一套服務,大學或研究機構應承擔對這些資產(chǎn)進行長期有效保存、提供管理和獲取服務的責任。
倉儲庫的發(fā)展從技術完善走向?qū)嵺`,倉儲的對象主要就是原生的各種數(shù)字對象。倉儲庫的發(fā)展也將擺脫從單純文獻管理角度出發(fā)的倉儲建設方式。MichaelBuckland指出的在情報科學上存在兩種傳統(tǒng),文獻管理傳統(tǒng)偏重于文獻數(shù)據(jù)記錄的存檔、編目等,而計算傳統(tǒng)則重點發(fā)展數(shù)據(jù)計算、相關的計算算法和計算過程。在新的時代,倉儲庫不僅僅是數(shù)據(jù)記錄的管理和存儲,也開始偏向于數(shù)據(jù)計算,UK Repository Search項目應用文本挖掘技術去發(fā)現(xiàn)相關的倉儲文章?梢灶A見在倉儲庫的建設上這兩種情報傳統(tǒng)將有機融合并向前發(fā)展。
相關熱詞搜索:倉儲 數(shù)字 發(fā)展 數(shù)字倉儲庫的發(fā)展 易庫倉儲 一庫倉儲
熱點文章閱讀