【近五年國內(nèi)基于本體的數(shù)字圖書館研究綜述】近五年工作綜述
發(fā)布時間:2020-03-10 來源: 人生感悟 點擊:
[摘要]以2005年到2009年中國大陸基于本體的數(shù)字圖書館研究的文獻為分析對象,概括近五年來我國學(xué)者圍繞本體與數(shù)字圖書館的理論研究重點,并從本體的理論研究、本體的構(gòu)建、本體的映射等方面簡要回顧此時期我國在這一研究領(lǐng)域的進展與研究特點,總結(jié)出國內(nèi)研究的不足之處,并對未來發(fā)展趨勢進行分析。
[關(guān)鍵詞]本體 數(shù)字圖書館 綜述
[分類號]G250.76
近幾年,我國圖書情報界開始致力于研究本體在數(shù)字圖書館領(lǐng)域的應(yīng)用,以尋求數(shù)字圖書館在資源的高效組織、利用與共享等方面的新突破。本文利用清華同方cnki數(shù)據(jù)庫、維普數(shù)據(jù)庫和萬方數(shù)據(jù)庫作為檢索工具,查找出其中收集的2005―2009年五年里國內(nèi)發(fā)表的基于本體的數(shù)字圖書館研究的文獻。通過對這些文獻的分析,試圖描述出近五年來國內(nèi)學(xué)界在本體領(lǐng)域的研究進展,分析其特點與發(fā)展趨勢。
1 國內(nèi)基于本體的數(shù)字圖書館的研究內(nèi)容重點剖析
筆者以2005年到2009年為檢索時限,采用檢索式“篇名‘本體’篇名‘?dāng)?shù)字圖書館’”以及檢索式“篇名‘圖書館’關(guān)鍵詞‘本體”’在清華同方enki數(shù)據(jù)庫、維普數(shù)據(jù)庫和萬方數(shù)據(jù)庫中分別進行精確檢索,檢索結(jié)果經(jīng)匯總和去重,最終獲得基于本體的數(shù)字圖書館研究的期刊論文117篇,其中90余篇文章的研究主題主要集中于:論述數(shù)字圖書館中本體的理論研究、本體在數(shù)字圖書館信息檢索中的應(yīng)用、數(shù)字圖書館中基于本體的資源組織和整合、本體在數(shù)字圖書館個性化服務(wù)中的應(yīng)用、數(shù)字圖書館中本體的構(gòu)建以及本體映射等。具體而言,2005年以來,國內(nèi)基于本體的數(shù)字圖書館研究主要集中在以下六個方面:
1.1 本體的理論研究
國內(nèi)對本體的研究最初始于對本體的理論研究,目前,國內(nèi)學(xué)者對本體的概念已經(jīng)達成共識,均采用Borst提出的概念,即“本體是共享概念的形式化規(guī)范說明”。此次調(diào)研的論文中,很多學(xué)者對本體與分類法、元數(shù)據(jù)的關(guān)系及其對數(shù)字圖書館的影響等方面進行了研究。
1.1.1 本體與分類法、敘詞表和元數(shù)據(jù)的關(guān)系 由于Ontology是研究概念及概念間關(guān)系的,與圖書館學(xué)情報學(xué)中的規(guī)范化詞表有著許多的相似之處,因此引起國內(nèi)圖書館學(xué)情報學(xué)研究者的極大興趣。關(guān)于Ontolo一gy與傳統(tǒng)的分類法與敘詞表及元數(shù)據(jù)之間的區(qū)別與聯(lián)系的研究成為眾多研究人員共同關(guān)注的論題。
學(xué)者們認(rèn)為:分類法與敘詞表均采用規(guī)范的語言,具備一定的標(biāo)準(zhǔn)體例,結(jié)構(gòu)穩(wěn)定,相對保守,不易修改,可以表達簡單的語義關(guān)系;而本體中的概念采用自然語言或半自然語言來表達,是一個開放集成的體系,可以隨時修訂、更新和重用,描述的語義關(guān)系更為深入、廣泛。元數(shù)據(jù)和本體的共同之處是:采用標(biāo)準(zhǔn)編碼語言進行形式化處理,因而能為資源提供語義基礎(chǔ),可用于資源組織和資源發(fā)現(xiàn)。其差異表現(xiàn)為:元數(shù)據(jù)難以對不同知識體系、不同粒度的資源進行描述,而本體則提供了不同元數(shù)據(jù)之間的相互映射機制,可實現(xiàn)異構(gòu)系統(tǒng)之間的互操作。
1.1.2 本體對數(shù)字圖書館的影響 本體在圖書情報領(lǐng)域的很多方面都有應(yīng)用,例如文獻標(biāo)引、知識管理、知識庫構(gòu)建、圖書館信息資源構(gòu)建等等。尤其在數(shù)字圖書館研究和建設(shè)中,本體發(fā)揮著重要作用,本體正被應(yīng)用于其中的各個方面,例如信息組織、信息檢索和異構(gòu)信息系統(tǒng)的互操作等。學(xué)者們認(rèn)為,隨著圖書情報學(xué)理論及信息技術(shù)的發(fā)展,各個學(xué)科領(lǐng)域?qū)霈F(xiàn)各自的特有本體,這也將給傳統(tǒng)的信息組織和信息利用帶來一次根本的變革。
1.2 基于本體的信息檢索技術(shù)研究
概括地講,本體在信息檢索中能夠較好地改進信息檢索系統(tǒng)性能,表現(xiàn)在:①具有集成結(jié)構(gòu)化文檔、半結(jié)構(gòu)化文檔和關(guān)系數(shù)據(jù)庫的知識,提供機器能夠理解的語義知識。②支持術(shù)語的語義推理,分析用戶提問中所包含術(shù)語的意義,理解用戶的問題。③通過概念間的關(guān)系來表示概念語義,從而能夠提高檢索的查全率和查準(zhǔn)率。④在檢索過程中和檢索結(jié)果顯示時可為用戶提供語義提示,更好地實現(xiàn)與用戶的交互。
在此次調(diào)研的文獻中,有18篇文獻是研究本體在圖書館信息檢索中的應(yīng)用,由此可見,基于本體的檢索是數(shù)字圖書館研究的一大熱點,通過調(diào)研發(fā)現(xiàn),國內(nèi)對本體在信息檢索中的應(yīng)用主要體現(xiàn)在以下幾個方面:研究基于本體的數(shù)字圖書館個性化知識檢索的問題,構(gòu)建基于本體的個性化知識檢索模型;研究數(shù)字圖書館中智能檢索實驗系統(tǒng)的構(gòu)建問題,通過在基于本體的數(shù)字圖書信息檢索模型中提出關(guān)聯(lián)檢索,并利用貝葉斯網(wǎng)絡(luò)給出解決方案;研究基于本體的圖像檢索方法,并構(gòu)建圖像本體;從體系結(jié)構(gòu)、語義提取等方面對基于本體的數(shù)字圖書館檢索模型進行了詳細的研究。
1.3 基于本體的個性化服務(wù)研究
個性化信息服務(wù)的關(guān)鍵是能夠為用戶提供有針對性的資源。本次調(diào)研的文獻表明,將本體應(yīng)用在用戶服務(wù)中,不僅能提供個性化服務(wù),還能提高服務(wù)的效率和質(zhì)量。為了能夠向用戶提供個性化的信息服務(wù),基于本體的數(shù)字圖書館個性化信息服務(wù)系統(tǒng)必須為每個用戶建立一個用戶描述文件來描述用戶的興趣特征,用戶興趣的收集可以在用戶注冊自己的興趣和愛好的基礎(chǔ)上再通過分析用戶的檢索請求及跟蹤用戶行為和對用戶的日志挖掘來獲得用戶興趣特征,從而對用戶興趣建模,并且系統(tǒng)對用戶的興趣模型能夠不斷更新:鮑翠梅引入本體對信息資源和用戶興趣特征進行描述,提出了在語義層次上實現(xiàn)數(shù)字圖書館個性化信息服務(wù)的系統(tǒng)框架模型。陳燕、孔季在構(gòu)建用戶興趣本體的基礎(chǔ)上,結(jié)合語義網(wǎng)格中的關(guān)鍵理論和技術(shù),構(gòu)建了四層體系架構(gòu)的智能化數(shù)字圖書館新書通報推送服務(wù)系統(tǒng)模型以及系統(tǒng)實現(xiàn)的整個流程。由于可以通過構(gòu)建本體的方式對異構(gòu)數(shù)據(jù)建立語義關(guān)系,因此該系統(tǒng)可以更加靈活、準(zhǔn)確地對本體間的概念進行相似度計算和過濾,得到與用戶興趣需求利用本體完成智能化的新書通報匹配,將相匹配的新書通報結(jié)果推送給用戶。
通過調(diào)研發(fā)現(xiàn),目前數(shù)字圖書館中基于本體的個性化服務(wù)研究前沿集中在用戶情景敏感建模。用戶情景敏感的數(shù)字圖書館服務(wù)是根據(jù)用戶特定信息活動情景自動揭示、推薦可使用資源和服務(wù)的一種數(shù)字圖書館個性化服務(wù),充分考慮了用戶身份、行為、關(guān)注對象及偏好等。用戶情景建模是指對用戶情景信息及其特定情景的信息活動信息進行可計算的描述。李書寧利用OWL對用戶情景敏感服務(wù)所要描述的個人信息情景、信息行為情景、處理資源情景、時間歷史情景和接受服務(wù)情景這五大類情景進行本體建模,并對情景模型的初建和更新進行了探討。
1.4 本體的構(gòu)建研究
對本體的研究不應(yīng)該僅僅局限在理論模型方面,更重要的是應(yīng)該進行實際操作――構(gòu)建本體,并將其應(yīng)用到數(shù)字圖書館中。目前,國內(nèi)學(xué)者構(gòu)建本體的方法主要有兩種:
1.4.1 采用完全手工的方法構(gòu)建本體 即在領(lǐng)域?qū)? 家的幫助下用本體描述語言將本體描述出來。實際上所謂的手工創(chuàng)建本體,并不是完全依靠手工創(chuàng)建,而是通過本體編輯工具來輔助實現(xiàn)。調(diào)研顯示,國內(nèi)已經(jīng)有許多學(xué)者利用本體語言和編輯工具,結(jié)合自己研究領(lǐng)域的實際情況,構(gòu)建領(lǐng)域本體。如彭蕾基于本體OWL語言,采用Protge開發(fā)工具,以石棉制品特色庫為例,構(gòu)建了一個本體模型應(yīng)用實例。歐陽寧、包平利用本體構(gòu)建工具Protege進行了《中國圖書館分類法》部分類目的可視化實踐。牟冬梅以醫(yī)學(xué)領(lǐng)域的預(yù)防醫(yī)學(xué)為例,研究語義網(wǎng)格環(huán)境下數(shù)字圖書館領(lǐng)域本體的構(gòu)建與應(yīng)用。
1.4.2 采用自動化的或半自動化的方法構(gòu)建本體即從詞典或結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)或文本中抽取或?qū)W習(xí)或發(fā)現(xiàn)領(lǐng)域本體。根據(jù)本體學(xué)習(xí)的知識源的不同。對于采用自動化或半自動化的方法構(gòu)建領(lǐng)域本體的方法進行分類:從詞典進行本體學(xué)習(xí),將構(gòu)建本體建立在已有的機器可讀的詞典的基礎(chǔ)上,從中抽取相關(guān)的概念和概念間的關(guān)系;從知識庫中進行學(xué)習(xí),通過從已有知識庫中學(xué)習(xí)來構(gòu)建本體;從關(guān)系數(shù)據(jù)庫中抽取本體;從半結(jié)構(gòu)化的數(shù)據(jù)學(xué)習(xí);從文本中學(xué)習(xí)等。如劉柏嵩提出一種面向數(shù)字圖書館的本體自動構(gòu)建方法,包括術(shù)語選擇、抽取本體概念、語義關(guān)系抽取、分類體系構(gòu)建、本體構(gòu)建和本體修剪及評價。自動提取領(lǐng)域本體的基本流程可概括為:①從知識源中提取有代表性的概念,形成領(lǐng)域本體中的概念;②通過分析概念的屬性和聚類中元素與其他元素的關(guān)系提取本體中的概念關(guān)系;③解決概念間關(guān)系的沖突。
1.5 基于本體的信息資源組織和整合研究
信息資源整合是實現(xiàn)數(shù)字圖書館建設(shè)目標(biāo)的關(guān)鍵,而信息資源的整合涉及諸多快速發(fā)展的新技術(shù)和新方法,本體就是這些新方法之一。數(shù)字圖書館信息資源包括許多層次,如文本文獻信息資源、多媒體信息資源及知識管理倉庫等。基于此,目前基于本體的數(shù)字圖書館信息資源構(gòu)建是一個多層次的體系,從宏觀上包括三個層次結(jié)構(gòu),即基于本體的文獻信息資源構(gòu)建、Web信息資源構(gòu)建及知識管理中知識庫的構(gòu)建等。如張敏勤討論了基于本體的數(shù)宇圖書館信息資源構(gòu)建可操作的方法體系。王軍探討了基于XML本體語言描述的數(shù)字圖書館Web信息資源整合系統(tǒng)的功能及其實現(xiàn)途徑。
此外,利用本體可以對信息資源進行動態(tài)組織,在檢索系統(tǒng)中,將文獻的標(biāo)識與用戶的提問進行有效地對接,即以用戶提問為基礎(chǔ)構(gòu)造提問模型,并基于檢索結(jié)果構(gòu)造標(biāo)識模型,將提問模型與標(biāo)識模型在語義層面通過領(lǐng)域本體進行映射,從而實現(xiàn)文獻標(biāo)識與用戶提問在語義層面的互通,最終以用戶提問的語義方式來展現(xiàn)檢索結(jié)果。
1.6 本體的映射研究
現(xiàn)在本體的應(yīng)用越來越多,但由于語義網(wǎng)的分布式特點,造成了大量本體間的異構(gòu)性,這種存在于不同信息源本體之間的異構(gòu)現(xiàn)象,成為系統(tǒng)相互理解、信息交換、實現(xiàn)互操作的主要障礙之一。要想完成信息交流的任務(wù)就必須在本體之間架起語義映射的橋梁。本體映射能很好地解決本體異構(gòu)問題。它是發(fā)現(xiàn)兩個相同領(lǐng)域本體的概念之間的相關(guān)性(映射關(guān)系)的過程,同時本體映射也是本體集成、本體合并、本體修正、本體翻譯的技術(shù)基礎(chǔ)。為解決異構(gòu)本體間映射問題,國內(nèi)研究人員已經(jīng)提出了不少的映射方法和映射技術(shù),如畢強、韓毅基于語義網(wǎng)格技術(shù),探索基于元數(shù)據(jù)本體的數(shù)字圖書館系統(tǒng)間的互操作策略,提出下一代數(shù)字圖書館系統(tǒng)間互操作框架――基于元數(shù)據(jù)本體的DL互操作框架。劉成山、趙捧未給出了對等網(wǎng)環(huán)境下數(shù)字圖書館的一種本體映射算法,從語法、詞匯和語境三個方面進行概念的匹配,重點提出了語境用于相似度計算,并通過仿真實驗表明系統(tǒng)的構(gòu)建和映射算法是有效的。
2 國內(nèi)基于本體的數(shù)字圖書館研究的特點與不足
在此次調(diào)研過程中,筆者發(fā)現(xiàn)國內(nèi)有關(guān)此主題的研究體現(xiàn)出一定的特點,也存在需要完善的地方:
2.1 國?基于本體的數(shù)字圖書館研究的特點
2.1.1 數(shù)量增長迅速,核心作者群初步形成 如前文分析,雖然國內(nèi)基于本體的數(shù)字圖書館研究逐年升溫,而且研究論文數(shù)量增長迅速。同時出現(xiàn)了如董慧等帶領(lǐng)的團隊對本體的跟蹤研究,核心作者群已經(jīng)初步形成,核心作者群的存在與否以及核心作者數(shù)量的多寡在一定程度上可以反映出一個研究主題的成熟程度?梢,目前國內(nèi)多數(shù)學(xué)者對這一研究主題的研究正在升溫。
2.1.2 研究內(nèi)容逐漸與具體應(yīng)用靠攏 從目前的研究特點分析,國內(nèi)圍繞本體與數(shù)字圖書館的研究已經(jīng)逐漸從理論性介紹發(fā)展到本體在數(shù)字圖書館的各種實際應(yīng)用。在研究初期,經(jīng)常會出現(xiàn)諸如本體對數(shù)字圖書館的影響等這樣內(nèi)容的一些文獻,而隨著學(xué)者對本體研究的不斷深入,從資源組織、信息檢索、個性化服務(wù)、映射技術(shù)等更加細化的研究角度開展此主題的研究正在成為主流。
2.2 國?基于本體的數(shù)字圖書館研究的不足
雖然本體在人工智能、知識表示中已經(jīng)被廣泛地討論和實踐,但在我國圖書館情報界及數(shù)字圖書館研究領(lǐng)域中的研究僅僅局限在概念的界定和初步的理論研究層面上,對于本體的方法論、描述語言、構(gòu)建工具、具體構(gòu)建缺乏實踐。從此次調(diào)研的結(jié)果分析,盡管文章的數(shù)量反映了國內(nèi)學(xué)界或業(yè)界對基于本體的數(shù)字圖書館研究較為熱烈,但多數(shù)文章僅僅是從理論上加以探討,構(gòu)建本體和其應(yīng)用系統(tǒng)開展的研究不多。有許多文獻只是簡單提出了基于本體的一些模型或者機制,缺乏對本體實際應(yīng)用的深刻理解。僅有少數(shù)的幾篇文獻真正在實踐中構(gòu)建了本體,并應(yīng)用到數(shù)字圖書館中,事實上,正是這樣的研究才真正有利于推動國內(nèi)數(shù)字圖書館在建設(shè)上更好地引進本體、應(yīng)用本體。
3 國內(nèi)基于本體的數(shù)字圖書館研究未來發(fā)展趨勢
根據(jù)上述所分析的國內(nèi)基于本體的數(shù)字圖書館研究的不足之處,加之對國外近年來關(guān)于本體的研究成果分析,筆者認(rèn)為,未來國內(nèi)基于本體的數(shù)字圖書館研究可能有以下幾個方面的趨勢:
利用本體技術(shù)實現(xiàn)深層次的個性化服務(wù)。目前國內(nèi)對基于本體的個性化服務(wù)集中在用戶建模、個性化推薦系統(tǒng)等方面,未來研究點有:如何在用戶本體中精確地體現(xiàn)用戶興趣衰減問題、如何進一步完善個性化推薦規(guī)則、如何綜合應(yīng)用各種推薦技術(shù)的個性化本體學(xué)習(xí)資源推薦策略,即基于內(nèi)容的推薦技術(shù)和協(xié)同過濾技術(shù)有效整合,從而實現(xiàn)在不同的情境下采用不同的推薦技術(shù)。用戶情景敏感的數(shù)字圖書館服務(wù)涉及用戶情景的獲取、情景建模描述、情景推理、情景服務(wù)等多個方面。目前國內(nèi)研究只是對其中用戶情景建模進行了初步的探討,用戶情景建模的結(jié)果實際上就是構(gòu)建一個用戶情景敏感數(shù)字圖書館服務(wù)用戶情景本體,本體的具體構(gòu)建需要在現(xiàn)有情景要素的基礎(chǔ)上繼續(xù)細化,深入把握情景要素之間的關(guān)系,情景獲取算法和推理算法也是需要未來深入展開研究。
研發(fā)本體的自動化構(gòu)建方法。在本體構(gòu)建方面,目前國內(nèi)存在的絕大多數(shù)本體都是手工生成的,即 在領(lǐng)域?qū)<业膸椭掠帽倔w描述語言將本體描述出來,并通過本體編輯工具來輔助實現(xiàn),該方法費時費力,還容易出錯,更難維護和更新。由于數(shù)字圖書館中信息量巨大、主題繁多,研究如何自動化、半自動化生成本體具有重大的意義。如何確立本體動態(tài)構(gòu)建機制,如何進行本體的自動化構(gòu)建、更新,如何利用本體理論和與語義網(wǎng)技術(shù)設(shè)計更加有效的本體構(gòu)建算法將成為未來本體構(gòu)建的研究趨勢。
開發(fā)本體的自動化映射。本體映射已經(jīng)是語義網(wǎng)發(fā)展過程中存在的一個重要問題,國外在這方面的研究已經(jīng)取得了不少的成果,如大規(guī)模本體映射方法研究、快速映射模型研究等,而國內(nèi)這方面的研究相對還較少。目前幾乎所有的算法案例中采用的都是專家人工輸入,不同本體映射的半自動化和自動化的研究取得的成就十分有限,這是今后該領(lǐng)域研究王作的一個重點。
4 結(jié) 語
國內(nèi)外學(xué)界和業(yè)界對本體的研究與實踐不僅拓展了本體在數(shù)字圖書館的應(yīng)用空間,同時也提升了數(shù)字圖書館在資源組織、服務(wù)個性化等方面的能力。通過調(diào)研發(fā)現(xiàn),本體研究已經(jīng)是國內(nèi)數(shù)字圖書館研究的核心部分,近五年來國內(nèi)基于本體的數(shù)字圖書館研究主要集中在個人化服務(wù)、信息檢索技術(shù)、本體的構(gòu)建、信息資源組織與整合、本體的映射等幾個方面。未來,如何利用本體提供深層次個性化服務(wù)、如何自動化構(gòu)建本體、如何開發(fā)本體映射方法等將是從事此研究主題的學(xué)者專家探討的熱點。
參考文獻:
[1]嚴(yán)青,ontology及其在圖書館情報領(lǐng)域中應(yīng)用之綜述。黑龍江
科技信息,2008(35);18l-182
[2]喬燕鴻,國內(nèi)圖書館學(xué)情報學(xué)領(lǐng)域關(guān)于Ontology的研究綜述,
現(xiàn)代情報,2006(9):121-124
[3]彭駿,陸敏,楊發(fā)毅,基于本體的數(shù)字圖書館個性化知識檢索研
究,情報理論與實踐,2009(5):78―80
[4]謝圣獻數(shù)字圖書館中關(guān)聯(lián)檢索研究,情報雜志,2008(1):126-127
[5]賈保先,謝圣獻,解方文,等,數(shù)字圖書館中基于本體的圖像檢
索,情報雜志,2008(7):2―24
[6]董慧,楊寧,余傳明,等基于本體的數(shù)字圖書館檢索模型研究
(I)――體系結(jié)構(gòu)解析,情報學(xué)報,2006(3):16-18
[7]董慧,余傳明,楊寧,等,基于本體的數(shù)字圖書館檢索模型研究(Ⅲ)――歷史領(lǐng)域資源本體構(gòu)建,情報學(xué)報,2006(5):18―20
[8]鮑翠梅,基于本體的數(shù)字圖書館個性化信息服務(wù)研究,現(xiàn)代情報,2009(5):77―79,84
[9]陳燕,幾季基于語義網(wǎng)格的數(shù)字圖書館新書通告推送服務(wù)系統(tǒng)研究,圖書館學(xué)研~,2009(8):38―41
[10]李書寧情景敏感數(shù)字圖書館服務(wù)系統(tǒng)用戶情景的本體建模。 情報資料工作,2008(6):61-65
[11]彭蕾。本體論在數(shù)字圖書館領(lǐng)域的應(yīng)用研究――以石棉制品特 色庫為例,科技情報開發(fā)與經(jīng)濟,2009(19):1-4
[12]歐陽寧,包平,基于本體《中國圖書館分類法》的可視化實現(xiàn),圖書館雜志,2008(1):28―32
[13]牟冬梅,范軼,數(shù)字圖書館領(lǐng)域本體的構(gòu)建與推理――以醫(yī)學(xué)領(lǐng)域本體為例,圖書情報工作,2007,51(8):26―30
相關(guān)熱詞搜索:五年 本體 綜述 近五年國內(nèi)基于本體的數(shù)字圖書館研究綜述 國內(nèi)數(shù)字知識服務(wù)研究綜述 中國美術(shù)基綜述知識
熱點文章閱讀