數(shù)字圖書館系統(tǒng) [數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用]
發(fā)布時(shí)間:2020-03-07 來源: 人生感悟 點(diǎn)擊:
[摘要]將智能技術(shù)在數(shù)字圖書館中的應(yīng)用歸納為智能信息訪問、智能信息搜索、個(gè)性化信息服務(wù)、信息代理以及語義網(wǎng)和社會(huì)網(wǎng)絡(luò)應(yīng)用等5個(gè)方面,重點(diǎn)介紹前三個(gè)方面的智能技術(shù)在數(shù)字圖書館建設(shè)中的實(shí)踐案例,給出具體應(yīng)用的體系結(jié)構(gòu)和關(guān)鍵技術(shù)。
[關(guān)鍵詞]數(shù)字圖書館智能技術(shù)應(yīng)用
[分類號(hào)]G250
1 引言
數(shù)字圖書館智能技術(shù),實(shí)質(zhì)是智能信息技術(shù)在數(shù)字圖書館系統(tǒng)建設(shè)中的應(yīng)用。所謂智能技術(shù),是指為了有效地達(dá)到某種預(yù)期的目的,用計(jì)算機(jī)模仿人腦的功能,進(jìn)行規(guī)劃、推理、學(xué)習(xí)等思維活動(dòng),解決由人腦才能處理好的復(fù)雜問題的一系列相關(guān)技術(shù)。有關(guān)智能技術(shù)的研究,如果從1956年正式提出人工智能學(xué)科算起,已經(jīng)有50多年的歷史了。自美國于20世紀(jì)90年代初期提出“數(shù)字圖書館”概念開始,數(shù)字圖書館領(lǐng)域就十分重視智能技術(shù)在數(shù)字圖書館中的應(yīng)用。例如,1994年啟動(dòng)的“美國數(shù)字圖書館創(chuàng)新計(jì)劃(DLll)”就已經(jīng)開始強(qiáng)調(diào)智能技術(shù)的應(yīng)用。
但是,從總體上看,在相當(dāng)長的時(shí)間里,數(shù)字圖書館領(lǐng)域的智能技術(shù)主要還是處于研究階段,研究成果基本上停留在實(shí)驗(yàn)室,表現(xiàn)在實(shí)驗(yàn)系統(tǒng)中,投入到實(shí)際應(yīng)用中的還很少。著名的圖書情報(bào)學(xué)者F.W.Lan-easter和J.Warner在他們2001年所著《圖書館與信息服務(wù)應(yīng)用的中智能技術(shù)》一書中做過這樣的總結(jié):“專家系統(tǒng)或‘智能技術(shù)’在圖書館中的應(yīng)用已經(jīng)在文獻(xiàn)中有許多探討,但是,這帶來了很多誤導(dǎo)。已經(jīng)發(fā)展成‘運(yùn)行’狀態(tài)――即在日常工作中發(fā)揮作用并向圖書館工作人員或用戶提供實(shí)際服務(wù)――的系統(tǒng)幾乎是不存在的”。Lancaster等人的結(jié)論,的確反映了上個(gè)世紀(jì)智能技術(shù)在數(shù)字圖書館實(shí)踐中應(yīng)用的狀況。
然而,進(jìn)人21世紀(jì)以后,隨著數(shù)字圖書館研究的發(fā)展和實(shí)踐經(jīng)驗(yàn)的積累,數(shù)字圖書館中的智能技術(shù)已經(jīng)開始逐漸走出實(shí)驗(yàn)室,投入到實(shí)際運(yùn)行的數(shù)字圖書館系統(tǒng)中,成為了當(dāng)前數(shù)字圖書館技術(shù)和數(shù)字圖書館系統(tǒng)發(fā)展與建設(shè)的一種趨勢。
本文目的不是系統(tǒng)地綜述這一領(lǐng)域研究進(jìn)展,而是重點(diǎn)介紹一些實(shí)際應(yīng)用案例,用應(yīng)用案例來說明智能技術(shù)在數(shù)字圖書館建設(shè)實(shí)踐中應(yīng)用的實(shí)際,所舉的示例都是已經(jīng)投入了實(shí)際使用的公開的數(shù)字圖書館系統(tǒng),可以從所提供的網(wǎng)址進(jìn)入其系統(tǒng)界面,其中有些可以從網(wǎng)上下載其完整的系統(tǒng)代碼。本文不涉及僅有文獻(xiàn)報(bào)道的研究及其實(shí)驗(yàn)系統(tǒng)以及沒有具體公開應(yīng)用的開源系統(tǒng)。
2 數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用
目前,從國內(nèi)外數(shù)字圖書館建設(shè)和研究的實(shí)際情況來看,已經(jīng)初步形成了智能信息訪問、智能信息搜索、個(gè)性化信息服務(wù)、信息代理以及語義網(wǎng)和社會(huì)網(wǎng)絡(luò)應(yīng)用等數(shù)字圖書館智能技術(shù)的熱點(diǎn)研究領(lǐng)域,其中前三個(gè)領(lǐng)域中的研究成果,已經(jīng)部分地投入實(shí)際應(yīng)用。
2.1智能信息訪問
智能信息訪問(Intelligent Information Access,IlA)是指利用人類知識(shí)或類人智能,有效和充分地訪問大規(guī)模、分布式、異構(gòu)和多語言(目前主要是文本)信息資源。換句話說,凡是應(yīng)用人的智能進(jìn)行檢索、理解、綜合或抽取信息的信息訪問技術(shù),都被認(rèn)為是智能信息訪問技術(shù)。
2006年,歐洲的PASCAL將IIA列為專題計(jì)劃(Thematic Programme),并于2006年7月6日至8日在芬蘭首都赫爾辛基召開了國際智能信息訪問研討會(huì)(HIA-2006)。從相關(guān)的文獻(xiàn)及會(huì)議內(nèi)容來看,HA主要包括文檔自動(dòng)分類與聚類、文檔概要、信息抽取、跨語言檢索、問題應(yīng)答、整合與可視化等6個(gè)子領(lǐng)域。
從上述IIA的研究領(lǐng)域來看,研究范圍較為廣泛,其中的每一個(gè)子領(lǐng)域都比較多的研究成果,在數(shù)字圖書館系統(tǒng)中也有一些實(shí)際應(yīng)用,這里不一一列舉,著重介紹一個(gè)比較綜合的開源項(xiàng)目Lemur。
Lemur是美國卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所和美國馬薩諸塞大學(xué)智能信息檢索中心開發(fā)的一個(gè)開放源碼項(xiàng)目,其目標(biāo)是促進(jìn)語言建模和信息檢索方面的研究,包括特定目標(biāo)檢索、分布式檢索、跨語言檢索、自動(dòng)概要、信息過濾和文本分類等技術(shù)的研究。圖1顯示了Lemur的功能結(jié)構(gòu)。
從圖1中可以看出,Lemur主要由索引模塊和檢索模塊組成,同時(shí)提供簡單的用戶界面和應(yīng)用程序接口,因此,Lemur不僅僅是一個(gè)獨(dú)立的系統(tǒng),而且是一個(gè)程序接口庫API,用戶可以根據(jù)自己的要求調(diào)用其索引方法和檢索方法,從而達(dá)到預(yù)定的目的。
Lemur最大特點(diǎn)是支持多種語言模型,不僅支持較為傳統(tǒng)的向量空間、TF/IDF、Okapi、InQuery等模型,而且支持基于統(tǒng)計(jì)的語言模型如KL-divergence、相關(guān)度模型等。加上Lemur可以處理多種格式的文本(平面文本、HTML、XML、PDF、Microsoft Word、MicrosoftPowerPoint、TREC Text、TREC Web以及MBox)和多種語言的文本(可以處理英文、中文和阿拉伯文的文本),這使得Lemur有強(qiáng)大的智能處理功能以及多文本處理適應(yīng)性,從而能夠完成HA領(lǐng)域中的大多數(shù)工作,包括常規(guī)文本檢索、段落檢索、分布式檢索(基于查詢?nèi)拥臄?shù)據(jù)源描述以及基于CORI算法的數(shù)據(jù)源選擇等)、跨語言檢索、文檔聚類、文檔概要等。
Lemur的技術(shù)在美國國家科學(xué)、數(shù)學(xué)、工程和技術(shù)教育數(shù)字圖書館(NSDL)、美國國會(huì)圖書館的“美國記憶”(American Memory)、歐盟的“多媒體國際數(shù)字圖書館”(MIND)項(xiàng)目”0中均有應(yīng)用。
Lemur的代碼可以從http://www.省略/上獲得。
2.2智能信息搜索
智能信息搜索是根據(jù)用戶的意圖,在特定的網(wǎng)絡(luò)空間上應(yīng)用人的智能對(duì)信息進(jìn)行處理(如查詢、理解、綜合或抽取),從而發(fā)現(xiàn)、下載與用戶需求相關(guān)的信息。與普通搜索引擎相比,智能信息搜索更注重對(duì)用戶需求以及搜索內(nèi)容的理解,旨在確保搜索到的內(nèi)容符合用戶需求。
除在計(jì)算機(jī)領(lǐng)域召開的國際學(xué)術(shù)會(huì)議中對(duì)智能搜索問題進(jìn)行探討以外,2004年在德國召開的“第七屆比勒費(fèi)爾德國際會(huì)議”專門舉辦了題為“數(shù)字圖書館與信息門戶中智能搜索引擎及導(dǎo)航技術(shù)”的專題研討會(huì)。概括地說,智能信息搜索的主要研究內(nèi)容包括資源理解技術(shù)、查詢理解技術(shù)、用戶需求理解技術(shù)以及智能搜索策略等幾個(gè)方面。
加州大學(xué)圖書館開發(fā)的Nalanda iVia FocusedCrawler(NiFC),是一個(gè)面向主題(專題)的智能搜索系統(tǒng),它可以根據(jù)圖書館工作人員指定的主題樣例(即種子站點(diǎn)或種子URL)自動(dòng)發(fā)現(xiàn)Web上的主題相關(guān)信息,圖2顯示了NiFC的結(jié)構(gòu):
從圖2中可以看出,NiFC使用了兩種類型的分類器;一種是學(xué)習(xí)模式的分類器,它利用NiFC存儲(chǔ)在系統(tǒng)“分類表”中的內(nèi)置分類體系以及存儲(chǔ)在“樣例表”的URL指定的種子站點(diǎn)進(jìn)行學(xué)習(xí),建立Web文檔的分 類模型,爬行器進(jìn)而據(jù)此判斷采集到的文檔是否屬于預(yù)定的主題,從而確定應(yīng)該采集回來那些文檔;另一種分類器是過濾模式的分類器,它的功能是分析采集回來的Web文檔中的鏈接與采集要求的相關(guān)性,根據(jù)網(wǎng)頁鏈接與預(yù)定主題的相關(guān)度來維護(hù)一個(gè)鏈接優(yōu)先級(jí)隊(duì)列,確保與預(yù)定主題相關(guān)度大的鏈接能夠被先訪問。NiFC的另一項(xiàng)特色技術(shù)是鏈接分析技術(shù),采用了HITS和PageRank相結(jié)合的算法來提高爬行效率。此外,NiFC還提供了一個(gè)用戶界面,允許用戶根據(jù)當(dāng)前的采集結(jié)果調(diào)整相應(yīng)的類別和樣例,以便更好地訓(xùn)練分類器,使之建立的分類模型更加符合用戶的需求,這實(shí)質(zhì)是一個(gè)用戶的反饋過程。
NiFC是加州大學(xué)圖書館開發(fā)的開源系統(tǒng)iVia的四個(gè)組成部分之一(另外三個(gè)組成部分分別是iVia虛擬圖書館軟件、DataFountains以及iVia c++接口庫)。加州大學(xué)圖書館的INFOMINE系統(tǒng)則是利用iVia構(gòu)建起來的Internet資源的虛擬圖書館,該系統(tǒng)面向大學(xué)教師、學(xué)生和研究人員服務(wù),資源類型包括網(wǎng)絡(luò)上的數(shù)據(jù)庫、電子期刊、電子圖書、公告、郵件列表、圖書館聯(lián)機(jī)目錄、網(wǎng)絡(luò)文章、研究人員人名錄以及其他類型的信息資源。INFOMINE系統(tǒng)的特點(diǎn)之一是利用NiFC來自動(dòng)地爬行和識(shí)別相關(guān)的Internet資源。
iVia的源碼可以從http://ivia.ucr.edu/中獲得。
2.3個(gè)性化服務(wù)
個(gè)性化服務(wù)是指以用戶為中心,根據(jù)用戶提出的明確要求,或基于用戶的學(xué)科、偏好、興趣等個(gè)人特征,通過用戶定制、系統(tǒng)推薦和推送等方式,主動(dòng)向用戶提供其可能需要的信息和服務(wù)。
個(gè)性化服務(wù)的思想來源于電子商務(wù)領(lǐng)域,隨著數(shù)字圖書館的發(fā)展,個(gè)性化服務(wù)的概念被引入到圖書情報(bào)領(lǐng)域,并得到了廣泛的重視,2007年DELOS的第10屆專題研討會(huì)的主題就是“數(shù)字圖書館中的個(gè)性化訪問、模型管理和環(huán)境感知”。總體上說,目前數(shù)字圖書館個(gè)性化服務(wù)技術(shù)的主要研究內(nèi)容為用戶建模、用戶信息收集、信息推送等三個(gè)大的方面。
意大利烏迪內(nèi)大學(xué)開發(fā)的個(gè)性化服務(wù)系統(tǒng)Bib-lioMed,綜合運(yùn)用了上述用戶建模技術(shù)、用戶信息收集技術(shù)以及信息推送技術(shù),是一個(gè)已經(jīng)投入實(shí)際使用的數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)。該系統(tǒng)可以提供的資源包括醫(yī)學(xué)數(shù)據(jù)庫(如PubMed等)、聯(lián)機(jī)醫(yī)學(xué)期刊、網(wǎng)上書店資源(如Amazon等)、烏迪內(nèi)大學(xué)及相關(guān)機(jī)構(gòu)的圖書館目錄、醫(yī)學(xué)網(wǎng)絡(luò)資源門戶以及醫(yī)學(xué)論壇、博客、名錄等。圖3顯示了BiblioMed系統(tǒng)的結(jié)構(gòu):
在BiblioMed中,允許最終用戶以文檔片段的方式提交自己感興趣的信息,例如用戶可以將其感興趣的文章作為樣本,提交給系統(tǒng)。ifMONITOR模塊用語詞共現(xiàn)技術(shù)對(duì)用戶提交的樣本文檔進(jìn)行分析,形成由共現(xiàn)詞對(duì)來表達(dá)的用戶興趣模型。當(dāng)元搜索模塊和期刊搜索模塊發(fā)現(xiàn)有新的文獻(xiàn)時(shí),iIMONITOR模塊對(duì)新文獻(xiàn)進(jìn)行處理,得到基于語詞共現(xiàn)的文檔內(nèi)容表示,并將這種文檔內(nèi)容表示與已有的用戶模型做匹配,將匹配結(jié)果大于一定閾值的文獻(xiàn)作為符合用戶需求的文獻(xiàn)主動(dòng)推送給用戶。
BiblioMed系統(tǒng)于2006年開發(fā)完成,部署在烏迪內(nèi)大學(xué)圖書館和烏迪內(nèi)醫(yī)院,當(dāng)年即有l(wèi) 250名注冊(cè)用戶,平均每天的信息推送服務(wù)超過了70名用戶。目前BiblioMed系統(tǒng)還在不斷地進(jìn)行改進(jìn),根據(jù)用戶的反饋,提升系統(tǒng)的性能并增加服務(wù)項(xiàng)目和服務(wù)方式。
4 結(jié)語
正如本文開始所說的那樣,自從數(shù)字圖書館這個(gè)概念出現(xiàn)的那一天開始,研究人員就一直試圖引入智能化技術(shù),以提高數(shù)字圖書館的服務(wù)性能,因而,這方面的研究成果很多,發(fā)表的文章無數(shù),也有很多實(shí)驗(yàn)性的系統(tǒng)。本文所舉的實(shí)例可能不是眾多研究中最好的,但它們卻是實(shí)實(shí)在在投入實(shí)用的系統(tǒng),能夠真實(shí)地反映智能技術(shù)在當(dāng)前數(shù)字圖書館建設(shè)中的應(yīng)用現(xiàn)狀?梢灶A(yù)見,隨著研究人員對(duì)現(xiàn)有研究成果的總結(jié)和提煉,在不久的將來,數(shù)字圖書館的智能化水平將會(huì)被提升到一個(gè)新的高度。
相關(guān)熱詞搜索:數(shù)字圖書館 智能 建設(shè) 數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用 人工智能技術(shù)應(yīng)用于數(shù)字展廳設(shè)計(jì) 人工智能與設(shè)計(jì)
熱點(diǎn)文章閱讀