本體構(gòu)建工具 源碼【Protege本體構(gòu)建工具應用調(diào)查分析】
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要]分析Protege本體構(gòu)建工具的管理機制,通過應用實例的調(diào)查統(tǒng)計,對其應用學科范圍進行總結(jié);并從運用領域、規(guī)模、細節(jié)處理等方面入手,分析國內(nèi)外4個本體實例的特點,Protege應用的優(yōu)勢在于是開源軟件、提供多種可選擇的插件以及支持基于框架和網(wǎng)絡本體語言兩種可選模式等方面,但本體關系的可視化表示有待改進。
[關鍵詞]Protege 本體構(gòu)建工具 應用
[分類號]TP391
1 Protege簡介
1.1 含義
Protege的無數(shù)據(jù)首先是由馬克?姆森(MarkMusen)于1987年為了一些醫(yī)學項目的知識系統(tǒng)化而創(chuàng)建的,后由斯坦福大學藥學院藥學信息學系研究人員在其基礎上研發(fā)而成。Protege常寫作Protege,在斯坦福大學Protege Wila中對其的解釋為:“Protege是一種免費共享的平臺,為不斷增長的用戶群提供一套工具,用以建立基于本體(ontologms)的領域模型和基于知識的應用軟件。其核心是提供豐富的知識建模和運行功能,以支持本體對不同格式的資源進行創(chuàng)新、可視化和管理。Protege可以為某一領域進行定制,便于知識建模和數(shù)據(jù)輸入。此外,還可以用導入插件和基于程序設計界面(API)的java方式擴展,來建立基于知識的工具和應用軟件”。該編輯工具最初應用于醫(yī)學和信息管理領域,如斯坦福大學的Design-a-Trial、SAGE Project、Virtual Soldier等項目,目前在Protege Wiki中列有164個使用Plot6g6各版本及相關插件的項目。
1.2 管理機制
Protege之所以成為較成功的本體編輯工具,其原因之一在于有以下一套完善的管理機制:
1.2.1 Protege Wild Protege鼓勵用戶將自己的項目成果鏈接到Protege Wiki上,支持注冊者對成果進行說明。因此任何登陸該網(wǎng)站的人都可以通過項目Wiki看到創(chuàng)始人愿意共享的成果,同時也可以隨時注冊。
1.2.2 Protege協(xié)會Protege協(xié)會集合了研發(fā)和使用Prot國§Protege方法和工具的學者及研究人員,其注冊用戶達到76 311人,使用成員名單達到17 313人,參與討論成員名單達到4 122人,OWL使用人員名單達到2075人。
1.2.3 Protege國際會議Protege協(xié)會已成功舉辦過9次國際會議,建立了會議反饋機制,并在網(wǎng)上公布部分反饋信息。作為討論Protege應用軟件現(xiàn)狀與將來發(fā)展的首要論壇,會議討論的主題主要有:關于基于框架OWL和RDF的本體發(fā)展、語義網(wǎng)的本體、相關軟件支持發(fā)展、醫(yī)學應用軟件以及可視化工具和推理與推論等。Protege第10次國際會議干2007年7月15~18日在匈牙利的布達佩斯召開。
1.2.4 Protege用戶培訓在Protege Wiki中列有Protegehbrary(知識庫),用以介紹有關本體的知識,并有實例說明。同時Protege還提供收費的用戶培訓,并成立了用戶協(xié)會,便于開發(fā)者和使用者以及使用者之間的交流!笆褂弥杏脩魠f(xié)會”包括的研究和實際應用項目,覆蓋了超過100個國家。這些項目均被列入Protege協(xié)會Wiki之中。
2 Protege應用的學科范圍分析
Protege Wlki中列舉164個項目(統(tǒng)計分析的數(shù)據(jù)采集時間為2007年5月21日至6月10日),筆者逐一進行調(diào)查,其中在國內(nèi)可以打開的鏈接有99個。下而對這99個項目涉及的學科范圍進行統(tǒng)計分析(見圖1)。
由圖1可見,Protege在自然科學領域(生物和醫(yī)學、信息技術(shù)、數(shù)學、工業(yè)、天文、航海、機械、石油開采、農(nóng)業(yè)、人體測量學等)的應用占到了59%、社會科學方面(信息管理、經(jīng)濟、法律、教育、國土規(guī)劃、社會、管理、旅游等)占26%、人文學科領域(語言學、歷史、地理、藝術(shù)、哲學等)占16%。其中列在前4位的分別是“生物和醫(yī)學”(24%)、“信息技術(shù)”(22%)、“信息管理”(10%)、和“語言學”(7%)。生物和醫(yī)學所占比例最大,這與Protege開發(fā)機構(gòu)為斯坦福大學藥學院藥學信息學系有關,在邏輯結(jié)構(gòu)的創(chuàng)建方面比較適合這一領域;而信息技術(shù)領域占22%,說明Protege和本體這種信息組織的方式得到了技術(shù)開發(fā)者的青睞;信息管理方法和語言學則是本體開發(fā)和應用中關鍵因素,Protege在這兩個領域中的應用也得到研發(fā)者的重視。
圖中“其他”包括哲學、社會、安全、管理、天文、航海、旅游、機械、石油開采、工業(yè)、制造、農(nóng)業(yè)、人體測量學等方面,說明Protege的學科使用面已相當廣泛。
3 Protege應用實例分析
3.1 FMA解剖學本體基本模型
FMA全稱為Foundational Model of Anatomy(解剖學本體基本模型),是數(shù)字解剖學信息系統(tǒng)(Digital AnatomistInformation System)的一部分。由華盛頓大學結(jié)構(gòu)信息組(stmcmral Informatics Group at the University of Wasbangten)1995年開發(fā)并維護。
FMA采用象征模型表達人體的解剖學結(jié)構(gòu),構(gòu)造了大約7.5萬余個類、13萬余條術(shù)語、20.5萬余個框架以及174種槽來表示不同的關系和屬性。概念和術(shù)語包括超過4.4萬條規(guī)范化后的詞匯,用以消除英文同義詞的歧義以及超過1.5萬條非英語同義詞匯。術(shù)語中包括8 500條拉丁語術(shù)語、4 700條法語術(shù)語、500條西班牙語術(shù)語和350條德語術(shù)語。由于解剖學為其它生物科學提供了基礎,因此FMA適用于所有生物醫(yī)學領域。
FMA最突出的特色是靈活應用了“槽(slot)”及“槽”的屬性“面”來表達各實體之間復雜的關系。在網(wǎng)頁上同時提供樹形結(jié)構(gòu)的瀏覽和關鍵詞查詢,并顯示被選實體的各種關系。其樹形結(jié)構(gòu)提供了子類(subclass)、部分(part)、系統(tǒng)局部(systemic part)、區(qū)域局部(regional part)等四種組織方式,力圖在二維空間內(nèi)顯示多維結(jié)構(gòu)。值得一提的是:FMA雖然現(xiàn)在只是使用文字描述,尚未提供可視化的內(nèi)容,但是華盛頓大學組正在開發(fā)其層級可視化功能,重點是帶有注釋的圖片管理,并且以“不僅管理者,連使用者也可以插入圖片”為目標。
3.2 RadLex放射線學詞典
RadLex全稱為Radiology lexicon(放射線學詞典),創(chuàng)建于2003年,由北美放射學社(RSNA,Radmlogical Societyof North America)提供全部基金資助并籌劃。
RadLex目的在于提供統(tǒng)一結(jié)構(gòu)的術(shù)語,用以放射學信息資源以及醫(yī)學圖片資源的捕獲、索引和檢索。該計劃的實現(xiàn) 并非通過建立一個全新的詞典,而是著重干吸取成功經(jīng)驗,在任何必要的時候選擇和采用已成熟的術(shù)語和標準,如:ACRIndex(活動空腔輻射計索引)、the Unified Medical LanguageSystem(UMLS,統(tǒng)一醫(yī)學語言系統(tǒng)),the Fleischner SocietyGlossaries(Fleischner社會術(shù)語表),等等。它將統(tǒng)一和完善其它詞典中的術(shù)語,并交叉參考其他詞典和標準,以提供網(wǎng)上的免費資源,具有“視圖瀏覽”和“搜索”兩種檢索方式。
RadLex列表分為解剖學位置、發(fā)現(xiàn)、圖像的獲取與展示、圖像質(zhì)量、調(diào)整、關系、教學屬性等幾類術(shù)語,可以從相鄰、子類、超類3種方式用圖形表達術(shù)語之間的關系(見圖2)。圖形中選中對象與相關術(shù)語用不同顏色區(qū)分。相互關系用箭頭和附加的文字來說明。圖形可以反映出列表難以表達的關系。
3.3 BioPAX生物學途徑交換
BioPAX全稱為Biological Pathway Exchange(生物學途徑交換)。該計劃始建于2002年10月初,是在2002年8月ISMB分子生物學智能系統(tǒng)國際會議(International ConferenceOn Intelligent Systems for Molecular Biology)加拿大埃德蒙頓分會場第四屆“生物學途徑數(shù)據(jù)交換會議”的提議下建立的。其目標在于開發(fā)一個共同的生物途徑數(shù)據(jù)交換平臺,包括的數(shù)據(jù)庫有aMAZE、BioCyc、BIND、eMIM、INOH、PATIKA、Reactome、WIT/PUMA2等。
由于OWL語言具有在本體庫類目層級描述和數(shù)據(jù)交換格式方面的優(yōu)勢,其技術(shù)與XML工具可兼容,而用戶對其表現(xiàn)出的興趣和令人矚目的技術(shù)發(fā)展前景,開發(fā)者決定使用OWL網(wǎng)絡本體語言開發(fā)。在本體庫構(gòu)造過程中,BioPAX只采用了數(shù)量有限的概括性類目,而并未創(chuàng)建大量特定細目。一方面是因為在細目(specialized classes)的劃分上分歧較多,而在大類上則易于達成共識,BioPAX就能為更廣泛的用戶群體服務;另一方面概括類目體系可以更方便地建立、維護和發(fā)展。為了整合的各個數(shù)據(jù)庫的內(nèi)容特色,BioPAX在這簡潔的類目體系下,用大量的實例來代替類目細分,以便更符合提供者和使用者的認知習慣。
BioPAX的OWL文件可以使用Protege本體編輯器和OWL插件查看。BioPAX Wild中有逐步截圖介紹,引導用戶使用Protege瀏覽和分析數(shù)據(jù)。其最新版本BioPAX Level 2Version 100在的Level 1原有的代謝途徑基礎上,增加了分子交感、蛋白質(zhì)轉(zhuǎn)譯修正等新內(nèi)容,目前仍在完善中。
3.4 Harmon ISA區(qū)域數(shù)據(jù)資源的跨界協(xié)調(diào)計劃
HarmonISA是Harmonisation of regional data resources forcross-border plannmg(區(qū)域數(shù)據(jù)資源的跨界協(xié)調(diào)計劃,簡稱ISA-Map)的主要成果之一。該計劃始于2003年4月,在2006年3月完成,由歐盟、歐洲部分國家和一些非歐洲國家基金資助,耗資共1 812 880歐元。作為ISA-Map的子項目,HarmonISA用于處理基于本體描述的地表類型和土地用途的分類,以達到英語、德語、意大利語和斯洛文尼亞語的語意會通,成為提供土地使用情況和地表植被情況的跨國界綜合咨詢工具。
HarmonISA采用的OWL語言編輯功能、表現(xiàn)出的較強的可兼容性和眾多插件的支持。在開發(fā)過程中對開發(fā)工具Protege給予了相當?shù)暮迷u。Protege具有避免在本體庫建立過程中出現(xiàn)錯誤的功能設置,相關過程中可以隨時獲得來自軟件的幫助,并可以使用邏輯檢查工具來保證類與子類的劃分,在本體的框架建立時十分便捷。
Harmon ISA網(wǎng)站不僅提供用顏色區(qū)分土地屬性的地圖瀏覽器,還提供本體觀察器。在地圖瀏覽器中可以隨時點擊地圖中相應所對應的土地類型,利用圖例、目錄、過濾目錄、詢問等方式中的列表來查看所對象對應的屬性。本體觀察器內(nèi)容由“母類”、“定義”、“子類”、“領域”、“范圍”等構(gòu)成,可以實現(xiàn)逐級展開并支持跳轉(zhuǎn)來現(xiàn)實術(shù)語之間的聯(lián)系。
4 結(jié)語
作為開發(fā)平臺,Protege提供了對本體的解釋和對其產(chǎn)品的使用說明。使這種開源軟件為更多人所了解、接受和利用。Protege應用的優(yōu)勢在于是開源軟件、提供多種可選擇的插件以及支持基于框架和網(wǎng)絡本體語言兩種可選模式等。Protege雖然開發(fā)于生物醫(yī)學領域,但可以針對其他學科進行適應性調(diào)整,不斷進化使其成為世界上眾多研究機構(gòu)所采用的本體建模工具。
從對Protege用戶列表中所鏈接的項目情況看來,用戶多采用語詞列表的表達方式,用多重列表來表達多維關系,本體關系可視化表示仍有待開發(fā)。
Protege雖然支持多語種,但使用中文構(gòu)建的本體并不多見,至今在有關文獻中可見的本體有李景的“花卉學本體模型’、董慧的歷史領域本體“國共合作數(shù)據(jù)庫”、王莉的“學位論文服務系統(tǒng)”,崔雷、趙鵬的“臨床藥物本體”和何琳、曹玲的“農(nóng)業(yè)古籍本體”等。如何消除在某些科學前沿領域?qū)ν庹Z,尤其是英語的依賴,將成為開發(fā)中文環(huán)境下的本體模型所面臨的重要問題之一。
相關熱詞搜索:本體 構(gòu)建 調(diào)查 Protege本體構(gòu)建工具應用調(diào)查分析 protege本體構(gòu)建實例 本體構(gòu)建 圖數(shù)據(jù)庫
熱點文章閱讀