【2009年以來本體映射系統(tǒng)模型研究綜述】 本體映射
發(fā)布時間:2020-03-10 來源: 短文摘抄 點(diǎn)擊:
[摘要]本體映射系統(tǒng)分為通用映射系統(tǒng)和領(lǐng)域映射系統(tǒng)兩大類型,從模型和流程視角綜述2009年RiMOM、As―MOV、DSSim、OntoMap、OntSE五種本體映射系統(tǒng)模型,認(rèn)為本體映射研究在關(guān)聯(lián)數(shù)據(jù)等新興前沿領(lǐng)域的應(yīng)用有待進(jìn)一步深化。
[關(guān)鍵詞]本體映射系統(tǒng) 映射模型 OAEI關(guān)聯(lián)數(shù)據(jù)
[分類號]G350
1 引言
本體映射是實(shí)現(xiàn)本體互操作的關(guān)鍵。本體映射系統(tǒng)是建立在本體映射方法基礎(chǔ)上的,發(fā)現(xiàn)本體映射的方法一般分為四種:①術(shù)語方法:借助自然語言處理技術(shù),比較映射對象之間的相似度,以發(fā)現(xiàn)異構(gòu)本體間的聯(lián)系;②結(jié)構(gòu)方法:分析異構(gòu)本體之間結(jié)構(gòu)上的相似,尋找可能的映射規(guī)則;③實(shí)例方法:借助本體中的實(shí)例,利用機(jī)器學(xué)習(xí)等技術(shù)來尋找本體間的映射;④綜合方法:在一個映射系統(tǒng)中同時采用多種尋找本體映射的方法,彌補(bǔ)不同方法的不足。
現(xiàn)有的本體映射系統(tǒng)可分為兩種類型:①通用系統(tǒng)(Generic Systems)。這類系統(tǒng)一般采用通用方法,如不確定性推理、機(jī)器學(xué)習(xí)、相似度聚合等構(gòu)建系統(tǒng)平臺,一般可滿足多個不同領(lǐng)域的映射需求,在語義網(wǎng)環(huán)境下潛在支持各種應(yīng)用。②領(lǐng)域系統(tǒng)(Domain SpecificSystems)。這類系統(tǒng)針對特定領(lǐng)域問題(例如醫(yī)療、農(nóng)業(yè)等)的本體映射需求,使用具體的領(lǐng)域規(guī)則,啟發(fā)訓(xùn)練或背景知識,在映射方案中具有較強(qiáng)的針對性。本文主要綜述這兩類系統(tǒng)模型近年來的代表成果。
2 通用系統(tǒng)模型
早期學(xué)者們開發(fā)了多種本體映射系統(tǒng),如GLUE,QOM,PROMPT等。近年來在國際語義網(wǎng)會議的推動下,特別是舉辦OAEI(the Ontology"Alignment Evalua―tion Initiative)競賽以來,多種通用本體映射系統(tǒng)亮相OAEI,有效促進(jìn)了本體映射的發(fā)展。例如,F(xiàn)alcon―AOt、PRIOR+、DSSim ESl等近20種本體映射系統(tǒng)先后參加比賽。本文選取全程參與最近三屆(2007―2009)OAEI競賽的通用系統(tǒng),這些系統(tǒng)由于連年參賽,在測試中不斷改進(jìn)與完善,基本代表了本體映射系統(tǒng)最新的發(fā)展水平。
2.1 RiMOM
RiMOM是多策略動態(tài)本體映射系統(tǒng),其采用貝葉斯理論,結(jié)合自然語言處理技術(shù)整合多種本體映射策略。RiMOM框架見圖1。
結(jié)合圖1,可將RiMOM匹配過程概括為以下5個步驟:
2.1.1 本體預(yù)處理與特征因素評估將待匹配本體裝入存儲器建立本體圖表,去除非相關(guān)信息,計算待匹配本體的標(biāo)簽相似因子、結(jié)構(gòu)相似因子和標(biāo)簽意義相似因子,以此評估策略選擇。
2.1.2策略選擇執(zhí)行策略選擇算法,即如果兩個本體具有某些相同的特征,那么基于這些特征信息的策略將被選擇并進(jìn)行加權(quán);如果本體特征信息較低,那么將不采取基于上述特征信息的策略。
2.1.3單個策略執(zhí)行得到所選策略后,發(fā)現(xiàn)個體匹配,每一個策略輸出一個匹配結(jié)果。
2.1.4 策略結(jié)果整合通過線性插值方法合并匹配結(jié)果。
2.1.5相似度優(yōu)化與精煉如果兩個本體有較高的結(jié)構(gòu)相似因子,使用相似度優(yōu)化過程進(jìn)一步精煉發(fā)現(xiàn)的映射,依照結(jié)構(gòu)化信息發(fā)現(xiàn)新的匹配。RiMOM基于相似度傳播理論(similarity Propagation Theory)提供了3種相似度聚合策略,分別是概念一概念、概念一屬性、屬性一屬性聚合方法。在此基礎(chǔ)上,系統(tǒng)通過多個啟發(fā)式規(guī)則剔除不可靠的映射,精煉匹配結(jié)果。
RiMOM是以貝葉斯決策理論為基礎(chǔ)開發(fā)的本體映射系統(tǒng),它在OAEI 2009中參與了標(biāo)準(zhǔn)測試、解剖測試、目標(biāo)匹配和實(shí)例匹配4種類型的競賽。作為2009年新推出的實(shí)例匹配測試項(xiàng)目,其由于具有更多實(shí)例的語義信息及屬性,測試要求更高。為此,RiMOM在優(yōu)化OAEl2008版本中8種策略的同時,針對實(shí)例特征推出了若干新方法。與此同時,亦有若干問題有待進(jìn)一步提升。例如,面對比原有模式文檔多得多的大規(guī)模實(shí)例文檔,RiMOM在測試的效率及穩(wěn)定性方面如何保證;此外,如何深層次挖掘?qū)嵗恼Z義信息等也是研究面臨的重要挑戰(zhàn)。
2.2 ASMOV
ASMOV是由美國Jean-Mary等人開發(fā)的自動化本體映射工具,其目標(biāo)是促進(jìn)異構(gòu)本體的整合,ASMOV運(yùn)用迭代計算分析3種特征計算實(shí)體本體對的相似度,產(chǎn)生基于概念間的映射、屬性間的映射和個體間的
2.2.1 預(yù)處理ASMOV使用Jena的ARP解析器和建模組件加載解析本體,采用UMLS元詞表或Word,Net計算概念、屬性和個體間的詞表相似度,運(yùn)用文本匹配算法計算詞表距離。
2.2.2 相似度計算與預(yù)匹配 ASMOV通過外部匹配、內(nèi)部匹配和個體匹配算法計算實(shí)體對的關(guān)系結(jié)構(gòu)相似、內(nèi)部結(jié)構(gòu)相似和擴(kuò)展程度相似,得到基于相似策略的概念矩陣、屬性矩陣和個體矩陣等3個二維矩陣。隨后抽取具有最高相似計算的本體與其他本體形成聯(lián)系實(shí)體,完成預(yù)匹配。
2.2.3 語義確認(rèn)與匹配結(jié)果 查找并除去預(yù)匹配中語義不一致的映射,并將其保存在日志文檔中,避免后續(xù)迭代重復(fù),直至找到可匹配的所有結(jié)果。
從整體上來看,ASMOV在召回率和F度量方面較2008年已取得不俗成績的基礎(chǔ)上再次有了提升。與此同時,在IIMB(ISLab Instance Matching Bench―mark)測試方面結(jié)果高度準(zhǔn)確;在實(shí)例匹配中的徹底重新設(shè)計,有效改善了性能。針對其測試的范圍及卓越性能,ASMOV可用于書目、生物醫(yī)學(xué)等多種領(lǐng)域本體方面。值得關(guān)注的是,基于大規(guī)模實(shí)例文檔的實(shí)例匹配,ASMOV仍需進(jìn)一步優(yōu)化。
2.3 DSSim
DSSim是由英國開放大學(xué)Nagy等人共同研制,適合大規(guī)模本體映射的通用系統(tǒng)。它是基于多智能代理體系結(jié)構(gòu)的本體映射系統(tǒng),每一個智能代理通過特定映射假設(shè)的修正建立一個可信函數(shù)(belief),大量可信函數(shù)整合得到更為合理的匹配策略,從而提供最佳映射(主要流程見圖3)。
基于特定參數(shù)將大規(guī)模本體分割成n*m片段,解析本體片段并將其裝入匹配任務(wù)隊列。
執(zhí)行匹配安排,向空閑處理器核分配任務(wù):①從本體1中選擇用戶使用的概念或?qū)傩圆⒖紤]其作為查詢片段;在算法上參考WordNet,通過WordNet的上位詞擴(kuò)大查詢概念或?qū)傩。②從本體2考慮在語句構(gòu)成上相似的概念或?qū)傩詷?gòu)建查詢圖,建立局部本體圖查詢,其中包含概念和屬性以及上述環(huán)境的局部本體查詢片段。③通過語義相似度算法評估查詢結(jié)點(diǎn)與本體片段兩者的相似值。④可信質(zhì)量函數(shù)由登普斯特整合規(guī)則(Dempstm’s rule of combination)構(gòu)成,并受相似性矩陣的制約。處理器選用計算值最高的可信質(zhì)量函數(shù)進(jìn)行映射,對于不符合條件的進(jìn)行迭代計算。
將所選的映射加入匹配集合中,獲得匹配結(jié) 果。DSSim針對本體映射中表示和推理的不確定性在問答情景中采取登普斯特一謝弗理論,這與同為解決不確定性的RiMOM運(yùn)用貝葉斯理論不同。DSSim參與了OAEl2009中的標(biāo)準(zhǔn)測試、解剖測試、目錄測試、實(shí)例匹配等4類共7個項(xiàng)目的競賽,它與ASMOV是該年度參加項(xiàng)目最多的兩位,但在召回率和F度量測評方面DSSim均與ASMOV存在差距。
2.4 小結(jié)
除上述三種本體映射系統(tǒng)外,還有另外兩種本體映射系統(tǒng)Lily和TaxoMap亦參與了OAEI近3年的比賽。其中,Lily是基于語義子圖的通用本體映射系統(tǒng),TaxoMap是以發(fā)現(xiàn)概念間的豐富聯(lián)系為目標(biāo)的本體匹配工具。限于篇幅,這里不再贅述。
3 領(lǐng)域系統(tǒng)模型
領(lǐng)域系統(tǒng)是建立在某一特定領(lǐng)域或解決某一特定問題的本體映射系統(tǒng)。較通用系統(tǒng)而言,領(lǐng)域系統(tǒng)在解決特定領(lǐng)域本體互操作方面有其優(yōu)勢。
3.1 OntoMap
來自巴西圣保羅大學(xué)科學(xué)計算與數(shù)學(xué)研究所的Linhalis等學(xué)者,針對自然語言與計算機(jī)進(jìn)行通信除英語外尚不能夠支持多種語言交流的特點(diǎn),提出采用國際語(通用網(wǎng)絡(luò)語言中的一種)作為自然語言和計算機(jī)之間的中介,通過軟件構(gòu)件執(zhí)行檢索的思路。其目標(biāo)是促進(jìn)多種自然語言在計算機(jī)中進(jìn)行處理,為此,他們提出了OntoMap結(jié)構(gòu)模型,結(jié)構(gòu)如圖4所示:
OntoMap模型主要是通過通用網(wǎng)絡(luò)語言(UniversalNetworking Language,UNL)和軟件構(gòu)件來執(zhí)行自然語言的請求,OntoMap通過訪問UNL表示推斷構(gòu)件的語義信息,然后使用該語義信息查找一個乃至多個合適的構(gòu)件執(zhí)行請求。為了完成這一目標(biāo),OntoMap通過語義映射模塊將UNL和構(gòu)件聯(lián)系起來。如圖4所示,OntoMap模型分為UNL轉(zhuǎn)換、語義映射、構(gòu)件搜尋與檢索三部分。其中,語義映射模塊的工作流程如圖5所示:
InterComp本體(國際語構(gòu)件本體)在語義映射模塊中扮演重要作用,它與規(guī)則一起定義國際語與軟件構(gòu)件之間的關(guān)系,同時InterComp本體還用來搜尋和檢索軟件構(gòu)件,最終達(dá)到執(zhí)行自然語言請求的目的。In―terComp本體將UNL和構(gòu)件的語義信息聯(lián)系起來,UNL令牌分類器在InterComp本體中對UNL語句分類,通過具體的規(guī)則推斷構(gòu)件的語義信息,隨后通過語義信息搜尋語義信息構(gòu)件,完成語義映射。
OntoMap模型與其他研究的不同在于將自然語言請求轉(zhuǎn)換成國際語,使得多科咱然語言,特別是使用較少的自然語言(限制語)能夠在計算機(jī)中處理。但是,其方案仍需借助大量實(shí)驗(yàn)抽取更多國際語的語義信息。此外,UNL項(xiàng)目的成熟對OntoMap的發(fā)展具有關(guān)鍵影響。
3.2 OntSE
為了克服企業(yè)信息系統(tǒng)用戶在找尋用戶所需要的語義層面的相似信息方面存在的局限,韓國科學(xué)技術(shù)院Jung M等人運(yùn)用多維相似與貝葉斯網(wǎng)絡(luò)方法提出了OntSE模型,如圖6所示:
OntSE模型主要由4個本體庫和3個模塊組件組成:即用戶本體庫(UOL)、內(nèi)部形式本體庫(IOL)、分類本體庫(TOL)和匹配本體庫(MOL),分別用來存取用戶本體(UO)、內(nèi)部形式本體(IOL)、分類本體(TO)和匹配本體(NO)。三個模塊分別是本體構(gòu)建模塊、本體映射模塊和本體更新模塊,其功能分別是:
?本體構(gòu)建:構(gòu)建用戶的關(guān)鍵詞本體。
?本體映射:本體庫中用戶關(guān)鍵詞與存儲的術(shù)語(概念)之間的本體映射。
?本體更新:其目標(biāo)是通過多維相似與貝葉斯網(wǎng)絡(luò)算法找到基于用戶關(guān)鍵詞的相同語義的術(shù)語。
OntSE系統(tǒng)主要用于搜索不同企業(yè)信息系統(tǒng)的文檔語義信息,用戶可通過關(guān)鍵詞在上述方法的支持下找尋相關(guān)概念的語義,在用戶協(xié)作的基礎(chǔ)上檢索到相關(guān)文檔。OntSE模型具有3個典型特征:①通過本體映射找到用戶要查找的在語義上相似的概念;②利用用戶的關(guān)鍵詞描述更新本體庫;③用戶的歷史匹配決策被用來幫助隨后的用戶搜索。該系統(tǒng)的不足是對于具體領(lǐng)域的參數(shù)或加權(quán)因子需要大量實(shí)驗(yàn),在此基礎(chǔ)上調(diào)整賦于合適的參數(shù)值滿足具體領(lǐng)域信息的需求。
4 本體映射系統(tǒng)評價
無論是通用系統(tǒng)還是領(lǐng)域系統(tǒng),本體映射系統(tǒng)的優(yōu)劣均需要檢驗(yàn)和比較。以通用系統(tǒng)為例,其評價一般采用OAEI競賽所提供的公共數(shù)據(jù)集進(jìn)行測驗(yàn)。國際語義網(wǎng)會議自2004年開始每年舉辦一次OAEI競賽,截至2009年已舉辦6次。該年測評體系包括5個大類共11種數(shù)據(jù)集。其中標(biāo)準(zhǔn)測試是競賽的基礎(chǔ),其目標(biāo)是考查本體映射系統(tǒng)在算法方面的強(qiáng)弱;而實(shí)例匹配則成為近年來關(guān)注的熱點(diǎn)。上述各類評價指標(biāo)包括查準(zhǔn)率、召回率和F度量,計算公式如下:
查準(zhǔn)率:P=發(fā)現(xiàn)正確的映射/發(fā)現(xiàn)所有的映射
召回率:R=發(fā)現(xiàn)正確的映射/所有可能的映射
F度量:F-m=2*P*R/(P+R)
對于大規(guī)模本體的數(shù)據(jù)集來說,查準(zhǔn)率和召回率兩者相互制約,F(xiàn)度量是上述兩種指標(biāo)的一種平衡。5展望
上述五種研究模型是本體映射研究最新發(fā)展的一個側(cè)面。盡管本體映射已成為相對成熟的研究領(lǐng)域,但仍存在很多問題尚待進(jìn)一步研究,特別是在與相關(guān)前沿研究領(lǐng)域的結(jié)合方面,本體映射模型及其若干方法的應(yīng)用亟待關(guān)注。例如,發(fā)展近5年的關(guān)聯(lián)數(shù)據(jù)(1inked data)近年來成為圖書情報界關(guān)注的熱點(diǎn)。瑞典、德國、英國等國國家圖書館率先將聯(lián)合目錄、詞表或書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),與其他多種資源建立了關(guān)聯(lián)。但是如何將這些關(guān)聯(lián)起來的數(shù)據(jù)實(shí)現(xiàn)進(jìn)一步整合,以推動關(guān)聯(lián)數(shù)據(jù)的深層應(yīng)用成為發(fā)展的瓶頸。一些研究人員提出可嘗試將本體映射的若干研究成果引入到關(guān)聯(lián)數(shù)據(jù)中,在解決關(guān)聯(lián)數(shù)據(jù)的實(shí)例異構(gòu)和值的轉(zhuǎn)換等方面發(fā)揮作用,這方面的研究有待深入。
相關(guān)熱詞搜索:本體 映射 綜述 2009年以來本體映射系統(tǒng)模型研究綜述 本體映射系統(tǒng)研究綜述 本體映射的研究綜述
熱點(diǎn)文章閱讀