知識元語義鏈接模型研究:語義模型
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
摘要 在信息服務(wù)向知識服務(wù)過渡中,知識元被認為是實現(xiàn)知識服務(wù)的實體單元。歸納已有知識元的研究方法,從情報學(xué)的視角探討知識元的概念,提出知識元由導(dǎo)航信息和語義內(nèi)容兩部分組成、二者構(gòu)成知識元的獨立實體、單一的關(guān)鍵詞不是知識元的觀點。接著,從信息與知識變換的角度討論文本知識元譜分析與提取的算法和實現(xiàn)。實驗結(jié)果表明該方法具有可操作性和實踐性。
關(guān)鍵詞 知識元 語義鏈接 模型研究
分類號 TP391
1 引 言
知識的服務(wù)單位長期停留在文獻這一級上,已經(jīng)成為制約人類有效利用知識的瓶頸。情報學(xué)家徐如鏡研究員提出,一旦實現(xiàn)知識的控制單位由文獻深化到“知識元”,大量文獻中所包含的“知識元”及相關(guān)信息間的鏈接,將產(chǎn)生極大的知識增值,大大推進人類對知識的利用,促進對新知識的創(chuàng)造,從而也將推動知識資源業(yè)的重大發(fā)展。情報學(xué)家馬費成教授提出情報學(xué)取得突破的兩個關(guān)鍵問題:①知識信息的表達和組織必須從物理層次的文獻單元向認識層次的知識單元或情報單元轉(zhuǎn)換;②知識信息的計量必須從語法層次向語義和語用層次發(fā)展。1986年,美國芝加哥大學(xué)Don R Swanson教授提出的“非相關(guān)文獻的知識發(fā)現(xiàn)方法”,對40多年前科學(xué)家就在積極地探討的科學(xué)知識分裂化現(xiàn)象,利用知識片段理論做出了說明,證明了事實上文獻間隱含關(guān)聯(lián)數(shù)量可能遠多于顯性的相互印證關(guān)聯(lián)的數(shù)量,并且這種隱性關(guān)聯(lián)的發(fā)現(xiàn)比信息本身的增長更有意義。Swanson的“基于文獻的發(fā)現(xiàn)方法”證實了將文獻中的具有隱含邏輯關(guān)系的知識片段組織起來可以發(fā)現(xiàn)新知識,為情報學(xué)的研究開創(chuàng)了新的研究方法。本文提出了知識元語義鏈接模型,對知識元的認知、模型、挖掘和語義鏈接的方法做了探索。期望得到更多的關(guān)注和研究,以推動這一方向的研究成果的開發(fā)和應(yīng)用。
2 知識元的認知
知識元的研究活動可歸納為四個主要研究領(lǐng)域:情報學(xué)意義的知識元、科學(xué)計量意義的知識元、教材教學(xué)組織的知識元、產(chǎn)品設(shè)計的知識元。
2,1 情報學(xué)意義的知識元
20世紀70年代后期,除書目數(shù)據(jù)庫外,數(shù)值數(shù)據(jù)庫和全文數(shù)據(jù)庫的數(shù)量不斷增長,指南數(shù)據(jù)庫開始出現(xiàn)。此時,美國情報學(xué)家弗拉基米爾?斯拉麥卡教授在華講學(xué)時提出,知識的控制單位將從文獻深化到文獻中的數(shù)據(jù)、公式、事實、結(jié)論等最小的獨立的“知識元”,當時他把這稱為“數(shù)據(jù)元”。
20世紀80年代初,英國著名情報學(xué)家布魯克斯(B.C.Brooks)提出繪制“認知地圖”的任務(wù)。布魯克斯認為,如果能利用關(guān)系索引就可以較為準確地表達概念之間的關(guān)系,那么就可能將文獻網(wǎng)變?yōu)橛芍R單元直接聯(lián)接的概念網(wǎng),使知識體系從外部宏觀結(jié)構(gòu)改變?yōu)閮?nèi)部微觀結(jié)構(gòu)。
1993年z.Chen繼Swanson提出建立基于分散于文獻內(nèi)部知識片斷的邏輯關(guān)聯(lián)的知識整合方法,改善非相關(guān)文獻知識發(fā)現(xiàn)的效果。
近年來,國際上越來越多的研究者認識到萬維網(wǎng)時代信息檢索效率不高的原因主要在于信息組織的深度僅停留在文獻層次,提出解決的根本方法是將信息標引深入到文獻中的知識元層次,建立知識元(Knowl-edge Element)模型成為實現(xiàn)有效知識檢索的重點問題。國內(nèi)學(xué)者徐榮生認為知識單元是指知識本身不考慮物理形態(tài)自成系統(tǒng)、自成單元,自為一組的認識單體形態(tài),是知識集合系統(tǒng)的相對獨立構(gòu)成單位。其中就有最基本的、不再分解的基本認識單元,如概念知識單元。
國內(nèi)學(xué)者王子舟教授等對文獻單元與知識單元做了深入研究,認為20世紀90年代末期,“知識單元”在圖書情報學(xué)界的使用頻率逐漸多了起來,因為許多圖書館學(xué)研究者已經(jīng)意識到,圖書館如何從傳統(tǒng)的文獻組織轉(zhuǎn)向文獻信息(即客觀知識)的組織,如何從文獻單元服務(wù)深入到知識單元服務(wù),已經(jīng)是圖書館實踐面臨著的新的重大課題。國內(nèi)學(xué)者文庭孝博士等對知識單元的概念進行了綜述。
2,2科學(xué)計量意義的知識元
科學(xué)學(xué)的知識單元研究者,我國著名科學(xué)家趙紅洲認為:“知識單元(或稱知識本體)”是科學(xué)的細胞,也是科學(xué)大廈的“基本”磚塊?茖W(xué)學(xué)研究知識單元的目標是想實現(xiàn)如何評價學(xué)術(shù)論文的學(xué)術(shù)質(zhì)量問題,也就是說,如何比較兩個科學(xué)定律的難易程度問題。牛頓定律和氣體定律哪一個付出的創(chuàng)造力更大些?由此,趙紅洲先生把知識單元定義為“能夠用數(shù)學(xué)公式表示的科學(xué)概念”。趙紅洲等還提出了知識單元的智荷概念,認為智荷乃是知識單元最為基本的特質(zhì)和屬性,分為靜荷和動荷兩種類型,靜荷是知識單元相互邏輯關(guān)系所決定的智荷,是基本知識單元的函數(shù);動荷則是知識單元在歷史的進化過程中積累的智荷,是時間的函數(shù)。一個知識單元的靜荷Qi可用公式(1)表示:
2,3教材教學(xué)意義的知識單元
自20世紀90年代以來,IEEE-CS/ACM陸續(xù)推出了“計算教程1991”、“計算教程200X”等研究報告。其中最重要的成果之一就是把計算機科學(xué)的知識體劃分為10個領(lǐng)域、55個知識單元。每一個知識單元則包含若干主題。知識體為計算機學(xué)科提供了一個統(tǒng)一的知識框架。知識單元具有更大的靈活性。用一組知識單元代替一組主干課來規(guī)范教學(xué)計劃中的公共要求,有利于學(xué)校結(jié)合本身的情況,設(shè)計出既有自己特色、又不背離統(tǒng)一要求的課程體系。
2,4產(chǎn)品結(jié)構(gòu)設(shè)計中的知識單元
文獻[19]利用專家的知識文本作為領(lǐng)域本體,建立文本知識元的抽取實驗。提出將知識分成4層:知識域(knowledge domain)、知識單元(knowledge unit)、知識元(knowledge element)、知識元的特征元(charac-teristic element)。特征元根據(jù)知識元可分成表示(rep-resentation)、規(guī)則(rules)、操作(operations)、導(dǎo)航(navi-gation)、上義詞(super-ordinate)、關(guān)聯(lián)(relevaney)和其他關(guān)系。在產(chǎn)品設(shè)計中把知識元分成兩種:①描述性,包括信息報告、名詞解釋、數(shù)字值、問題描述、引言和結(jié)論;②過程性,過程、方法、定義、原理、經(jīng)驗等。
3知識元模型
3,1知識元概念模型
我們認為,從文獻中抽取出的知識元不等同于關(guān)鍵詞。情報學(xué)知識元的抽取目標是:先將文獻中的知識元分割出來,然后建立一種獨立于原文的可獨立存放、檢索和推理的知識實體單位。我們曾提出文本知識元的發(fā)現(xiàn)可通過計算向?qū)畔⑴c知識元間的語義關(guān)系來實現(xiàn)。圖1給出了文本知識元與向?qū)畔?dǎo)航計算模型:
圖1中,特征分析與提取:對論文標題進行分詞,統(tǒng)計標題詞在文摘中的響應(yīng)度,根據(jù)響應(yīng)度選擇特征詞,然后用特征詞在正文中抽取句子。
向?qū)畔ⅲ浩浜笥姓Z義內(nèi)容的特征詞。 語義內(nèi)容:對象名稱,對象起因,對象內(nèi)容,對象過程,對象結(jié)論,對象引文等。
知識元:向?qū)畔,語義內(nèi)容。
抽取算法:一種抽取向?qū)畔⑻卣髟~句子的軟件。
特征詞的計算就是檢查抽出的句子中是否具有描述知識元功能的語義內(nèi)容。如果有,則把特征詞分離為向?qū)畔⒃~,語義內(nèi)容分離為知識元內(nèi)容,以便建立向?qū)畔⑴c語義內(nèi)容的導(dǎo)航鏈接,實現(xiàn)獨立于文獻單元的知識元自由集成檢索系統(tǒng)。
定義1:
知識元:{名稱,屬性,操作,導(dǎo)航}
名稱=為知識元研究的對象
屬性=為知識元的特征
操作=為知識元解決問題的方法(能力)
導(dǎo)航=為知識元的邏輯聯(lián)系
定義2:
新知識產(chǎn)生的是一種知識元的信息導(dǎo)航鏈接過程。
K(S)+N(K(E)+K(S))=K(S+△S) (3)
式中K(S)表示知識結(jié)構(gòu),K(E)表示知識元,Ⅳ表示信息導(dǎo)航鏈接。
公式(3)突出了知識元的獨立性、信息導(dǎo)航的鏈接性和知識結(jié)構(gòu)的完善性。強調(diào)知識結(jié)構(gòu)是一個比較完整的認知結(jié)構(gòu),知識結(jié)構(gòu)的構(gòu)成主要是由信息對獨立的知識元的導(dǎo)航而形成。知識元導(dǎo)航鏈接示意圖見圖2。
在知識元的研究中,如何認識知識元并從什么地方切入研究以及對知識元進行歸類分析是進一步認識知識元的重要步驟。通過對知識元的歸類分析,我們把得出的知識元類型分成兩大類型:描述型(信息型,名詞解釋型,數(shù)值型,問題描述型,引證型);過程型(步驟型,方法型,定義型,原理型,經(jīng)驗型)等。由此我們把數(shù)字型知識元定義為描述型知識元模型。
定義3:
一個數(shù)值型知識元NKE由對象,領(lǐng)域,特性集,關(guān)系,值,狀態(tài)6個屬性組成。
由公式(7)可以看出原知識系統(tǒng)K(S)接受信息/激勵后的結(jié)果,使知識譜上添加了信息,所貢獻的知識譜。
我們研究了知識信息譜的提取,給出了知識元的提取實驗步驟。利用上述方法,求最優(yōu)概率分布的概率值p(y|x)中,將“提出”特征詞看作x,故提出之后的內(nèi)容即為作者給出的創(chuàng)新點知識元Y。文本知識元抽取的步驟如下:
第一步:文本格式轉(zhuǎn)換(,PDF轉(zhuǎn)成,TXT);
第二步:分離出由“提出”特征詞引出的創(chuàng)新點內(nèi)容(知識元集合);
第三步:分析知識元集合的組成結(jié)構(gòu)(單個知識元);
第四步:抽取文本中每個知識元的相關(guān)句子;
第五步:分解句子成為語義三角形結(jié)構(gòu)的知識元(另文給出);
第六步:聚類知識元成為知識元集。
4 文本知識元挖掘軟件研究
我們開發(fā)的文本知識元挖掘軟件分為5個步驟實現(xiàn):
第一步:知識元自動抽取算法。網(wǎng)頁格式轉(zhuǎn)換,文本分詞、詞性標注、知識元自動抽取。
第二步:有效句分解與獲取對象語義。通過句子的特征分析,我們用自己設(shè)計的抽取軟件將有效句分解為兩部分,即對象名和對象數(shù)值。以對象名中的動詞為界,將對象名分解成主謂關(guān)系,從而達到了將一個有效句子分解成三元組(O,P,A)的目的,即實現(xiàn)了用軟件自動獲得一條由主謂賓語法關(guān)系組成的知識元。如圖3所示:
第三步:去掉詞性標記獲得知識元。去掉詞性標記,建立由時間、地區(qū)、領(lǐng)域、對象名稱、對象屬性、對象值等屬性集成的知識元,并自動存入知識元庫。最后可以對挖掘到的知識元進行匯總,存入到總表中,以便于以后的查閱和關(guān)聯(lián)推理使用。知識元生成系統(tǒng)界面如圖4所示:
第四步:知識元自動存儲。軟件可以對挖掘到的知識元進行模糊和精確查詢,并將查詢結(jié)果反饋到用戶界面,還可以將挖掘的信息生成簡要文本輸出。知識元庫結(jié)果舉例如圖5所示:
第五步:建立知識元語義網(wǎng)地圖。利用protege工具將挖掘出的知識元用本體語言O(shè)WL(web OntologyLanguage)進行處理,實現(xiàn)了領(lǐng)域知識元集成的語義網(wǎng)地圖,如圖6所示:
5 小結(jié)與展望
本文對知識元的認識做了歸結(jié)分析,強調(diào)情報學(xué)知識元挖掘的目的是建立知識元結(jié)構(gòu),獨立于原始文獻進行直接的知識服務(wù)。因此知識元的開發(fā)與應(yīng)用是文獻服務(wù)向知識服務(wù)過渡的一種轉(zhuǎn)折點,知識元是知識分離和組合的基元,它由兩部分組成,即向?qū)畔⒃~和語義內(nèi)容組成的知識實體。因此知識元不是普通的關(guān)鍵詞。知識元的挖掘是一種智能活動,是以科學(xué)家創(chuàng)造的知識成果為對象的一種提取和再組織的智力勞動過程。因而它的研究既具有極大的吸引力,又具有很大的困難,尤其是將研究的成果變?yōu)閷嶋H應(yīng)用的產(chǎn)品,不可避免地必須經(jīng)過商業(yè)化的過程。這意味著國家層面的認識和市場機遇的到來。
相關(guān)熱詞搜索:語義 模型 鏈接 知識元語義鏈接模型研究 知識鏈接的構(gòu)建方式研究 基于知識元的知識發(fā)現(xiàn)
熱點文章閱讀