怎樣具體構(gòu)建領(lǐng)域本體 電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建
發(fā)布時(shí)間:2020-03-07 來源: 感恩親情 點(diǎn)擊:
[摘要]在分析電子政務(wù)領(lǐng)域本體構(gòu)建需求的基礎(chǔ)上,提出構(gòu)建領(lǐng)域本體的必備條件。針對(duì)這種需求,分析電子政務(wù)領(lǐng)域數(shù)字檔案的特征,并根據(jù)該特征,探討電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建過程。
[關(guān)鍵詞]領(lǐng)域本體 數(shù)字檔案 電子政務(wù) 本體構(gòu)建
[分類號(hào)]G252
領(lǐng)域本體是用于描述指定領(lǐng)域知識(shí)的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系領(lǐng)域活動(dòng)以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。目前,本體模型的研究已經(jīng)進(jìn)入實(shí)際應(yīng)用階段,許多研究領(lǐng)域都建立了適用于本領(lǐng)域標(biāo)準(zhǔn)的本體。Web上有許多可利用的本體資源庫,這使得諸多領(lǐng)域?qū)<夷軌蚴褂盟鼈儊砉蚕眍I(lǐng)域中的信息。
目前,國(guó)內(nèi)圖書情報(bào)領(lǐng)域關(guān)于本體的研究尚處于起步階段,領(lǐng)域本體的構(gòu)建是一項(xiàng)需要投入巨大人力物力的科研活動(dòng),要構(gòu)建某一領(lǐng)域內(nèi)的本體,決非某個(gè)人或某幾個(gè)人所能完成的。本文以電子政務(wù)領(lǐng)域數(shù)字檔案為例,通過對(duì)構(gòu)建本體具體過程的介紹,建立了一個(gè)有關(guān)數(shù)字檔案知識(shí)本體,希望本文能對(duì)未來電子政務(wù)領(lǐng)域本體的進(jìn)一步研究和構(gòu)建提供有益的借鑒。
1 電子政務(wù)領(lǐng)域本體構(gòu)建問題的題出
電子政務(wù)是指公共管理組織在政務(wù)活動(dòng)中,全面應(yīng)用現(xiàn)代化信息技術(shù)、網(wǎng)絡(luò)技術(shù)以及辦公自動(dòng)化技術(shù)等進(jìn)行辦公、管理和為社會(huì)提供各種公共服務(wù)的一種治理方式。在電子政務(wù)的初級(jí)階段,需要完成政務(wù)數(shù)字化、信息化任務(wù):包括電子政務(wù)公文數(shù)字化、公文流轉(zhuǎn)自動(dòng)化、數(shù)字檔案歸檔、政務(wù)信息上網(wǎng)等政務(wù)信息化基礎(chǔ)工作。
湖北省檔局已將2000年以來的11662篇政務(wù)公文進(jìn)行了數(shù)字化歸檔。這些公文涵蓋社會(huì)經(jīng)濟(jì)政治生活的各個(gè)領(lǐng)域中的各種事項(xiàng):有政府專項(xiàng)工作的部署、總結(jié),也有職能部門對(duì)相關(guān)領(lǐng)域的工作匯報(bào);有會(huì)議精神的傳達(dá),也有對(duì)社會(huì)突發(fā)事件的報(bào)道。內(nèi)容包括省委、省人大、省政府、省政協(xié)以及省委各部委、省級(jí)國(guó)家機(jī)關(guān)各委辦廳局、各人民團(tuán)體、各事業(yè)單位等形成的法規(guī)性、政策性、服務(wù)性、公益性文件的目錄。這些公文內(nèi)容廣泛,時(shí)間跨度長(zhǎng),信息量大,總共的文字統(tǒng)計(jì)近2000萬。湖北省檔案局不僅將這些政務(wù)公文進(jìn)行掃描,數(shù)字化歸檔為Tif格式的圖片,還提供這些電子政務(wù)公文網(wǎng)上查詢服務(wù)。但是這種僅僅基于元數(shù)據(jù)或主題詞的查詢服務(wù),很難滿足知識(shí)共享、輔助決策等電子政務(wù)需求。
在這樣的背景下,湖北省檔案局和武漢大學(xué)信息資源研究中心聯(lián)合申請(qǐng)了“知識(shí)管理技術(shù)方法在數(shù)字檔案館建設(shè)中的應(yīng)用研究”項(xiàng)目。在這個(gè)項(xiàng)目中,采取本體作為數(shù)字檔案館知識(shí)管理的核心技術(shù),并以湖北省檔案局提供的政務(wù)公文作為原始資料,設(shè)計(jì)并實(shí)現(xiàn)基于本體的數(shù)字檔案館知識(shí)管理模型;诒倔w的知識(shí)管理模型基礎(chǔ)是領(lǐng)域本體庫的構(gòu)建。
2 構(gòu)建領(lǐng)域本體的必備條件
本體構(gòu)建是一項(xiàng)十分復(fù)雜的系統(tǒng)工程,需要選擇合適的開發(fā)工具輔助并需要領(lǐng)域?qū)<业膮⑴c。筆者認(rèn)為構(gòu)建電子政務(wù)領(lǐng)域數(shù)字檔案本體至少需要以下3個(gè)方面的準(zhǔn)備。
2.1本體形式化描述語言的選擇
本體形式化描述語言直接影響本體模型的表達(dá)能力和可擴(kuò)展能力。目前的形式化的本體描述語言非常多,經(jīng)過比較,選用了OWL。OWL的優(yōu)點(diǎn)是以Web資源為描述對(duì)象,而且是W3C的推薦標(biāo)準(zhǔn),所以具有良好的應(yīng)用前景。另外,OWL是基于描述邏輯的。這就意味著基于描述邏輯的OWL的類構(gòu)造算子和公理都有相應(yīng)的邏輯描述表示,這樣利用OWL構(gòu)建的本體庫在具備良好的表現(xiàn)能力的同時(shí)還具有強(qiáng)大的推理能力。這對(duì)于Web資源的邏輯檢測(cè)、本體集成、知識(shí)整合是非常重要的。
2.2本體開發(fā)工具的選擇
目前,國(guó)內(nèi)外已經(jīng)有許多成熟的本體開發(fā)平臺(tái)軟件可供選擇。經(jīng)過我們對(duì)部分常見工具的試用與比較,最終選擇的是Protégé3.3。Protégé是由斯坦福大學(xué)醫(yī)學(xué)信息化研究小組開發(fā)的,一個(gè)基于Java環(huán)境的開放式架構(gòu)的開源知識(shí)建模工具。其擴(kuò)展的OWL插件是目前最為強(qiáng)大的OWL本體構(gòu)建工具。Protégé不僅具有良好的可擴(kuò)展性和簡(jiǎn)單靈活的用戶定制界面,還具有如下一些特性:支持圖形化本體編輯模式、支持?jǐn)?shù)據(jù)庫存儲(chǔ)模式、基于OWL數(shù)據(jù)庫的多人開發(fā)模式和支持邏輯檢測(cè)功能等。
2.3領(lǐng)域?qū)<业膮⑴c
領(lǐng)域本體構(gòu)建是本體開發(fā)人員與領(lǐng)域?qū)<夜餐Φ慕Y(jié)果。開發(fā)人員雖然具有豐富的本體知識(shí)和較強(qiáng)的開發(fā)能力,但是對(duì)特定領(lǐng)域知識(shí)卻知之甚少,很難建立起面向特定領(lǐng)域的本體模型。所以本體構(gòu)建非常需要領(lǐng)域?qū)<业膮⑴c。在電子政務(wù)領(lǐng)域數(shù)字檔案本體構(gòu)建過程中,湖北省檔案局的3位專家參與了本體庫構(gòu)建。在整個(gè)過程中,他們細(xì)致而專業(yè)的理論支持協(xié)助了本體庫的成功建立。
3 電子政務(wù)領(lǐng)域數(shù)字檔案的特征
3.1電子政務(wù)檔案的類型分布
現(xiàn)行《國(guó)家行政機(jī)關(guān)公文處理辦法》規(guī)定國(guó)家行政公文有13類:命令(令)、決定、公告、通告、通知、通報(bào)、議案、報(bào)告、指示、批復(fù)、意見、函、會(huì)議紀(jì)要等?梢园凑丈闲形、下行文和平行文將公文分為三類。其分類情況見表1。其中議案兼有上行文和平行文的雙重特征,通知同時(shí)屬于平時(shí)文和下行文之列,會(huì)議紀(jì)要可以是下行文,也可以是平行文。
用上述13類公文的類型名在湖北省檔案局?jǐn)?shù)據(jù)庫中進(jìn)行檢索,發(fā)現(xiàn)其文件類型分布見表2(數(shù)據(jù)來自檢索結(jié)果,可能存在較小的偏差),其中上先行文請(qǐng)示、報(bào)告和議案不出現(xiàn)在檔案局的數(shù)據(jù)庫中。
3.2電子政務(wù)檔案的結(jié)構(gòu)特點(diǎn)
檔案局電子政務(wù)文件以掃描的圖片方式進(jìn)行存放。由于國(guó)家對(duì)紅頭文件的格式有著一定的顯性限制,并且長(zhǎng)期以來,紅頭文件的書寫也存在一定的潛在規(guī)律。這些限制和規(guī)律為檔案領(lǐng)域本體構(gòu)建提供了一定的便利。電子政務(wù)檔案一般由文件頭,正文和文件尾組成,某些文件可能有附件。正文一般由以下幾部分組成:標(biāo)題、主送機(jī)關(guān)、原由和事項(xiàng)組成。原由有依據(jù)和目的兩種。其具體結(jié)構(gòu)見圖1所示:
3.3電子政務(wù)檔案內(nèi)容的相對(duì)確定性
本體在人文社科領(lǐng)域的應(yīng)用相對(duì)較少,其中一個(gè)重要原因是人文社科領(lǐng)域的不確實(shí)性,不同于數(shù)理公式推理演繹過程,人文社科領(lǐng)域的結(jié)論多帶有主觀性。人文社科領(lǐng)域的發(fā)展為人類社會(huì)帶來了多樣性,但同時(shí)也增加信息管理的難度。
檔案公文不同于一般的人文社科文獻(xiàn),它具有一定的確實(shí)性。國(guó)家或某一部委在某一時(shí)間段的政策方針往往是明確的。檔案文件的相對(duì)確定性有利于檔案本體的構(gòu)建。
3.4電子政務(wù)檔案內(nèi)容的相互關(guān)聯(lián)性
政府公文雖然涉及到生活中的方方面面,但從系統(tǒng)學(xué)上講,政府公文所聯(lián)系的各個(gè)團(tuán)體和個(gè)人組成了一個(gè)閉合的系統(tǒng)。在這樣一個(gè)聚集里面,成員是相對(duì)穩(wěn)定的,并且成員級(jí)別劃分明確。各級(jí)職權(quán)明確,如公文的接收單位一般是政府、政府職能部門、企業(yè)、機(jī)關(guān)團(tuán)體、學(xué)校和軍區(qū)等,并且接收對(duì)象往往只能是一個(gè)團(tuán)體,而不是團(tuán)體的某個(gè)下屬部門或機(jī)構(gòu)。這樣在檔案 領(lǐng)域本體的構(gòu)建中所確定的部門本體是有限的。在這樣一個(gè)閉合的聚集里面,成員節(jié)點(diǎn)數(shù)量少,而相互聯(lián)系較多,這決定了各個(gè)成員之間的關(guān)系是比較復(fù)雜的,某一個(gè)成員可能成為許多聯(lián)系的成員節(jié)點(diǎn)。正如政府的某一項(xiàng)工作通常要求各個(gè)部門的合作,發(fā)揮各自的業(yè)務(wù)專長(zhǎng)來完成。
并且在從時(shí)間線來看,也存在著多種聯(lián)系。如一旦上級(jí)召開某些會(huì)議,作為會(huì)議成果,一般會(huì)產(chǎn)生一些新的思想和會(huì)議精神。一段時(shí)間后相關(guān)部門便會(huì)發(fā)布公文組織下屬各級(jí)政府進(jìn)行學(xué)習(xí)。政府會(huì)承辦一些活動(dòng),政府會(huì)組織各方面的人力物力來完成這些任務(wù),在活動(dòng)結(jié)束之后,政府可能會(huì)有一些通報(bào)和表揚(yáng)。
4 電子政務(wù)領(lǐng)域數(shù)字檔案本體構(gòu)建過程
電子政務(wù)中的檔案領(lǐng)域本體構(gòu)建用戶需求明確而且相對(duì)穩(wěn)定,根據(jù)本體構(gòu)建常用方法:Skeletal Method―ology(骨架法)、TOVE、METHONTOLOGY、Cyclic Ac―quisition Process和IDEF-5等方法的特點(diǎn)及適用環(huán)境,結(jié)合電子政務(wù)中檔案館的業(yè)務(wù)特點(diǎn)和公文的結(jié)構(gòu)和內(nèi)容特性,提出了檔案領(lǐng)域本體構(gòu)建的方法。借鑒Skeletal Methodology設(shè)計(jì),其流程見圖2。
4.1識(shí)別系統(tǒng)功能需求
湖北省檔案館已經(jīng)實(shí)現(xiàn)了相關(guān)公文的數(shù)字化,并提供按檢索號(hào)、組織機(jī)構(gòu)、關(guān)鍵詞、人物、文件編號(hào)、責(zé)任者和時(shí)間等多種檢索方式,可以說其功能是比較完備的。筆者利用本體對(duì)這些公文進(jìn)行組織,其目的是提供給用戶更高效地信息檢索途徑。相比于此前系統(tǒng),基于本體的檢索系統(tǒng)細(xì)化了用戶群體,提供更具有專指性的檢索服務(wù)。筆者將用戶分為以下幾類:
?公文書寫者。政府機(jī)構(gòu)或部門在書寫公文時(shí)需要關(guān)心以下兩方面問題:一方面是公文內(nèi)容與部門已有的思想和政策是否相抵觸,若抵觸,如何協(xié)調(diào)和處理;另一方面是擬發(fā)布公文與上級(jí)機(jī)構(gòu)的思想是否沖突,這種沖突是不被允許的。公文書寫者需要查看上級(jí)政府的相關(guān)政令以及部門以往的思想和政策。本體通過建立部門已有公文之間的關(guān)聯(lián),并用可視化的方式將不同時(shí)間段的相關(guān)主題之間的關(guān)系展現(xiàn)給用戶。
?事件關(guān)注和情報(bào)了解者。這類用戶關(guān)注與事件相關(guān)的全部公文,本體分子所具有的專題功能可以將同主題的知識(shí)聚合起來,并消除冗余。這種呈現(xiàn)方式比以往基于關(guān)鍵字匹配的結(jié)果列表更為高效。也存在關(guān)注目標(biāo)不明確的用戶,本體分子提供的多粒度知識(shí)管理實(shí)現(xiàn)了知識(shí)組織方式與用戶邏輯的統(tǒng)一。用戶可以在不同層次的概念之間輕松的實(shí)現(xiàn)跳轉(zhuǎn)。
?學(xué)習(xí)者。此類用戶更關(guān)注公文中的指導(dǎo)思想,而不是具體的實(shí)施方案。這種新的思想是國(guó)務(wù)院組織相關(guān)專家進(jìn)行多輪討論,最終以公文的形式發(fā)放給各地方政府,并由地方政府結(jié)合自身情況來具體實(shí)施。
?尋求依據(jù)和了解責(zé)任者。有些公文是對(duì)個(gè)人或部門的約束。用戶需要查詢潛在的行為是否合乎規(guī)定。上級(jí)部門已有的領(lǐng)導(dǎo)方針和工作指導(dǎo)是部門開展工作的憑據(jù)和規(guī)范。
?人事、機(jī)構(gòu)關(guān)注者。用戶想要了解關(guān)于某個(gè)人的生平,最近的職務(wù)情況或者是他受到的所有獎(jiǎng)懲;诒倔w的政務(wù)數(shù)字檔案館系統(tǒng)將人物這一概念從源文件中抽取出來,并且賦予一定的語義。對(duì)人物的檢索不再僅僅是表態(tài)字符的匹配,而是語義的篩選。職務(wù)作為一個(gè)概念與某個(gè)特定的人物實(shí)例關(guān)聯(lián)起來,本體分子可以處理這種關(guān)聯(lián)隨時(shí)問的動(dòng)態(tài)變化。
?政策變化探究者。新的政策出臺(tái)、政策的改變多數(shù)是由于一些新現(xiàn)象、新事物的出現(xiàn)而引發(fā)的。只有了解政府的指導(dǎo)思想法和意圖才可能對(duì)新政策有更深刻地理解。
現(xiàn)實(shí)事件概念的復(fù)雜性決定了本體系統(tǒng)應(yīng)提供給用戶更多的本體庫觀察視角,更具有針對(duì)性?偟膩碚f,基于本體的電子政務(wù)數(shù)字檔案館系統(tǒng)功能就具有以下特征:語義性、專指性、強(qiáng)推理性和邏輯一致性。
4.2確定核心概念
根據(jù)T.R。Gruber的清晰、一致、可擴(kuò)展性、編碼偏好程度最小和本體約定最小的原則,筆者采用核心擴(kuò)展(middle―out)方法建立領(lǐng)域知識(shí)概念模型。其表現(xiàn)形式為:由具有本體雛形的一組核心概念人手,不斷擴(kuò)展本體。
按照核心擴(kuò)展法,首先需要確定核心概念集。在充分分析了檔案公文的結(jié)構(gòu)形式和內(nèi)容特征之后,確定了“人物”、“組織機(jī)構(gòu)”、“文件對(duì)象”、和“事件”4個(gè)核心概念。核心概念作為概念模型的頂級(jí)概念,須滿足沒有二義性、互不相交和并集覆蓋電子政務(wù)數(shù)字檔案知識(shí)的要求。
4.3建立概念層次結(jié)構(gòu)圖
確立核心概念后,對(duì)由這組具有本體雛形的核心概念進(jìn)行擴(kuò)展,建立整個(gè)本體概念模型。這是一個(gè)自頂向下的過程,即根據(jù)事先定義好的上一層父類,分別逐步細(xì)化說明其下一級(jí)子類。
在建立概念體系過程中,需要考慮和解決概念之間關(guān)系的選擇和層次結(jié)構(gòu)的組織。領(lǐng)域本體的概念間存在著許多關(guān)系,僅僅“部分一整體”關(guān)系就達(dá)6種之多!安糠忠徽w”關(guān)系是本體構(gòu)建中常用的層次結(jié)構(gòu)劃分標(biāo)準(zhǔn),其中“Kind of”和“Part of”是兩個(gè)最常用的。一個(gè)結(jié)構(gòu)良好的、可擴(kuò)展的概念模型要求其層次結(jié)構(gòu)中的概念關(guān)系必須是同質(zhì)的、直接父子概念之間具有相同的泛化程度!癒ind of”關(guān)系能夠很好的滿足這些要求。
經(jīng)過對(duì)概念模型中的概念進(jìn)行消除二義性、同層次概念間互不相交以及并集覆蓋整個(gè)父類概念范圍的處理,最后得到了電子政務(wù)領(lǐng)域數(shù)字檔案本體概念模型,如圖3所示:
根據(jù)本體工程的要求,人物劃分為公職人員、商界人物、公眾人士和國(guó)際人士。這一劃分符合本體無交叉,覆蓋完全的原則。結(jié)合公文領(lǐng)域所涉及的組織機(jī)構(gòu)特點(diǎn)和用戶需求,對(duì)組織機(jī)構(gòu)做如下細(xì)劃:政府機(jī)構(gòu)、職能部門、國(guó)有企業(yè)、私營(yíng)企業(yè)、團(tuán)體學(xué)校和軍區(qū)六種。之所以將政府機(jī)構(gòu)和政府職能部門劃分開來,是因?yàn)殡m然職能部門在自己相關(guān)領(lǐng)域表現(xiàn)了扮演的角色,但是其在公文領(lǐng)域所扮演的角色與政府機(jī)構(gòu)的極大的差別,他們的決定與建議只能通過政府來進(jìn)行轉(zhuǎn)發(fā)。這里定義的職能部門包括省級(jí)的財(cái)政廳、教育廳、交通廳、人事廳、信息產(chǎn)業(yè)廳、農(nóng)林廳、地礦廳和水利廳等。市級(jí)的有發(fā)展計(jì)劃委員會(huì)、經(jīng)濟(jì)委員會(huì)、建設(shè)委員會(huì)、教育局、科學(xué)技術(shù)局、監(jiān)察局、民政局和司法局等。國(guó)有企業(yè)和私營(yíng)企業(yè)因出現(xiàn)在公文中的概率不一樣而被劃歸為兩種,其經(jīng)濟(jì)成份性質(zhì)也讓人有理由將其劃分開來。
按照公文類型對(duì)公文進(jìn)行劃分,因?yàn)椴煌愋偷墓囊话憔哂胁煌膬?nèi)容和結(jié)構(gòu)。按照通知的適用范圍將通知分為以下4種:①批轉(zhuǎn)下級(jí)機(jī)關(guān)的公文;②轉(zhuǎn)發(fā)上級(jí)機(jī)關(guān)和不相隸屬機(jī)關(guān)的公文;③傳達(dá)要求下級(jí)機(jī)關(guān)辦理和需要有關(guān)單位周知或執(zhí)行的事項(xiàng);④人事任免。通報(bào)分為:表彰先進(jìn)、批評(píng)錯(cuò)誤、傳達(dá)重要指示精神或者情況。請(qǐng)示、批復(fù)、意見、函和會(huì)議紀(jì)要因其內(nèi)容單一而不進(jìn)行劃分。其主要內(nèi)容與字面意思保持一致。
4.4定義概念、術(shù)語和屬性
概念層次結(jié)構(gòu)還只是本體的骨架,其血肉就要通過概念間的關(guān)系,即屬性來充實(shí)。根據(jù)項(xiàng)目的特點(diǎn),概 念需要定義兩種屬性,一種用于描述概念的自身信息和結(jié)構(gòu);另一種用于描述概念之間的關(guān)系,即數(shù)值屬性與對(duì)象屬性。同時(shí),還需要進(jìn)行概念和關(guān)系明確定義的工作,即對(duì)屬性自身的性質(zhì),如取值類型、允許取值以及屬性的基數(shù)進(jìn)行說明。
4.5本體編碼
在這個(gè)階段,筆者利用OWL描述語言顯式地形式化上個(gè)階段完成的概念模型,這部分工作主要是通過Protégé+OWL插件的本體開發(fā)工具來完成的。出于本體資源可重用性和開發(fā)協(xié)同性的考慮,沒有像大多數(shù)本體構(gòu)建項(xiàng)目一樣,將4個(gè)核心概念和角色屬性類本體定義在一個(gè)OWL文件里。而是將4個(gè)核心概念分開定義到4個(gè)OWL文件,角色屬性類根據(jù)其語義增強(qiáng)的對(duì)象的不同定義到不同的本體文件中,這樣就得到4個(gè)本體文件。
同時(shí),通過OWL中的注釋屬性來對(duì)本體資源(類、屬性、實(shí)例等)進(jìn)行標(biāo)注。利用這些屬性可以標(biāo)注本體資源的版本信息、領(lǐng)域信息、分類信息以及開發(fā)者、備注等。這有助于開發(fā)人員分享、交流以及其他Web服務(wù)和本體獲取工具對(duì)該領(lǐng)域本體資源的識(shí)別和使用。Protégé中還提供了邏輯檢測(cè)的功能。筆者利用Racer推理機(jī)對(duì)本體庫概念和屬性進(jìn)行邏輯檢測(cè),保證了所建立的本體庫結(jié)構(gòu)的正確性。
4.6實(shí)例化
實(shí)例化工作包括實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)三個(gè)部分。因?yàn)榇吮倔w構(gòu)建項(xiàng)目的特點(diǎn)是側(cè)重信息描述(實(shí)例表現(xiàn)),所以實(shí)例化是整個(gè)開發(fā)工程過程中工作量最大,最為煩瑣的部分。雖然Protégé可以幫助我們自動(dòng)生成符合OWL語法的庫文件,但是手工在Protégé中進(jìn)行大量的實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)仍然是非常煩瑣的。所以為了減輕本體構(gòu)建的工作量,項(xiàng)目組開發(fā)了一個(gè)基于XML模式匹配的中文半自動(dòng)構(gòu)建系統(tǒng)――OntoLTCn。OntoLTCn是在OntoLT基礎(chǔ)上進(jìn)行二次開發(fā)的成果。OntoLTCn總體上按照Protégé插件框架開發(fā),運(yùn)用了中文詞法分析技術(shù),將原本面向德語文本的OntoLT框架應(yīng)用于中文本體建庫。
4.7工作成果
從檔案局11662篇電子公文檔案中,總共建立本體類76個(gè),關(guān)系屬性47個(gè),本體實(shí)例數(shù)量5427個(gè)。其中核心本體類有4個(gè):“人物”、“組織機(jī)構(gòu)”、“文件”和“事件”。這4類核心本體是湖北省檔案局相關(guān)領(lǐng)導(dǎo)和公務(wù)員共同討論確定的電子政務(wù)領(lǐng)域最核心的基本概念。在此基礎(chǔ)上,進(jìn)行了本體實(shí)例抽取,并進(jìn)一步建成本體庫。
5 結(jié)論
文章主要介紹在課題研究中所做的本體構(gòu)建工作,總結(jié)了項(xiàng)目實(shí)施中對(duì)本體的構(gòu)建過程。筆者相信利用本體的思想和方法來組織電子政務(wù)領(lǐng)域數(shù)字檔案知識(shí),構(gòu)建面向知識(shí)的數(shù)字檔案本體庫是一次非常有意義的嘗試。希望在該項(xiàng)目上所做的工作能夠?qū)Υ蠹矣兴鶐椭,也衷心希望和大家交流?jīng)驗(yàn)、相互學(xué)習(xí)。
相關(guān)熱詞搜索:本體 電子政務(wù) 構(gòu)建 電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建 電子政務(wù)工程檔案管理制度 電子政務(wù)檔案管理實(shí)驗(yàn)報(bào)告
熱點(diǎn)文章閱讀