www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

怎樣具體構(gòu)建領(lǐng)域本體 電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建

發(fā)布時間:2020-03-07 來源: 感恩親情 點擊:

  [摘要]在分析電子政務(wù)領(lǐng)域本體構(gòu)建需求的基礎(chǔ)上,提出構(gòu)建領(lǐng)域本體的必備條件。針對這種需求,分析電子政務(wù)領(lǐng)域數(shù)字檔案的特征,并根據(jù)該特征,探討電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建過程。
  [關(guān)鍵詞]領(lǐng)域本體 數(shù)字檔案 電子政務(wù) 本體構(gòu)建
  [分類號]G252
  
  領(lǐng)域本體是用于描述指定領(lǐng)域知識的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系領(lǐng)域活動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。目前,本體模型的研究已經(jīng)進入實際應(yīng)用階段,許多研究領(lǐng)域都建立了適用于本領(lǐng)域標(biāo)準(zhǔn)的本體。Web上有許多可利用的本體資源庫,這使得諸多領(lǐng)域?qū)<夷軌蚴褂盟鼈儊砉蚕眍I(lǐng)域中的信息。
  目前,國內(nèi)圖書情報領(lǐng)域關(guān)于本體的研究尚處于起步階段,領(lǐng)域本體的構(gòu)建是一項需要投入巨大人力物力的科研活動,要構(gòu)建某一領(lǐng)域內(nèi)的本體,決非某個人或某幾個人所能完成的。本文以電子政務(wù)領(lǐng)域數(shù)字檔案為例,通過對構(gòu)建本體具體過程的介紹,建立了一個有關(guān)數(shù)字檔案知識本體,希望本文能對未來電子政務(wù)領(lǐng)域本體的進一步研究和構(gòu)建提供有益的借鑒。
  
  1 電子政務(wù)領(lǐng)域本體構(gòu)建問題的題出
  
  電子政務(wù)是指公共管理組織在政務(wù)活動中,全面應(yīng)用現(xiàn)代化信息技術(shù)、網(wǎng)絡(luò)技術(shù)以及辦公自動化技術(shù)等進行辦公、管理和為社會提供各種公共服務(wù)的一種治理方式。在電子政務(wù)的初級階段,需要完成政務(wù)數(shù)字化、信息化任務(wù):包括電子政務(wù)公文數(shù)字化、公文流轉(zhuǎn)自動化、數(shù)字檔案歸檔、政務(wù)信息上網(wǎng)等政務(wù)信息化基礎(chǔ)工作。
  湖北省檔局已將2000年以來的11662篇政務(wù)公文進行了數(shù)字化歸檔。這些公文涵蓋社會經(jīng)濟政治生活的各個領(lǐng)域中的各種事項:有政府專項工作的部署、總結(jié),也有職能部門對相關(guān)領(lǐng)域的工作匯報;有會議精神的傳達,也有對社會突發(fā)事件的報道。內(nèi)容包括省委、省人大、省政府、省政協(xié)以及省委各部委、省級國家機關(guān)各委辦廳局、各人民團體、各事業(yè)單位等形成的法規(guī)性、政策性、服務(wù)性、公益性文件的目錄。這些公文內(nèi)容廣泛,時間跨度長,信息量大,總共的文字統(tǒng)計近2000萬。湖北省檔案局不僅將這些政務(wù)公文進行掃描,數(shù)字化歸檔為Tif格式的圖片,還提供這些電子政務(wù)公文網(wǎng)上查詢服務(wù)。但是這種僅僅基于元數(shù)據(jù)或主題詞的查詢服務(wù),很難滿足知識共享、輔助決策等電子政務(wù)需求。
  在這樣的背景下,湖北省檔案局和武漢大學(xué)信息資源研究中心聯(lián)合申請了“知識管理技術(shù)方法在數(shù)字檔案館建設(shè)中的應(yīng)用研究”項目。在這個項目中,采取本體作為數(shù)字檔案館知識管理的核心技術(shù),并以湖北省檔案局提供的政務(wù)公文作為原始資料,設(shè)計并實現(xiàn)基于本體的數(shù)字檔案館知識管理模型;诒倔w的知識管理模型基礎(chǔ)是領(lǐng)域本體庫的構(gòu)建。
  
  2 構(gòu)建領(lǐng)域本體的必備條件
  
  本體構(gòu)建是一項十分復(fù)雜的系統(tǒng)工程,需要選擇合適的開發(fā)工具輔助并需要領(lǐng)域?qū)<业膮⑴c。筆者認為構(gòu)建電子政務(wù)領(lǐng)域數(shù)字檔案本體至少需要以下3個方面的準(zhǔn)備。
  
  2.1本體形式化描述語言的選擇
  本體形式化描述語言直接影響本體模型的表達能力和可擴展能力。目前的形式化的本體描述語言非常多,經(jīng)過比較,選用了OWL。OWL的優(yōu)點是以Web資源為描述對象,而且是W3C的推薦標(biāo)準(zhǔn),所以具有良好的應(yīng)用前景。另外,OWL是基于描述邏輯的。這就意味著基于描述邏輯的OWL的類構(gòu)造算子和公理都有相應(yīng)的邏輯描述表示,這樣利用OWL構(gòu)建的本體庫在具備良好的表現(xiàn)能力的同時還具有強大的推理能力。這對于Web資源的邏輯檢測、本體集成、知識整合是非常重要的。
  
  2.2本體開發(fā)工具的選擇
  目前,國內(nèi)外已經(jīng)有許多成熟的本體開發(fā)平臺軟件可供選擇。經(jīng)過我們對部分常見工具的試用與比較,最終選擇的是Protégé3.3。Protégé是由斯坦福大學(xué)醫(yī)學(xué)信息化研究小組開發(fā)的,一個基于Java環(huán)境的開放式架構(gòu)的開源知識建模工具。其擴展的OWL插件是目前最為強大的OWL本體構(gòu)建工具。Protégé不僅具有良好的可擴展性和簡單靈活的用戶定制界面,還具有如下一些特性:支持圖形化本體編輯模式、支持數(shù)據(jù)庫存儲模式、基于OWL數(shù)據(jù)庫的多人開發(fā)模式和支持邏輯檢測功能等。
  
  2.3領(lǐng)域?qū)<业膮⑴c
  領(lǐng)域本體構(gòu)建是本體開發(fā)人員與領(lǐng)域?qū)<夜餐Φ慕Y(jié)果。開發(fā)人員雖然具有豐富的本體知識和較強的開發(fā)能力,但是對特定領(lǐng)域知識卻知之甚少,很難建立起面向特定領(lǐng)域的本體模型。所以本體構(gòu)建非常需要領(lǐng)域?qū)<业膮⑴c。在電子政務(wù)領(lǐng)域數(shù)字檔案本體構(gòu)建過程中,湖北省檔案局的3位專家參與了本體庫構(gòu)建。在整個過程中,他們細致而專業(yè)的理論支持協(xié)助了本體庫的成功建立。
  
  3 電子政務(wù)領(lǐng)域數(shù)字檔案的特征
  
  3.1電子政務(wù)檔案的類型分布
  現(xiàn)行《國家行政機關(guān)公文處理辦法》規(guī)定國家行政公文有13類:命令(令)、決定、公告、通告、通知、通報、議案、報告、指示、批復(fù)、意見、函、會議紀要等?梢园凑丈闲形、下行文和平行文將公文分為三類。其分類情況見表1。其中議案兼有上行文和平行文的雙重特征,通知同時屬于平時文和下行文之列,會議紀要可以是下行文,也可以是平行文。
  用上述13類公文的類型名在湖北省檔案局數(shù)據(jù)庫中進行檢索,發(fā)現(xiàn)其文件類型分布見表2(數(shù)據(jù)來自檢索結(jié)果,可能存在較小的偏差),其中上先行文請示、報告和議案不出現(xiàn)在檔案局的數(shù)據(jù)庫中。
  
  3.2電子政務(wù)檔案的結(jié)構(gòu)特點
  檔案局電子政務(wù)文件以掃描的圖片方式進行存放。由于國家對紅頭文件的格式有著一定的顯性限制,并且長期以來,紅頭文件的書寫也存在一定的潛在規(guī)律。這些限制和規(guī)律為檔案領(lǐng)域本體構(gòu)建提供了一定的便利。電子政務(wù)檔案一般由文件頭,正文和文件尾組成,某些文件可能有附件。正文一般由以下幾部分組成:標(biāo)題、主送機關(guān)、原由和事項組成。原由有依據(jù)和目的兩種。其具體結(jié)構(gòu)見圖1所示:
  
  3.3電子政務(wù)檔案內(nèi)容的相對確定性
  本體在人文社科領(lǐng)域的應(yīng)用相對較少,其中一個重要原因是人文社科領(lǐng)域的不確實性,不同于數(shù)理公式推理演繹過程,人文社科領(lǐng)域的結(jié)論多帶有主觀性。人文社科領(lǐng)域的發(fā)展為人類社會帶來了多樣性,但同時也增加信息管理的難度。
  檔案公文不同于一般的人文社科文獻,它具有一定的確實性。國家或某一部委在某一時間段的政策方針往往是明確的。檔案文件的相對確定性有利于檔案本體的構(gòu)建。
  
  3.4電子政務(wù)檔案內(nèi)容的相互關(guān)聯(lián)性
  政府公文雖然涉及到生活中的方方面面,但從系統(tǒng)學(xué)上講,政府公文所聯(lián)系的各個團體和個人組成了一個閉合的系統(tǒng)。在這樣一個聚集里面,成員是相對穩(wěn)定的,并且成員級別劃分明確。各級職權(quán)明確,如公文的接收單位一般是政府、政府職能部門、企業(yè)、機關(guān)團體、學(xué)校和軍區(qū)等,并且接收對象往往只能是一個團體,而不是團體的某個下屬部門或機構(gòu)。這樣在檔案 領(lǐng)域本體的構(gòu)建中所確定的部門本體是有限的。在這樣一個閉合的聚集里面,成員節(jié)點數(shù)量少,而相互聯(lián)系較多,這決定了各個成員之間的關(guān)系是比較復(fù)雜的,某一個成員可能成為許多聯(lián)系的成員節(jié)點。正如政府的某一項工作通常要求各個部門的合作,發(fā)揮各自的業(yè)務(wù)專長來完成。
  并且在從時間線來看,也存在著多種聯(lián)系。如一旦上級召開某些會議,作為會議成果,一般會產(chǎn)生一些新的思想和會議精神。一段時間后相關(guān)部門便會發(fā)布公文組織下屬各級政府進行學(xué)習(xí)。政府會承辦一些活動,政府會組織各方面的人力物力來完成這些任務(wù),在活動結(jié)束之后,政府可能會有一些通報和表揚。
  
  4 電子政務(wù)領(lǐng)域數(shù)字檔案本體構(gòu)建過程
  
  電子政務(wù)中的檔案領(lǐng)域本體構(gòu)建用戶需求明確而且相對穩(wěn)定,根據(jù)本體構(gòu)建常用方法:Skeletal Method―ology(骨架法)、TOVE、METHONTOLOGY、Cyclic Ac―quisition Process和IDEF-5等方法的特點及適用環(huán)境,結(jié)合電子政務(wù)中檔案館的業(yè)務(wù)特點和公文的結(jié)構(gòu)和內(nèi)容特性,提出了檔案領(lǐng)域本體構(gòu)建的方法。借鑒Skeletal Methodology設(shè)計,其流程見圖2。
  
  4.1識別系統(tǒng)功能需求
  湖北省檔案館已經(jīng)實現(xiàn)了相關(guān)公文的數(shù)字化,并提供按檢索號、組織機構(gòu)、關(guān)鍵詞、人物、文件編號、責(zé)任者和時間等多種檢索方式,可以說其功能是比較完備的。筆者利用本體對這些公文進行組織,其目的是提供給用戶更高效地信息檢索途徑。相比于此前系統(tǒng),基于本體的檢索系統(tǒng)細化了用戶群體,提供更具有專指性的檢索服務(wù)。筆者將用戶分為以下幾類:
  ?公文書寫者。政府機構(gòu)或部門在書寫公文時需要關(guān)心以下兩方面問題:一方面是公文內(nèi)容與部門已有的思想和政策是否相抵觸,若抵觸,如何協(xié)調(diào)和處理;另一方面是擬發(fā)布公文與上級機構(gòu)的思想是否沖突,這種沖突是不被允許的。公文書寫者需要查看上級政府的相關(guān)政令以及部門以往的思想和政策。本體通過建立部門已有公文之間的關(guān)聯(lián),并用可視化的方式將不同時間段的相關(guān)主題之間的關(guān)系展現(xiàn)給用戶。
  ?事件關(guān)注和情報了解者。這類用戶關(guān)注與事件相關(guān)的全部公文,本體分子所具有的專題功能可以將同主題的知識聚合起來,并消除冗余。這種呈現(xiàn)方式比以往基于關(guān)鍵字匹配的結(jié)果列表更為高效。也存在關(guān)注目標(biāo)不明確的用戶,本體分子提供的多粒度知識管理實現(xiàn)了知識組織方式與用戶邏輯的統(tǒng)一。用戶可以在不同層次的概念之間輕松的實現(xiàn)跳轉(zhuǎn)。
  ?學(xué)習(xí)者。此類用戶更關(guān)注公文中的指導(dǎo)思想,而不是具體的實施方案。這種新的思想是國務(wù)院組織相關(guān)專家進行多輪討論,最終以公文的形式發(fā)放給各地方政府,并由地方政府結(jié)合自身情況來具體實施。
  ?尋求依據(jù)和了解責(zé)任者。有些公文是對個人或部門的約束。用戶需要查詢潛在的行為是否合乎規(guī)定。上級部門已有的領(lǐng)導(dǎo)方針和工作指導(dǎo)是部門開展工作的憑據(jù)和規(guī)范。
  ?人事、機構(gòu)關(guān)注者。用戶想要了解關(guān)于某個人的生平,最近的職務(wù)情況或者是他受到的所有獎懲;诒倔w的政務(wù)數(shù)字檔案館系統(tǒng)將人物這一概念從源文件中抽取出來,并且賦予一定的語義。對人物的檢索不再僅僅是表態(tài)字符的匹配,而是語義的篩選。職務(wù)作為一個概念與某個特定的人物實例關(guān)聯(lián)起來,本體分子可以處理這種關(guān)聯(lián)隨時問的動態(tài)變化。
  ?政策變化探究者。新的政策出臺、政策的改變多數(shù)是由于一些新現(xiàn)象、新事物的出現(xiàn)而引發(fā)的。只有了解政府的指導(dǎo)思想法和意圖才可能對新政策有更深刻地理解。
  現(xiàn)實事件概念的復(fù)雜性決定了本體系統(tǒng)應(yīng)提供給用戶更多的本體庫觀察視角,更具有針對性?偟膩碚f,基于本體的電子政務(wù)數(shù)字檔案館系統(tǒng)功能就具有以下特征:語義性、專指性、強推理性和邏輯一致性。
  
  4.2確定核心概念
  根據(jù)T.R。Gruber的清晰、一致、可擴展性、編碼偏好程度最小和本體約定最小的原則,筆者采用核心擴展(middle―out)方法建立領(lǐng)域知識概念模型。其表現(xiàn)形式為:由具有本體雛形的一組核心概念人手,不斷擴展本體。
  按照核心擴展法,首先需要確定核心概念集。在充分分析了檔案公文的結(jié)構(gòu)形式和內(nèi)容特征之后,確定了“人物”、“組織機構(gòu)”、“文件對象”、和“事件”4個核心概念。核心概念作為概念模型的頂級概念,須滿足沒有二義性、互不相交和并集覆蓋電子政務(wù)數(shù)字檔案知識的要求。
  
  4.3建立概念層次結(jié)構(gòu)圖
  確立核心概念后,對由這組具有本體雛形的核心概念進行擴展,建立整個本體概念模型。這是一個自頂向下的過程,即根據(jù)事先定義好的上一層父類,分別逐步細化說明其下一級子類。
  在建立概念體系過程中,需要考慮和解決概念之間關(guān)系的選擇和層次結(jié)構(gòu)的組織。領(lǐng)域本體的概念間存在著許多關(guān)系,僅僅“部分一整體”關(guān)系就達6種之多!安糠忠徽w”關(guān)系是本體構(gòu)建中常用的層次結(jié)構(gòu)劃分標(biāo)準(zhǔn),其中“Kind of”和“Part of”是兩個最常用的。一個結(jié)構(gòu)良好的、可擴展的概念模型要求其層次結(jié)構(gòu)中的概念關(guān)系必須是同質(zhì)的、直接父子概念之間具有相同的泛化程度!癒ind of”關(guān)系能夠很好的滿足這些要求。
  經(jīng)過對概念模型中的概念進行消除二義性、同層次概念間互不相交以及并集覆蓋整個父類概念范圍的處理,最后得到了電子政務(wù)領(lǐng)域數(shù)字檔案本體概念模型,如圖3所示:
  根據(jù)本體工程的要求,人物劃分為公職人員、商界人物、公眾人士和國際人士。這一劃分符合本體無交叉,覆蓋完全的原則。結(jié)合公文領(lǐng)域所涉及的組織機構(gòu)特點和用戶需求,對組織機構(gòu)做如下細劃:政府機構(gòu)、職能部門、國有企業(yè)、私營企業(yè)、團體學(xué)校和軍區(qū)六種。之所以將政府機構(gòu)和政府職能部門劃分開來,是因為雖然職能部門在自己相關(guān)領(lǐng)域表現(xiàn)了扮演的角色,但是其在公文領(lǐng)域所扮演的角色與政府機構(gòu)的極大的差別,他們的決定與建議只能通過政府來進行轉(zhuǎn)發(fā)。這里定義的職能部門包括省級的財政廳、教育廳、交通廳、人事廳、信息產(chǎn)業(yè)廳、農(nóng)林廳、地礦廳和水利廳等。市級的有發(fā)展計劃委員會、經(jīng)濟委員會、建設(shè)委員會、教育局、科學(xué)技術(shù)局、監(jiān)察局、民政局和司法局等。國有企業(yè)和私營企業(yè)因出現(xiàn)在公文中的概率不一樣而被劃歸為兩種,其經(jīng)濟成份性質(zhì)也讓人有理由將其劃分開來。
  按照公文類型對公文進行劃分,因為不同類型的公文一般具有不同的內(nèi)容和結(jié)構(gòu)。按照通知的適用范圍將通知分為以下4種:①批轉(zhuǎn)下級機關(guān)的公文;②轉(zhuǎn)發(fā)上級機關(guān)和不相隸屬機關(guān)的公文;③傳達要求下級機關(guān)辦理和需要有關(guān)單位周知或執(zhí)行的事項;④人事任免。通報分為:表彰先進、批評錯誤、傳達重要指示精神或者情況。請示、批復(fù)、意見、函和會議紀要因其內(nèi)容單一而不進行劃分。其主要內(nèi)容與字面意思保持一致。
  
  4.4定義概念、術(shù)語和屬性
  概念層次結(jié)構(gòu)還只是本體的骨架,其血肉就要通過概念間的關(guān)系,即屬性來充實。根據(jù)項目的特點,概 念需要定義兩種屬性,一種用于描述概念的自身信息和結(jié)構(gòu);另一種用于描述概念之間的關(guān)系,即數(shù)值屬性與對象屬性。同時,還需要進行概念和關(guān)系明確定義的工作,即對屬性自身的性質(zhì),如取值類型、允許取值以及屬性的基數(shù)進行說明。
  
  4.5本體編碼
  在這個階段,筆者利用OWL描述語言顯式地形式化上個階段完成的概念模型,這部分工作主要是通過Protégé+OWL插件的本體開發(fā)工具來完成的。出于本體資源可重用性和開發(fā)協(xié)同性的考慮,沒有像大多數(shù)本體構(gòu)建項目一樣,將4個核心概念和角色屬性類本體定義在一個OWL文件里。而是將4個核心概念分開定義到4個OWL文件,角色屬性類根據(jù)其語義增強的對象的不同定義到不同的本體文件中,這樣就得到4個本體文件。
  同時,通過OWL中的注釋屬性來對本體資源(類、屬性、實例等)進行標(biāo)注。利用這些屬性可以標(biāo)注本體資源的版本信息、領(lǐng)域信息、分類信息以及開發(fā)者、備注等。這有助于開發(fā)人員分享、交流以及其他Web服務(wù)和本體獲取工具對該領(lǐng)域本體資源的識別和使用。Protégé中還提供了邏輯檢測的功能。筆者利用Racer推理機對本體庫概念和屬性進行邏輯檢測,保證了所建立的本體庫結(jié)構(gòu)的正確性。
  
  4.6實例化
  實例化工作包括實例聲明、實例描述和關(guān)系關(guān)聯(lián)三個部分。因為此本體構(gòu)建項目的特點是側(cè)重信息描述(實例表現(xiàn)),所以實例化是整個開發(fā)工程過程中工作量最大,最為煩瑣的部分。雖然Protégé可以幫助我們自動生成符合OWL語法的庫文件,但是手工在Protégé中進行大量的實例聲明、實例描述和關(guān)系關(guān)聯(lián)仍然是非常煩瑣的。所以為了減輕本體構(gòu)建的工作量,項目組開發(fā)了一個基于XML模式匹配的中文半自動構(gòu)建系統(tǒng)――OntoLTCn。OntoLTCn是在OntoLT基礎(chǔ)上進行二次開發(fā)的成果。OntoLTCn總體上按照Protégé插件框架開發(fā),運用了中文詞法分析技術(shù),將原本面向德語文本的OntoLT框架應(yīng)用于中文本體建庫。
  
  4.7工作成果
  從檔案局11662篇電子公文檔案中,總共建立本體類76個,關(guān)系屬性47個,本體實例數(shù)量5427個。其中核心本體類有4個:“人物”、“組織機構(gòu)”、“文件”和“事件”。這4類核心本體是湖北省檔案局相關(guān)領(lǐng)導(dǎo)和公務(wù)員共同討論確定的電子政務(wù)領(lǐng)域最核心的基本概念。在此基礎(chǔ)上,進行了本體實例抽取,并進一步建成本體庫。
  
  5 結(jié)論
  
  文章主要介紹在課題研究中所做的本體構(gòu)建工作,總結(jié)了項目實施中對本體的構(gòu)建過程。筆者相信利用本體的思想和方法來組織電子政務(wù)領(lǐng)域數(shù)字檔案知識,構(gòu)建面向知識的數(shù)字檔案本體庫是一次非常有意義的嘗試。希望在該項目上所做的工作能夠?qū)Υ蠹矣兴鶐椭仓孕南M痛蠹医涣鹘?jīng)驗、相互學(xué)習(xí)。

相關(guān)熱詞搜索:本體 電子政務(wù) 構(gòu)建 電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建 電子政務(wù)工程檔案管理制度 電子政務(wù)檔案管理實驗報告

版權(quán)所有 蒲公英文摘 www.newchangjing.com