www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

怎樣具體構建領域本體 電子政務領域數字檔案本體的構建

發(fā)布時間:2020-03-07 來源: 感恩親情 點擊:43

  [摘要]在分析電子政務領域本體構建需求的基礎上,提出構建領域本體的必備條件。針對這種需求,分析電子政務領域數字檔案的特征,并根據該特征,探討電子政務領域數字檔案本體的構建過程。
  [關鍵詞]領域本體 數字檔案 電子政務 本體構建
  [分類號]G252
  
  領域本體是用于描述指定領域知識的一種專門本體。它給出了領域實體概念及相互關系領域活動以及該領域所具有的特性和規(guī)律的一種形式化描述。目前,本體模型的研究已經進入實際應用階段,許多研究領域都建立了適用于本領域標準的本體。Web上有許多可利用的本體資源庫,這使得諸多領域專家能夠使用它們來共享領域中的信息。
  目前,國內圖書情報領域關于本體的研究尚處于起步階段,領域本體的構建是一項需要投入巨大人力物力的科研活動,要構建某一領域內的本體,決非某個人或某幾個人所能完成的。本文以電子政務領域數字檔案為例,通過對構建本體具體過程的介紹,建立了一個有關數字檔案知識本體,希望本文能對未來電子政務領域本體的進一步研究和構建提供有益的借鑒。
  
  1 電子政務領域本體構建問題的題出
  
  電子政務是指公共管理組織在政務活動中,全面應用現代化信息技術、網絡技術以及辦公自動化技術等進行辦公、管理和為社會提供各種公共服務的一種治理方式。在電子政務的初級階段,需要完成政務數字化、信息化任務:包括電子政務公文數字化、公文流轉自動化、數字檔案歸檔、政務信息上網等政務信息化基礎工作。
  湖北省檔局已將2000年以來的11662篇政務公文進行了數字化歸檔。這些公文涵蓋社會經濟政治生活的各個領域中的各種事項:有政府專項工作的部署、總結,也有職能部門對相關領域的工作匯報;有會議精神的傳達,也有對社會突發(fā)事件的報道。內容包括省委、省人大、省政府、省政協以及省委各部委、省級國家機關各委辦廳局、各人民團體、各事業(yè)單位等形成的法規(guī)性、政策性、服務性、公益性文件的目錄。這些公文內容廣泛,時間跨度長,信息量大,總共的文字統計近2000萬。湖北省檔案局不僅將這些政務公文進行掃描,數字化歸檔為Tif格式的圖片,還提供這些電子政務公文網上查詢服務。但是這種僅僅基于元數據或主題詞的查詢服務,很難滿足知識共享、輔助決策等電子政務需求。
  在這樣的背景下,湖北省檔案局和武漢大學信息資源研究中心聯合申請了“知識管理技術方法在數字檔案館建設中的應用研究”項目。在這個項目中,采取本體作為數字檔案館知識管理的核心技術,并以湖北省檔案局提供的政務公文作為原始資料,設計并實現基于本體的數字檔案館知識管理模型�;诒倔w的知識管理模型基礎是領域本體庫的構建。
  
  2 構建領域本體的必備條件
  
  本體構建是一項十分復雜的系統工程,需要選擇合適的開發(fā)工具輔助并需要領域專家的參與。筆者認為構建電子政務領域數字檔案本體至少需要以下3個方面的準備。
  
  2.1本體形式化描述語言的選擇
  本體形式化描述語言直接影響本體模型的表達能力和可擴展能力。目前的形式化的本體描述語言非常多,經過比較,選用了OWL。OWL的優(yōu)點是以Web資源為描述對象,而且是W3C的推薦標準,所以具有良好的應用前景。另外,OWL是基于描述邏輯的。這就意味著基于描述邏輯的OWL的類構造算子和公理都有相應的邏輯描述表示,這樣利用OWL構建的本體庫在具備良好的表現能力的同時還具有強大的推理能力。這對于Web資源的邏輯檢測、本體集成、知識整合是非常重要的。
  
  2.2本體開發(fā)工具的選擇
  目前,國內外已經有許多成熟的本體開發(fā)平臺軟件可供選擇。經過我們對部分常見工具的試用與比較,最終選擇的是Protégé3.3。Protégé是由斯坦福大學醫(yī)學信息化研究小組開發(fā)的,一個基于Java環(huán)境的開放式架構的開源知識建模工具。其擴展的OWL插件是目前最為強大的OWL本體構建工具。Protégé不僅具有良好的可擴展性和簡單靈活的用戶定制界面,還具有如下一些特性:支持圖形化本體編輯模式、支持數據庫存儲模式、基于OWL數據庫的多人開發(fā)模式和支持邏輯檢測功能等。
  
  2.3領域專家的參與
  領域本體構建是本體開發(fā)人員與領域專家共同努力的結果。開發(fā)人員雖然具有豐富的本體知識和較強的開發(fā)能力,但是對特定領域知識卻知之甚少,很難建立起面向特定領域的本體模型。所以本體構建非常需要領域專家的參與。在電子政務領域數字檔案本體構建過程中,湖北省檔案局的3位專家參與了本體庫構建。在整個過程中,他們細致而專業(yè)的理論支持協助了本體庫的成功建立。
  
  3 電子政務領域數字檔案的特征
  
  3.1電子政務檔案的類型分布
  現行《國家行政機關公文處理辦法》規(guī)定國家行政公文有13類:命令(令)、決定、公告、通告、通知、通報、議案、報告、指示、批復、意見、函、會議紀要等�?梢园凑丈闲形摹⑾滦形暮推叫形膶⒐姆譃槿�。其分類情況見表1。其中議案兼有上行文和平行文的雙重特征,通知同時屬于平時文和下行文之列,會議紀要可以是下行文,也可以是平行文。
  用上述13類公文的類型名在湖北省檔案局數據庫中進行檢索,發(fā)現其文件類型分布見表2(數據來自檢索結果,可能存在較小的偏差),其中上先行文請示、報告和議案不出現在檔案局的數據庫中。
  
  3.2電子政務檔案的結構特點
  檔案局電子政務文件以掃描的圖片方式進行存放。由于國家對紅頭文件的格式有著一定的顯性限制,并且長期以來,紅頭文件的書寫也存在一定的潛在規(guī)律。這些限制和規(guī)律為檔案領域本體構建提供了一定的便利。電子政務檔案一般由文件頭,正文和文件尾組成,某些文件可能有附件。正文一般由以下幾部分組成:標題、主送機關、原由和事項組成。原由有依據和目的兩種。其具體結構見圖1所示:
  
  3.3電子政務檔案內容的相對確定性
  本體在人文社科領域的應用相對較少,其中一個重要原因是人文社科領域的不確實性,不同于數理公式推理演繹過程,人文社科領域的結論多帶有主觀性。人文社科領域的發(fā)展為人類社會帶來了多樣性,但同時也增加信息管理的難度。
  檔案公文不同于一般的人文社科文獻,它具有一定的確實性。國家或某一部委在某一時間段的政策方針往往是明確的。檔案文件的相對確定性有利于檔案本體的構建。
  
  3.4電子政務檔案內容的相互關聯性
  政府公文雖然涉及到生活中的方方面面,但從系統學上講,政府公文所聯系的各個團體和個人組成了一個閉合的系統。在這樣一個聚集里面,成員是相對穩(wěn)定的,并且成員級別劃分明確。各級職權明確,如公文的接收單位一般是政府、政府職能部門、企業(yè)、機關團體、學校和軍區(qū)等,并且接收對象往往只能是一個團體,而不是團體的某個下屬部門或機構。這樣在檔案 領域本體的構建中所確定的部門本體是有限的。在這樣一個閉合的聚集里面,成員節(jié)點數量少,而相互聯系較多,這決定了各個成員之間的關系是比較復雜的,某一個成員可能成為許多聯系的成員節(jié)點。正如政府的某一項工作通常要求各個部門的合作,發(fā)揮各自的業(yè)務專長來完成。
  并且在從時間線來看,也存在著多種聯系。如一旦上級召開某些會議,作為會議成果,一般會產生一些新的思想和會議精神。一段時間后相關部門便會發(fā)布公文組織下屬各級政府進行學習。政府會承辦一些活動,政府會組織各方面的人力物力來完成這些任務,在活動結束之后,政府可能會有一些通報和表揚。
  
  4 電子政務領域數字檔案本體構建過程
  
  電子政務中的檔案領域本體構建用戶需求明確而且相對穩(wěn)定,根據本體構建常用方法:Skeletal Method―ology(骨架法)、TOVE、METHONTOLOGY、Cyclic Ac―quisition Process和IDEF-5等方法的特點及適用環(huán)境,結合電子政務中檔案館的業(yè)務特點和公文的結構和內容特性,提出了檔案領域本體構建的方法。借鑒Skeletal Methodology設計,其流程見圖2。
  
  4.1識別系統功能需求
  湖北省檔案館已經實現了相關公文的數字化,并提供按檢索號、組織機構、關鍵詞、人物、文件編號、責任者和時間等多種檢索方式,可以說其功能是比較完備的。筆者利用本體對這些公文進行組織,其目的是提供給用戶更高效地信息檢索途徑。相比于此前系統,基于本體的檢索系統細化了用戶群體,提供更具有專指性的檢索服務。筆者將用戶分為以下幾類:
  ?公文書寫者。政府機構或部門在書寫公文時需要關心以下兩方面問題:一方面是公文內容與部門已有的思想和政策是否相抵觸,若抵觸,如何協調和處理;另一方面是擬發(fā)布公文與上級機構的思想是否沖突,這種沖突是不被允許的。公文書寫者需要查看上級政府的相關政令以及部門以往的思想和政策。本體通過建立部門已有公文之間的關聯,并用可視化的方式將不同時間段的相關主題之間的關系展現給用戶。
  ?事件關注和情報了解者。這類用戶關注與事件相關的全部公文,本體分子所具有的專題功能可以將同主題的知識聚合起來,并消除冗余。這種呈現方式比以往基于關鍵字匹配的結果列表更為高效。也存在關注目標不明確的用戶,本體分子提供的多粒度知識管理實現了知識組織方式與用戶邏輯的統一。用戶可以在不同層次的概念之間輕松的實現跳轉。
  ?學習者。此類用戶更關注公文中的指導思想,而不是具體的實施方案。這種新的思想是國務院組織相關專家進行多輪討論,最終以公文的形式發(fā)放給各地方政府,并由地方政府結合自身情況來具體實施。
  ?尋求依據和了解責任者。有些公文是對個人或部門的約束。用戶需要查詢潛在的行為是否合乎規(guī)定。上級部門已有的領導方針和工作指導是部門開展工作的憑據和規(guī)范。
  ?人事、機構關注者。用戶想要了解關于某個人的生平,最近的職務情況或者是他受到的所有獎懲�;诒倔w的政務數字檔案館系統將人物這一概念從源文件中抽取出來,并且賦予一定的語義。對人物的檢索不再僅僅是表態(tài)字符的匹配,而是語義的篩選。職務作為一個概念與某個特定的人物實例關聯起來,本體分子可以處理這種關聯隨時問的動態(tài)變化。
  ?政策變化探究者。新的政策出臺、政策的改變多數是由于一些新現象、新事物的出現而引發(fā)的。只有了解政府的指導思想法和意圖才可能對新政策有更深刻地理解。
  現實事件概念的復雜性決定了本體系統應提供給用戶更多的本體庫觀察視角,更具有針對性�?偟膩碚f,基于本體的電子政務數字檔案館系統功能就具有以下特征:語義性、專指性、強推理性和邏輯一致性。
  
  4.2確定核心概念
  根據T.R。Gruber的清晰、一致、可擴展性、編碼偏好程度最小和本體約定最小的原則,筆者采用核心擴展(middle―out)方法建立領域知識概念模型。其表現形式為:由具有本體雛形的一組核心概念人手,不斷擴展本體。
  按照核心擴展法,首先需要確定核心概念集。在充分分析了檔案公文的結構形式和內容特征之后,確定了“人物”、“組織機構”、“文件對象”、和“事件”4個核心概念。核心概念作為概念模型的頂級概念,須滿足沒有二義性、互不相交和并集覆蓋電子政務數字檔案知識的要求。
  
  4.3建立概念層次結構圖
  確立核心概念后,對由這組具有本體雛形的核心概念進行擴展,建立整個本體概念模型。這是一個自頂向下的過程,即根據事先定義好的上一層父類,分別逐步細化說明其下一級子類。
  在建立概念體系過程中,需要考慮和解決概念之間關系的選擇和層次結構的組織。領域本體的概念間存在著許多關系,僅僅“部分一整體”關系就達6種之多�!安糠忠徽w”關系是本體構建中常用的層次結構劃分標準,其中“Kind of”和“Part of”是兩個最常用的。一個結構良好的、可擴展的概念模型要求其層次結構中的概念關系必須是同質的、直接父子概念之間具有相同的泛化程度。“Kind of”關系能夠很好的滿足這些要求。
  經過對概念模型中的概念進行消除二義性、同層次概念間互不相交以及并集覆蓋整個父類概念范圍的處理,最后得到了電子政務領域數字檔案本體概念模型,如圖3所示:
  根據本體工程的要求,人物劃分為公職人員、商界人物、公眾人士和國際人士。這一劃分符合本體無交叉,覆蓋完全的原則。結合公文領域所涉及的組織機構特點和用戶需求,對組織機構做如下細劃:政府機構、職能部門、國有企業(yè)、私營企業(yè)、團體學校和軍區(qū)六種。之所以將政府機構和政府職能部門劃分開來,是因為雖然職能部門在自己相關領域表現了扮演的角色,但是其在公文領域所扮演的角色與政府機構的極大的差別,他們的決定與建議只能通過政府來進行轉發(fā)。這里定義的職能部門包括省級的財政廳、教育廳、交通廳、人事廳、信息產業(yè)廳、農林廳、地礦廳和水利廳等。市級的有發(fā)展計劃委員會、經濟委員會、建設委員會、教育局、科學技術局、監(jiān)察局、民政局和司法局等。國有企業(yè)和私營企業(yè)因出現在公文中的概率不一樣而被劃歸為兩種,其經濟成份性質也讓人有理由將其劃分開來。
  按照公文類型對公文進行劃分,因為不同類型的公文一般具有不同的內容和結構。按照通知的適用范圍將通知分為以下4種:①批轉下級機關的公文;②轉發(fā)上級機關和不相隸屬機關的公文;③傳達要求下級機關辦理和需要有關單位周知或執(zhí)行的事項;④人事任免。通報分為:表彰先進、批評錯誤、傳達重要指示精神或者情況。請示、批復、意見、函和會議紀要因其內容單一而不進行劃分。其主要內容與字面意思保持一致。
  
  4.4定義概念、術語和屬性
  概念層次結構還只是本體的骨架,其血肉就要通過概念間的關系,即屬性來充實。根據項目的特點,概 念需要定義兩種屬性,一種用于描述概念的自身信息和結構;另一種用于描述概念之間的關系,即數值屬性與對象屬性。同時,還需要進行概念和關系明確定義的工作,即對屬性自身的性質,如取值類型、允許取值以及屬性的基數進行說明。
  
  4.5本體編碼
  在這個階段,筆者利用OWL描述語言顯式地形式化上個階段完成的概念模型,這部分工作主要是通過Protégé+OWL插件的本體開發(fā)工具來完成的。出于本體資源可重用性和開發(fā)協同性的考慮,沒有像大多數本體構建項目一樣,將4個核心概念和角色屬性類本體定義在一個OWL文件里。而是將4個核心概念分開定義到4個OWL文件,角色屬性類根據其語義增強的對象的不同定義到不同的本體文件中,這樣就得到4個本體文件。
  同時,通過OWL中的注釋屬性來對本體資源(類、屬性、實例等)進行標注。利用這些屬性可以標注本體資源的版本信息、領域信息、分類信息以及開發(fā)者、備注等。這有助于開發(fā)人員分享、交流以及其他Web服務和本體獲取工具對該領域本體資源的識別和使用。Protégé中還提供了邏輯檢測的功能。筆者利用Racer推理機對本體庫概念和屬性進行邏輯檢測,保證了所建立的本體庫結構的正確性。
  
  4.6實例化
  實例化工作包括實例聲明、實例描述和關系關聯三個部分。因為此本體構建項目的特點是側重信息描述(實例表現),所以實例化是整個開發(fā)工程過程中工作量最大,最為煩瑣的部分。雖然Protégé可以幫助我們自動生成符合OWL語法的庫文件,但是手工在Protégé中進行大量的實例聲明、實例描述和關系關聯仍然是非常煩瑣的。所以為了減輕本體構建的工作量,項目組開發(fā)了一個基于XML模式匹配的中文半自動構建系統――OntoLTCn。OntoLTCn是在OntoLT基礎上進行二次開發(fā)的成果。OntoLTCn總體上按照Protégé插件框架開發(fā),運用了中文詞法分析技術,將原本面向德語文本的OntoLT框架應用于中文本體建庫。
  
  4.7工作成果
  從檔案局11662篇電子公文檔案中,總共建立本體類76個,關系屬性47個,本體實例數量5427個。其中核心本體類有4個:“人物”、“組織機構”、“文件”和“事件”。這4類核心本體是湖北省檔案局相關領導和公務員共同討論確定的電子政務領域最核心的基本概念。在此基礎上,進行了本體實例抽取,并進一步建成本體庫。
  
  5 結論
  
  文章主要介紹在課題研究中所做的本體構建工作,總結了項目實施中對本體的構建過程。筆者相信利用本體的思想和方法來組織電子政務領域數字檔案知識,構建面向知識的數字檔案本體庫是一次非常有意義的嘗試。希望在該項目上所做的工作能夠對大家有所幫助,也衷心希望和大家交流經驗、相互學習。

相關熱詞搜索:本體 電子政務 構建 電子政務領域數字檔案本體的構建 電子政務工程檔案管理制度 電子政務檔案管理實驗報告

版權所有 蒲公英文摘 www.newchangjing.com