歐萊雅網(wǎng)絡(luò)營(yíng)銷(xiāo)策略【基于語(yǔ)義模型的數(shù)字圖書(shū)館知識(shí)組織信息抽取策略】
發(fā)布時(shí)間:2020-03-07 來(lái)源: 人生感悟 點(diǎn)擊:
[摘要]簡(jiǎn)述語(yǔ)義模型是實(shí)現(xiàn)數(shù)字資源語(yǔ)義關(guān)系形式化描述的方式,是數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)的重要影響因素。作為數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)的重要環(huán)節(jié),信息抽取需要本體提供語(yǔ)義知識(shí)依據(jù),同時(shí)產(chǎn)生的文檔也可以作為設(shè)計(jì)和豐富本體的知識(shí)資源。構(gòu)建數(shù)字圖書(shū)館知識(shí)組織語(yǔ)言聯(lián)的語(yǔ)義模型以“元數(shù)據(jù)、領(lǐng)域本體、橋本體、本體解析體系”為核心要素,在此基礎(chǔ)上探討信息抽取的策略。
[關(guān)鍵詞]數(shù)字圖書(shū)館 語(yǔ)義模型 信息抽取 本體
[分類(lèi)號(hào)]G250.76
1 引言
語(yǔ)義是指“數(shù)據(jù)(符號(hào))”所指代的概念的含義以及這些含義之間的關(guān)系,是對(duì)數(shù)據(jù)的抽象或者更高層次的邏輯表示。語(yǔ)義通過(guò)兩種途徑產(chǎn)生:①人類(lèi)賦予;②通過(guò)計(jì)算模型產(chǎn)生。通過(guò)第二種方式產(chǎn)生的語(yǔ)義可以被計(jì)算機(jī)理解和處理,可以被獲取、傳遞、共享。根據(jù)實(shí)體資源(如文本和圖像)來(lái)產(chǎn)生語(yǔ)義或挖掘出信息所蘊(yùn)含的隱性語(yǔ)義是一個(gè)挑戰(zhàn)性的任務(wù);诮y(tǒng)計(jì)的聚類(lèi)分析、共詞分析、信息抽取和挖掘技術(shù)可以幫助實(shí)現(xiàn)語(yǔ)義的自動(dòng)抽取。實(shí)現(xiàn)的關(guān)鍵在于建立一個(gè)語(yǔ)義模型,該模型既適用于顯式語(yǔ)義,又適用于通過(guò)顯式語(yǔ)義挖掘推導(dǎo)出隱含語(yǔ)義。語(yǔ)義模型是通過(guò)模型作為媒介來(lái)實(shí)現(xiàn)數(shù)據(jù)語(yǔ)義關(guān)系形式化描述的一種方式;诒倔w的語(yǔ)義模型是通過(guò)以本體為核心的模型作為媒介,實(shí)現(xiàn)數(shù)字資源語(yǔ)義關(guān)系形式化描述的一種方式。本文基于本體構(gòu)建了語(yǔ)義模型,并基于該語(yǔ)義模型探討數(shù)字圖書(shū)館知識(shí)組織過(guò)程中信息抽取策略。
2 信息抽取與本體
信息抽取是從分布的、異構(gòu)的文本中提取出特定的事實(shí)信息,將其中隱含的語(yǔ)義提取出來(lái)并以更為結(jié)構(gòu)化、更為清晰的形式表示,為用戶使用提供便利。信息抽取與語(yǔ)義標(biāo)注總是融合在一起、互相支持的;信息抽取需要在語(yǔ)義標(biāo)注的基礎(chǔ)上進(jìn)行,語(yǔ)義標(biāo)注的內(nèi)容是經(jīng)過(guò)信息抽取提取出來(lái)的。因此,目前對(duì)于信息抽取研究離不開(kāi)對(duì)抽取對(duì)象的語(yǔ)義分析和描述。語(yǔ)義分析與描述技術(shù)的研究熱點(diǎn)是本體技術(shù)。
本體是對(duì)面向計(jì)算機(jī)語(yǔ)言的、已被組織的知識(shí)的描述,而信息抽取是面向自然語(yǔ)言,分析文檔表達(dá)的事實(shí)和從這些文檔中提取相關(guān)信息片段。信息抽取和本體是相輔相成的:作為抽取相關(guān)信息的理解程序,本體被用于信息抽取,是信息抽取的語(yǔ)義知識(shí)依據(jù);信息抽取可以豐富本體,因?yàn)樾畔⒊槿〕鰜?lái)的文檔可以作為設(shè)計(jì)和豐富本體的知識(shí)資源。
這兩方面的任務(wù)被結(jié)合在循環(huán)中(見(jiàn)圖1)。本體可以有效地、準(zhǔn)確地、解釋信息抽取出來(lái)的數(shù)據(jù),而信息抽取從文檔提取出來(lái)的新知識(shí)可以整合進(jìn)入本體從而豐富本體。
2.1本體對(duì)信息抽取的支持
在抽取過(guò)程中,本體知識(shí)對(duì)文檔的語(yǔ)義解釋具有重要作用。
本體對(duì)領(lǐng)域概念以及概念的多種形式進(jìn)行了規(guī)范性說(shuō)明,因此在信息抽取中可以用來(lái)進(jìn)行字符串的語(yǔ)義分析,進(jìn)而進(jìn)行概念識(shí)別;在信息抽取過(guò)程中,需要領(lǐng)域本體對(duì)文檔中實(shí)體名稱(chēng)進(jìn)行識(shí)別與分類(lèi)。本體中的類(lèi)可以對(duì)信息抽取文檔進(jìn)行概念識(shí)別、語(yǔ)義標(biāo)注和概念規(guī)范。
本體的概念層次結(jié)構(gòu)。傳統(tǒng)信息抽取的重點(diǎn)是使用同義詞集而不是層次關(guān)系。例如,在wordNet中,同義詞集可以用于語(yǔ)義標(biāo)注和消歧,但上下類(lèi)關(guān)系還需要本體參與。本體中包含的語(yǔ)義類(lèi)型或語(yǔ)義的層次關(guān)系,有助于通過(guò)抽取內(nèi)容進(jìn)行推理和忠實(shí)釋義。
更先進(jìn)的信息抽取系統(tǒng)也需要利用領(lǐng)域本體的概念節(jié)點(diǎn)、概念節(jié)點(diǎn)的屬性和相互關(guān)系予以描述。本體中的概念與屬性值能夠清楚地描述信息抽取對(duì)象的本質(zhì)。對(duì)于文檔中抽取對(duì)象的分析既能提高自然語(yǔ)言處理,又能指導(dǎo)概念框架的實(shí)體構(gòu)成,而相應(yīng)的規(guī)則即是基于短語(yǔ)模型,更多是基于語(yǔ)義分析的。
領(lǐng)域概念模型。領(lǐng)域概念模型本身用于推理,它能合并不同表現(xiàn)形式的同一概念,并且能夠揭示出隱含的語(yǔ)義。
2.2信息抽取對(duì)本體的豐富
本體構(gòu)建一直是公認(rèn)的語(yǔ)義進(jìn)程中的瓶頸,而信息抽取有助于本體構(gòu)建。已經(jīng)提出各種方法用于語(yǔ)料庫(kù)的建設(shè)以利于本體構(gòu)建,如基于規(guī)則的信息抽取即是對(duì)本體構(gòu)建方法的補(bǔ)充;谕评硪(guī)則抽取出基本數(shù)據(jù),通過(guò)已有本體對(duì)該數(shù)據(jù)進(jìn)行概念及概念關(guān)系分析,在此基礎(chǔ)上將數(shù)據(jù)中新的概念或概念間的新關(guān)系整合到本體。
實(shí)體命名抽。簩(shí)體命名通過(guò)在本體中以實(shí)例的形式表示。從這個(gè)角度看,需要自動(dòng)地不斷地為本體增添一些熱門(mén)領(lǐng)域的實(shí)體名稱(chēng)。而信息抽取被廣泛應(yīng)用于識(shí)別和分類(lèi)文檔、網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)等中的實(shí)體。
關(guān)系抽取:在結(jié)構(gòu)化本體中,概念與概念之間存在著語(yǔ)義關(guān)聯(lián)。目前從文檔中獲取本體關(guān)系的方法主要有三種:基于共詞分析方法、基于知識(shí)庫(kù)方法和基于信息抽取模式方法。信息提取模式方法提升了前兩種方式:第一種方法需要對(duì)基本關(guān)系類(lèi)型進(jìn)行解釋?zhuān)畔⒊槿≈械囊?guī)則就是特色化關(guān)系;第二種方法原有的知識(shí)可以幫助設(shè)計(jì)一個(gè)提取規(guī)則。
信息抽取通過(guò)本體進(jìn)行基于領(lǐng)域的語(yǔ)義分析,提升信息的語(yǔ)義性,為智能檢索打下基礎(chǔ);本體通過(guò)信息抽取不斷學(xué)習(xí),不斷演化,解決本體構(gòu)建的瓶頸問(wèn)題。鑒于此,本文基于本體構(gòu)建數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)的語(yǔ)義模型,利用語(yǔ)義模型探討語(yǔ)義互聯(lián)實(shí)現(xiàn)過(guò)程中各個(gè)重要環(huán)節(jié)的策略,進(jìn)而最終完成數(shù)字圖書(shū)館知識(shí)組織的語(yǔ)義互聯(lián)。
3 數(shù)字圖書(shū)館互聯(lián)的語(yǔ)義模型
語(yǔ)義模型是對(duì)內(nèi)容語(yǔ)義、語(yǔ)義類(lèi)型及語(yǔ)義關(guān)系進(jìn)行描述和組織的機(jī)制,它試圖在用戶的信息需求和信息資源之間搭建一座橋梁,將兩者靈活而有機(jī)地結(jié)合起來(lái),從語(yǔ)義的角度來(lái)解析信息資源,進(jìn)而從互理解的角度來(lái)提升用戶檢索的準(zhǔn)確度和召回率,更好地滿足用戶的信息需求。語(yǔ)義模型是影響數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)的核心要素。本文構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語(yǔ)義模型,利用語(yǔ)義模型實(shí)現(xiàn)數(shù)字圖書(shū)館知識(shí)組織過(guò)程中的數(shù)字資源、用戶需求表達(dá)的語(yǔ)義解析,完成數(shù)字圖書(shū)館用戶交互層、內(nèi)容管理與功能層、內(nèi)容層之間的語(yǔ)義映射。其中,元數(shù)據(jù)進(jìn)行資源的標(biāo)準(zhǔn)化描述,領(lǐng)域本體進(jìn)行概念以及概念之間關(guān)系的語(yǔ)義標(biāo)注,橋本體用于資源之間語(yǔ)義聚合,本體解析主要解決本體的具體效用發(fā)揮的方式,如圖2所示:
3.1元數(shù)據(jù)
元數(shù)據(jù)是數(shù)字圖書(shū)館用來(lái)解決語(yǔ)義互聯(lián)的重要基礎(chǔ)工具。數(shù)字圖書(shū)館由資源構(gòu)成,而資源是可以被標(biāo)識(shí)的。元數(shù)據(jù)提供了對(duì)資源各種屬性的描述。元數(shù)據(jù)通過(guò)定義數(shù)字圖書(shū)館中資源的信息結(jié)構(gòu)以及定義由數(shù)字對(duì)象構(gòu)成的資源庫(kù)的組織結(jié)構(gòu),決定著數(shù)字圖書(shū)館知識(shí)組織和知識(shí)服務(wù)方式。元數(shù)據(jù)發(fā)展比較成熟,已經(jīng)形成完整規(guī)范的元數(shù)據(jù)體系,包括元數(shù)據(jù)格式、元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)方案、元數(shù)據(jù)應(yīng)用綱要、元數(shù)據(jù)注冊(cè)系統(tǒng)等等,這些為數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)打下了基礎(chǔ)。
3.2領(lǐng)域本體
領(lǐng)域本體是知識(shí)組織體系中重要組成部分,其目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí)。領(lǐng)域本體是對(duì)領(lǐng)域內(nèi)共享概念模型的明確的形式化的規(guī)范說(shuō)明;概念以及概念之間的關(guān)系是經(jīng)過(guò)精確定義的,提供了對(duì)領(lǐng)域知識(shí)的共同理解與描述,能夠?yàn)橛?jì)算機(jī)所使用并可用數(shù)學(xué)方 式表達(dá)。在領(lǐng)域本體技術(shù)驅(qū)動(dòng)下,信息資源以全新方式進(jìn)行組織,組織原理發(fā)生如下改變:①?gòu)挠脩艨衫斫獾綑C(jī)器可理解;②從信息描述到知識(shí)表現(xiàn);③從語(yǔ)義隱含到語(yǔ)義揭示;④從“以概念為中心”到“以概念一關(guān)系為中心”;⑤從信息表示到智能推理。這些變化要求知識(shí)組織理論、形式、方法、技術(shù)、體系以及知識(shí)組織過(guò)程都要隨之改變,實(shí)現(xiàn)對(duì)資源從語(yǔ)法層面向語(yǔ)義層面深入,最后直至語(yǔ)用層面的組織,在獲取、表示、加工、存儲(chǔ)、重組、提供、共享、利用、控制等知識(shí)組織過(guò)程中,充分體現(xiàn)語(yǔ)義性,在數(shù)字圖書(shū)館系統(tǒng)的各層之間,在用戶、資源、服務(wù)之間,形成語(yǔ)義互理解和互操作。
3.3橋本體
橋本體是一種特殊的本體,完成不同領(lǐng)域本體概念之間關(guān)系的映射,進(jìn)而實(shí)現(xiàn)本體整合,形成領(lǐng)域內(nèi)的共享本體。橋本體記作Obridg。,可以用一個(gè)六元組表示:
Obridge={cb,Acb,Rb,Arb,hb,xb}(1)
其中,cb表示橋本體概念的集合,Acb表示橋本體概念所對(duì)應(yīng)的屬性集的集合,Rb表示橋本體之間關(guān)系的集合;Arb是橋本體之間關(guān)系所對(duì)應(yīng)的屬性集的集合,Hb代表了概念的層次結(jié)構(gòu),xb是一系列公理集合。
在概念上,橋本體具有四層樹(shù)形結(jié)構(gòu)(見(jiàn)圖3):第一層是最普遍的概念,標(biāo)記為T(mén);第二層具有概念橋和關(guān)系橋兩個(gè)概念,它們分別表示了兩種不同的橋關(guān)系;第三層由10種不同類(lèi)型的子類(lèi)橋組成;第四層是一系列動(dòng)態(tài)創(chuàng)建概念的集合,它們的屬性描述了不同本體之間關(guān)系的信息。其中上面三層是固定的,稱(chēng)之為靜態(tài)層,第四層的概念是根據(jù)已知的多本體動(dòng)態(tài)產(chǎn)生的,為動(dòng)態(tài)層。
3.4本體解析體系
數(shù)據(jù)存儲(chǔ)模式的選擇直接影響使用的效率。本體是系統(tǒng)多層之間語(yǔ)義聯(lián)系的紐帶,因此本體、橋本體的存儲(chǔ)方式影響數(shù)字圖書(shū)館知識(shí)組織和知識(shí)服務(wù)的質(zhì)量。本文選用的本體描述語(yǔ)言為W3C推薦的OWL,將其存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)。關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)本體既有缺點(diǎn),對(duì)本體含有的豐富語(yǔ)義缺乏精準(zhǔn)的表現(xiàn),又有無(wú)可比擬的優(yōu)點(diǎn)。已有文獻(xiàn)對(duì)本體到關(guān)系數(shù)據(jù)庫(kù)模式映射進(jìn)行了詳盡的闡述,在此僅談及橋本體的解析。
根據(jù)橋本體的概念結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫(kù)的形式化定義,下面給出它到關(guān)系數(shù)據(jù)庫(kù)模式的映射規(guī)則。
以橋本體建立數(shù)據(jù)庫(kù),取名為database-brid―geO。
橋本體中的十個(gè)橋關(guān)系分別為橋本體的子類(lèi),分別以這十個(gè)橋關(guān)系建立十張表,表名為table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。
將橋本體的屬性映射為各個(gè)表的屬性,屬性類(lèi)型為字符型;各表屬性個(gè)數(shù)并不相同,主要包括三類(lèi):一類(lèi)表示具有該種橋關(guān)系的兩個(gè)領(lǐng)域本體的名稱(chēng);一類(lèi)表示具有該種橋關(guān)系的領(lǐng)域本體的類(lèi)名稱(chēng);一類(lèi)屬性代表該類(lèi)所對(duì)應(yīng)表的地址。
屬性值分別取值為領(lǐng)域本體名、領(lǐng)域本體中類(lèi)名和類(lèi)對(duì)應(yīng)的表名。
不同領(lǐng)域本體概念之間的關(guān)系構(gòu)成表中的記錄。
表中的主鍵為復(fù)合主鍵,由不同領(lǐng)域本體名稱(chēng)和不同概念名稱(chēng)組合而成。
4 基于語(yǔ)義模型的信息抽取策略
抽取對(duì)象是異質(zhì)的、異構(gòu)的、多語(yǔ)種的、半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,并且可能存在著語(yǔ)義模糊、語(yǔ)義缺失,因此對(duì)抽取對(duì)象實(shí)體命名識(shí)別、實(shí)體間關(guān)系的識(shí)別變得更加困難,需要多種技術(shù)協(xié)作完成。語(yǔ)義模型能有效協(xié)助信息抽。豪迷獢(shù)據(jù)對(duì)數(shù)字信息資源和用戶信息資源進(jìn)行規(guī)范化描述,利用領(lǐng)域本體集和橋本體實(shí)現(xiàn)數(shù)字資源和用戶信息資源語(yǔ)義關(guān)系形式化描述,而語(yǔ)義模型中本體解析體系為信息抽取為利用本體提供了途徑。因此,利用語(yǔ)義模型可以有效地進(jìn)行實(shí)體命名識(shí)別和信息抽取規(guī)則制定。基于規(guī)則進(jìn)行信息抽取能有效過(guò)濾掉噪聲,增加新的結(jié)構(gòu)信息。大體過(guò)程如圖4所示:
4.1數(shù)據(jù)采集和數(shù)據(jù)清洗
通過(guò)各種數(shù)據(jù)采集工具對(duì)數(shù)據(jù)庫(kù)、文檔和網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)庫(kù)中的數(shù)據(jù)是結(jié)構(gòu)化的,采集相對(duì)簡(jiǎn)易;而文檔和網(wǎng)頁(yè)結(jié)構(gòu)各異,先將它們抓取入系統(tǒng);數(shù)據(jù)清洗目的是對(duì)有信息價(jià)值的各種數(shù)據(jù)通過(guò)處理產(chǎn)生純文檔。首先對(duì)抓取的原始數(shù)據(jù)進(jìn)行結(jié)構(gòu)分析,去除噪聲,分析數(shù)據(jù)是表結(jié)構(gòu)、文檔結(jié)構(gòu)還是網(wǎng)頁(yè)結(jié)構(gòu),網(wǎng)頁(yè)結(jié)構(gòu)是內(nèi)容型網(wǎng)頁(yè)還是表單型網(wǎng)頁(yè),并對(duì)各種結(jié)構(gòu)進(jìn)行識(shí)別剝離;然后進(jìn)行內(nèi)容分析,例如網(wǎng)頁(yè)中的廣告、圖像、版權(quán)信息等等;最后對(duì)用戶關(guān)心的信息內(nèi)容進(jìn)行提取,產(chǎn)生待處理的純文檔,如圖5所示:
4.2文檔預(yù)處理
文檔預(yù)處理的任務(wù)是自然語(yǔ)言處理,將文檔處理切分為待處理的詞匯和信息單元。首先將待處理的純文檔進(jìn)行詞語(yǔ)切分和詞性標(biāo)注,取出分詞結(jié)果中的名詞和動(dòng)詞;然后按標(biāo)點(diǎn)符號(hào)進(jìn)行短句分割,作為信息單元,并以此作為信息抽取的粒度;最后對(duì)短句進(jìn)行語(yǔ)法詞法分析,并實(shí)施初次篩選,保留其中至少包含兩個(gè)名詞和一個(gè)動(dòng)詞的信息單元。該過(guò)程需要相關(guān)領(lǐng)域知識(shí)的術(shù)語(yǔ)表、詞匯表、主題詞表等,對(duì)分詞系統(tǒng)中的詞表進(jìn)行二次加工。語(yǔ)義模型中的領(lǐng)域本體可以提供規(guī)范化的概念及概念中所涉及術(shù)語(yǔ)的多種形式,可以對(duì)詞表進(jìn)行豐富和規(guī)范,如圖6所示:
4.3規(guī)則生成
信息抽取規(guī)則的生成利用了本文構(gòu)建的語(yǔ)義模型。語(yǔ)義模型中的領(lǐng)域本體描述了概念、屬性、實(shí)例以及本體內(nèi)部概念與概念之間的關(guān)系,橋本體描述跨本體的概念之間的多種關(guān)系。領(lǐng)域本體和橋本體用OWL描述,將OWL本體映射到關(guān)系數(shù)據(jù)庫(kù),形成語(yǔ)義模型數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)中含有若干個(gè)表,通過(guò)表、表的屬性、表的主鍵與外鍵以及屬性之間的約束對(duì)本體進(jìn)行解析。信息規(guī)則在此基礎(chǔ)上生成:首先從語(yǔ)義模型數(shù)據(jù)庫(kù)抽取類(lèi)、抽取屬性、抽取實(shí)例、抽取關(guān)系,對(duì)于橋本體還需要抽取表名;然后通過(guò)其解析出的本體中描述的概念、關(guān)系、層次結(jié)構(gòu)等來(lái)生成三元組,再將此三元組作為信息抽取的規(guī)則存入規(guī)則庫(kù)。如圖7所示:
4.4實(shí)體抽取
信息抽取主要是對(duì)信息單元進(jìn)行解析后,對(duì)信息單元中的名詞基于語(yǔ)義模型中的概念和實(shí)例進(jìn)行實(shí)體命名識(shí)別,充分利用本體對(duì)概念規(guī)范描述的優(yōu)勢(shì),提高實(shí)體命名識(shí)別的準(zhǔn)確性;再對(duì)信息單元重新規(guī)范,形成具有主、謂、賓三元關(guān)系的分析樹(shù)。將該分析樹(shù)與抽取規(guī)則三元組進(jìn)行匹配,如果匹配成功則將該三元關(guān)系存入數(shù)據(jù)庫(kù)中,完成信息抽取;如果匹配不成功,對(duì)該三元關(guān)系的概念與語(yǔ)義模型進(jìn)行語(yǔ)義相似度計(jì)算,根據(jù)計(jì)算結(jié)果,形成本體中的新概念或新關(guān)系,添加到語(yǔ)義模型中,完成本體學(xué)習(xí),豐富領(lǐng)域本體,如圖8所示:
基于語(yǔ)義模型的信息抽取有如下好處:①語(yǔ)義模型的引入既保證了結(jié)構(gòu)的一致性,又保證了數(shù)據(jù)的一致性,使不同來(lái)源的數(shù)據(jù)都能以統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行描述和呈現(xiàn),方便了信息的繼承與交換,提高了信息抽取的準(zhǔn)確率及召回率;②驅(qū)使整個(gè)信息抽取過(guò)程都直接來(lái)自于語(yǔ)義模型,這為利用各種各樣的本體數(shù)據(jù)呈現(xiàn)了一條非常自然的路徑;③基于語(yǔ)義模型的系統(tǒng)可以促進(jìn)本體進(jìn)化,豐富領(lǐng)域本體。
5 結(jié)語(yǔ)
本文通過(guò)探求和把握語(yǔ)義描述和組織的規(guī)律,構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語(yǔ)義模型,試圖建設(shè)一種有效機(jī)制,發(fā)揮其作為數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)重要影響因素的作用,在此基礎(chǔ)上研究信息抽取策略,進(jìn)而為數(shù)字圖書(shū)館知識(shí)組織語(yǔ)義互聯(lián)理論和實(shí)踐提供奠基性的方法論支持。
相關(guān)熱詞搜索:語(yǔ)義 抽取 數(shù)字圖書(shū)館 基于語(yǔ)義模型的數(shù)字圖書(shū)館知識(shí)組織信息抽取策略 數(shù)字圖書(shū)館知識(shí)組織策略 信息抽取技術(shù)探析
熱點(diǎn)文章閱讀