【新版DC元數(shù)據(jù)抽象模型研究】 元數(shù)據(jù)模型
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]概要介紹新版DC元數(shù)據(jù)抽象模型,詳細(xì)分析新版抽象模型的三個主要組成部分:資源模型、描述集模型和詞表模型。在此基礎(chǔ)上,分析新版抽象模型對舊版的改進以及對DC元數(shù)據(jù)編碼規(guī)范、術(shù)語詞表、應(yīng)用綱要的影響。最后指出,抽象模型的完善必將對DC元數(shù)據(jù)的進一步發(fā)展與廣泛應(yīng)用奠定基礎(chǔ)。
[關(guān)鍵詞]元數(shù)據(jù) DC 抽象模型 DCAM
[分類號]G250
1 引 言
作為通用的元數(shù)據(jù)標(biāo)準(zhǔn),DC元數(shù)據(jù)致力于描述網(wǎng)絡(luò)上的各種資源,以使其更加容易地被發(fā)現(xiàn)。為實現(xiàn)這個目標(biāo),DC元數(shù)據(jù)從誕生之日起就不斷發(fā)展和完善。DC元數(shù)據(jù)的不斷發(fā)展使DCMI意識到,要實現(xiàn)DC元數(shù)據(jù)的理性發(fā)展和機器可處理,需要一個內(nèi)在一致的數(shù)據(jù)模型,于是提出了“DC元數(shù)據(jù)抽象模型(DCMI Abstract Model,DCAM)”。DCMI從2003年年中開始制定DC元數(shù)據(jù)抽象模型,相應(yīng)規(guī)范在2005年3月成為DCMI的推薦規(guī)范。2007年6月,經(jīng)過修訂的新版抽象模型發(fā)布。
2 新版DC元數(shù)據(jù)抽象模型概述
作為抽象的元數(shù)據(jù)概念模型,新版DC元數(shù)據(jù)抽象模型更加明確地定義了DC元數(shù)據(jù)描述所使用的概念、DC元數(shù)據(jù)描述所使用的術(shù)語詞匯類別及其相互關(guān)系以及DC元數(shù)據(jù)描述記錄的基本結(jié)構(gòu)。抽象模型清晰地定義了DC元數(shù)據(jù)描述的各類實體對象及其相互之間的關(guān)系,明確了一些長期爭論或者容易引起歧義的概念,描述了DC元數(shù)據(jù)所使用的描述資源的信息結(jié)構(gòu),定義了各個組成部分,說明了這些組成部分如何組織在一起,及如何解釋這個信息結(jié)構(gòu)。DC元數(shù)據(jù)抽象模型描述了DC描述集的結(jié)構(gòu),但沒有規(guī)定如何用具體的形式表達(dá)DC描述集;描述了元數(shù)據(jù)術(shù)語詞匯的各種類型,但沒有規(guī)定任何固定詞匯集合或詞表的使用。因而,它提供了一個獨立于任何特定編碼方式的信息模型,這有助于更好地理解所編碼的元數(shù)據(jù)描述的種類,便于元數(shù)據(jù)之間的映射和語法翻譯。
3 新版DC元數(shù)據(jù)抽象模型主要內(nèi)容
新版DC元數(shù)據(jù)抽象模型由相互關(guān)聯(lián)的三個信息模型組成:資源模型(Resource Model)、描述集模型(Description SetModel)和詞表模型(Vocabulary Model)。
3.1 資源模型
資源模型定義了使用DC元數(shù)據(jù)描述資源的基本結(jié)構(gòu):“資源―屬性―值”三元組的構(gòu)成(如圖1所示)。一個資源(Described Resource)由一個或者多個“屬性―值”對來描述,每個“屬性―值”對由一個屬性和一個值組成,每個值是一個文字值(Literal Value)或者是一個非文字值(Non-literal Val-ue),屬性的取值也是資源,是與被描述資源的相應(yīng)屬性相關(guān)的物理實體、數(shù)字實體、概念實體或者文字實體。文字值指屬性的取值是一個文字實體,非文字值指屬性的取值是一個物理實體、數(shù)字實體或概念實體。
3.2 描述集模型
描述集模型定義了DC元數(shù)據(jù)描述記錄的結(jié)構(gòu),如圖2所示:
它使用URI來標(biāo)識資源和所使用的元數(shù)據(jù)術(shù)語詞匯。一個描述集(Description Set)是一條或多條描述(Descrip-tions)組成的集合,每條描述描述一個資源。一條描述是由一個或多個陳述(這些陳述與一個并且僅僅一個資源相關(guān))和零個或一個標(biāo)識被描述資源的標(biāo)識符組成。這里體現(xiàn)了DC元數(shù)據(jù)的一對一原則(One-to-one Principle)。每個陳述是一個“屬性一值”對,由一個標(biāo)識屬性的屬性標(biāo)識符和一個值代理(Value Surrogate)組成。一個值代理是一個文字值代理或一個非文字值代理。文字值代理由一個值字符串(值的編碼,表達(dá)值的內(nèi)容)組成。非文字值代理由零個或一個值標(biāo)識符(標(biāo)識值),零個或一個詞表編碼體系標(biāo)識符(標(biāo)識值所屬規(guī)范詞表)和零個或多個值字符串組成。一個值字符串是一個普通值字符串或是一個某種類型或結(jié)構(gòu)的值字符串。普通值字符串附帶一個語言選項,這個選項是一個ISO語言標(biāo)簽如en-GB。具有某種類型或結(jié)構(gòu)的值字符串附帶一個句法編碼體系標(biāo)識符來標(biāo)識值字符串的類型或結(jié)構(gòu)所從屬的句法編碼體系,如日期類型。
文字值是一個文字串,如題名(文本),數(shù)量(整數(shù))等,不能進一步描述,可以有語種或句法編碼體系。非文字值是事物、概念或其他非文字串的東西,如人物、文檔、事件等,指代某種事物,可以進一步在另一條描述中進行描述或用一個陳述描述,可以是有值字符串,詞表編碼體系,值標(biāo)識符。
一條DC元數(shù)據(jù)描述只能描述一個且僅僅一個資源。但是在現(xiàn)實世界的元數(shù)據(jù)應(yīng)用中,被描述的資源常常具有各種各樣的聯(lián)系,這就需要把具有某種聯(lián)系的資源的元數(shù)據(jù)描述聚合起來形成描述集。而在軟件或應(yīng)用之間交換數(shù)據(jù)時,通常根據(jù)DCMI編碼指南對描述集進行編碼,以元數(shù)據(jù)記錄(Record)的形式進行交換。
3.3 詞表模型
詞表模型定義了DC元數(shù)據(jù)所使用的規(guī)范詞表的構(gòu)成――術(shù)語詞匯的類型及其相互關(guān)系,如圖3所示:
一個詞表是一個或多個術(shù)語詞匯組成的集合,一個詞匯是一個或多個詞表的成員。一個詞匯是一個屬性(元素)、類、詞表編碼體系或者句法編碼體系。一個屬性可以通過關(guān)系“有定義域(has domain)”與一個或多個類相聯(lián)系。如果一個屬性與某個類具有此種關(guān)系,而且這個屬性是一個“屬性―值”對的一部分,那么意味著被這個“屬性―值”對所描述的資源是這個類的實例。一屬性可以通過關(guān)系“有值域(has range)”與一個或多個類相聯(lián)系。如果一個屬性與某個類具有此種關(guān)系,而且這個屬性是一個“屬性―值”對的一部分,那么意味著這個“屬性―值”對中的值是這個類的實例。一個屬性可以通過關(guān)系“子屬性”與一個或多個其他屬性相關(guān)聯(lián)。如果一個“屬性―值”對使用子屬性及對應(yīng)的值來描述一個資源,那么這個資源也可以用子屬性關(guān)聯(lián)的屬性(父屬性)及子屬性的值來描述。這里體現(xiàn)了DC元數(shù)據(jù)的向上兼容原則(Dumb-down principle)。一個資源可以是一個或多個類的實例(instance of),也可以是一個或多個詞表編碼體系的成員(member of)。一個類可以通過關(guān)系“子類”與一個或多個其他類相關(guān)聯(lián)。資源是子類的實例,也必定是關(guān)聯(lián)類(父類)的實例。一個句法編碼體系是一個類。DCAM沒有提供明確的表達(dá)類的機制。類可以通過在一條描述中使用一個或多個陳述來實現(xiàn),或通過屬性的定義域來實現(xiàn)。
4 新版DC元數(shù)據(jù)抽象模型對舊版的發(fā)展
DC元數(shù)據(jù)抽象模型從2005年3月成為DCMI的推薦規(guī)范以后,包括DCMI應(yīng)用委員會、DCMI工作組特別是制定DC元數(shù)據(jù)應(yīng)用綱要的工作組、DC元數(shù)據(jù)應(yīng)用綱要實施人員、元數(shù)據(jù)研究人員、編碼規(guī)范制定人員等在內(nèi)的使用者提 出了自己的應(yīng)用評價。這些評價在肯定抽象模型重要價值的同時,發(fā)現(xiàn)了抽象模型存在的問題如遺漏、模糊、冗余、錯誤等,提出了對抽象模型的修改意見。這些應(yīng)用反饋導(dǎo)致了抽象模型的進一步修訂,經(jīng)過2007年2月、4月兩輪修改及公示,最終在6月新版抽象模型成為DCMI的推薦規(guī)范。
新版抽象模型在結(jié)構(gòu)、內(nèi)容和措辭上作了巨大的改動,其語言表達(dá)、語義定義、組織結(jié)構(gòu)更加嚴(yán)謹(jǐn)、清晰、明確。
新版抽象模型的改進主要有以下幾個方面:
4.1 語言表達(dá)、文字表述的改進
新版抽象模型修改了對抽象模型目的的描述,并把詞表模型從資源模型中抽出單獨定義。舊版抽象模型的目的描述沒有反映抽象模型在定義什么是DC元數(shù)據(jù)、DC元數(shù)據(jù)描述結(jié)構(gòu)的本質(zhì)以及如何解釋這些結(jié)構(gòu)方面所起的作用,新版抽象模型對此做了改進,更明確地表明了抽象模型的目的。詞表模型基于RDF Schema,描述了DC元數(shù)據(jù)描述所使用的術(shù)語詞匯的類型以及術(shù)語詞匯間關(guān)系的類型,對于DC元數(shù)據(jù)描述引用其他元數(shù)據(jù)標(biāo)準(zhǔn)的屬性詞匯或自定義詞匯而言,有必要更明確地對詞表模型進行單獨定義并進一步擴展,而詞表模型在舊版抽象模型中是隱含資源模型中的。此外,新版抽象模型更新了使用UML表達(dá)抽象模型的圖表,提高了可讀性。
4.2 內(nèi)容、結(jié)構(gòu)的刪減
新版抽象模型刪除了舊版抽象模型中關(guān)于編碼指南和關(guān)于結(jié)構(gòu)化取值的附錄以及關(guān)于向上兼容的討論;诔橄竽P偷木幋a規(guī)范制定之后,附錄中的編碼指南將顯得冗余。關(guān)于結(jié)構(gòu)化取值的討論放在修訂的DCSV、Box、Period、Point規(guī)范中。此外,新版抽象模型在描述集模型中刪除了標(biāo)記文本和結(jié)構(gòu)化取值,刪除了舊版模型中的“Rich Repre-sentations”!癛ich Representations”中的內(nèi)容允許自我描述,不符合“一對一原則”。
4.3 已有概念、結(jié)構(gòu)的進一步明確
這方面的修訂包括:子屬性、子類在詞表模型中作為屬性、類之間的關(guān)系進行表達(dá),并在詞匯表中進行定義,而不再作為單獨的類定義;強調(diào)描述集是基本的抽象信息結(jié)構(gòu);使用“Described Resource”作為描述的主語,消除取值和資源的混亂;值字符串可以附帶語言選項或者句法編碼體系選項,也可以不帶,而不是全帶;更新句法編碼體系的定義,明確地把它與RDF Schema中的類“DataType”相映射;重新定義詞表編碼體系為“資源枚舉集合”,從而使屬性的取值作為其成員可以當(dāng)作類的實例被進一步描述。
4.4 新概念、新結(jié)構(gòu)的擴展
新版抽象模型對詞表模型進行了單獨定義,以明確DC元數(shù)據(jù)描述中使用的術(shù)語詞匯類別;增加了抽象模型語義與RDF/RDFS的對應(yīng)關(guān)系,使其更加易于理解。
新版抽象模型為屬性附加定義域(Domain)和值域(Range)聲明,使隱含在人類可讀的元數(shù)據(jù)描述中的語義顯性化。定義域和值域作為詞表模型中屬性和類的關(guān)系進行定義。定義域表明屬性所描述的資源所從屬的類,而值域表明作為屬性取值的資源所從屬的類。定義域和值域以有益于推理的形式說明了與一個給定屬性相關(guān)的被描述資源和取值資源的種類。形式化的定義域和值域使得機器能夠處理隱含在自然語言定義中的涵義。
新版抽象模型將屬性的取值進一步區(qū)分為文字值和非文字值,以支持任何基于抽象模型的編碼格式可以非常明確、容易地轉(zhuǎn)換為RDF格式。
5 新版DC元數(shù)據(jù)抽象模型對DC元數(shù)據(jù)其他組成部分的影響
經(jīng)過十幾年的發(fā)展,DC元數(shù)據(jù)已經(jīng)發(fā)展為由多個部分組成的較為嚴(yán)密的體系,包括抽象模型、編碼規(guī)范、受控規(guī)范詞表、應(yīng)用綱要等。在各個部分中,抽象模型越來越起到基礎(chǔ)性的指導(dǎo)和規(guī)范作用。
5.1 抽象模型與編碼規(guī)范
DC元數(shù)據(jù)抽象模型提供了多種編碼方式互操作的概念模型,獨立于任何一種具體的編碼方式,各種具體的編碼規(guī)范必須符合抽象模型。新版DC元數(shù)據(jù)抽象模型推出后,所有的編碼規(guī)范都將重新修訂。2008年1月新的RDF編碼規(guī)范(DC-RDF)已經(jīng)作為推薦規(guī)范正式推出,替代原有的RDF/XML規(guī)范(DCQ-RDF-XML、DCMES-XML)。這個規(guī)范描述了如何使用RDF模型來表達(dá)DC抽象模型的特征,沒有限定任何具體的RDF編碼方式如RDF/XML,所有的RDF編碼方案都可以使用,可以是RDF/XML、N-Triple、RDFa,也可以是RDF數(shù)據(jù)庫。新的符合抽象模型的XML規(guī)范以及(X)HTML規(guī)范正在制定之中。新的XML規(guī)范將將分為兩個版本:DC-XML-Full和DC-XML-Min。DC-XML-Full體現(xiàn)抽象模型的全部特征,比較復(fù)雜,滿足復(fù)雜的元數(shù)據(jù)需求。DC-XML-Min體現(xiàn)抽象模型的部分特征,是一個子集,直觀簡單,滿足簡單的元數(shù)據(jù)需求。
5.2 抽象模型與術(shù)語詞表
DC元數(shù)據(jù)術(shù)語詞表作為DC元數(shù)據(jù)描述所使用的術(shù)語詞表之一,必須符合抽象模型。2008年1月新發(fā)布的術(shù)語詞表規(guī)范根據(jù)新版抽象模型作了較大的修訂。由于所有符合抽象模型的元數(shù)據(jù)描述所使用的術(shù)語詞匯必須賦予唯一的標(biāo)識符,因此DCMI首先于2007年7月根據(jù)新版抽象模型修訂了命名域政策規(guī)范(Namespace Policy),使命名域政策規(guī)范的用語與抽象模型一致,同時增加了一個新的命名域dcam:,以容納新增的術(shù)語詞匯。新版術(shù)語詞表主要作了如下改動:
對一些定義、描述性標(biāo)簽和用法注釋作了修訂。
更加明確地區(qū)分兩種編碼體系:句法編碼體系和詞表編碼體系。修訂了兩類編碼體系的定義,以便明確如何從模型的角度看待和解釋這兩類編碼體系。
增加與抽象模型相關(guān)的兩個新的術(shù)語:memberOf和VocabularyEncodingScheme。
明確詞表編碼體系是一個資源的枚舉集合,DCMI類型詞表是一個類的枚舉集合。
對屬性形式化的定義域和值域及子屬性關(guān)系(針對部分屬性)作了明確的規(guī)定。
為了不影響已有簡單DC RDF實現(xiàn)的一致性,DCMI沒有給DCMES即dc:命名域中的15個屬性規(guī)定定義域和值域,而是在dcterms:命名域中新創(chuàng)建了15個具有相同名稱的屬性,這些新屬性被規(guī)定為原有屬性的子屬性,同時分配了定義域和值域。抽象模型不再把屬性區(qū)分為元素和修飾詞兩種類型,新的修訂包含了子屬性關(guān)系的表達(dá),如dcterms:creator是dcterms:contributor的子屬性。同時,這種關(guān)系的表達(dá)只限于新創(chuàng)建的15個屬性?梢愿鶕(jù)應(yīng)用需求,自由地選擇這兩種15個屬性,但是應(yīng)該盡可能地選擇dcterms:命名域中的屬性,它們更適合于機器處理。
5.3 抽象模型與應(yīng)用綱要
近年來DCMI大力推廣和完善應(yīng)用綱要,但是應(yīng)用綱要本身也需要進行一定規(guī)范,否則也無法達(dá)到最低程度的一致性。完善后的新版抽象模型提供了實現(xiàn)機器可處理的應(yīng)用綱要所需要的元數(shù)據(jù)模型。2007年8月的DC年會上提出了一整套以DC元數(shù)據(jù)抽象模型為基礎(chǔ)的元數(shù)據(jù)應(yīng)用綱要形式化方案,稱為“新加坡框架(Singapore Framework)”。2008年1月DCMI發(fā)布了“新加坡框架”的相應(yīng)文檔,闡述了DC元數(shù)據(jù)應(yīng)用綱要的概念及組成。其中,最重要的組成部分是描述集綱要(Description Set Profile,DSP)。它基于DCMI抽象模型,為應(yīng)用綱要提供了一個描述集結(jié)構(gòu)約束語言,對應(yīng)用綱要的形式化內(nèi)容作了明確的規(guī)定。
6 結(jié)語
DC元數(shù)據(jù)抽象模型定義了元數(shù)據(jù)概念模型,可以保證DC元數(shù)據(jù)的理性發(fā)展與內(nèi)在一致性。它基于RDF,使DC元數(shù)據(jù)可以更好地嵌入未來的語義網(wǎng)應(yīng)用;獨立于任何句法規(guī)范,為各種元數(shù)據(jù)應(yīng)用提供了互操作基礎(chǔ);支持術(shù)語詞匯的引用與自定義,定義了元數(shù)據(jù)描述的信息結(jié)構(gòu),為實現(xiàn)DC元數(shù)據(jù)應(yīng)用綱要的規(guī)范化和機器可處理奠定了基礎(chǔ)。DC元數(shù)據(jù)抽象模型的修訂使其更加完善,必將為DC元數(shù)據(jù)更好更快地發(fā)展以及大規(guī)模應(yīng)用提供堅實基礎(chǔ)。
責(zé)任編輯:杜杏葉
相關(guān)熱詞搜索:抽象 新版 模型 新版DC元數(shù)據(jù)抽象模型研究 都柏林核心元數(shù)據(jù)抽象模型 抽象模型
熱點文章閱讀