【新版DC元數(shù)據(jù)抽象模型研究】 元數(shù)據(jù)模型
發(fā)布時(shí)間:2020-03-07 來源: 感悟愛情 點(diǎn)擊:
[摘要]概要介紹新版DC元數(shù)據(jù)抽象模型,詳細(xì)分析新版抽象模型的三個(gè)主要組成部分:資源模型、描述集模型和詞表模型。在此基礎(chǔ)上,分析新版抽象模型對(duì)舊版的改進(jìn)以及對(duì)DC元數(shù)據(jù)編碼規(guī)范、術(shù)語詞表、應(yīng)用綱要的影響。最后指出,抽象模型的完善必將對(duì)DC元數(shù)據(jù)的進(jìn)一步發(fā)展與廣泛應(yīng)用奠定基礎(chǔ)。
[關(guān)鍵詞]元數(shù)據(jù) DC 抽象模型 DCAM
[分類號(hào)]G250
1 引 言
作為通用的元數(shù)據(jù)標(biāo)準(zhǔn),DC元數(shù)據(jù)致力于描述網(wǎng)絡(luò)上的各種資源,以使其更加容易地被發(fā)現(xiàn)。為實(shí)現(xiàn)這個(gè)目標(biāo),DC元數(shù)據(jù)從誕生之日起就不斷發(fā)展和完善。DC元數(shù)據(jù)的不斷發(fā)展使DCMI意識(shí)到,要實(shí)現(xiàn)DC元數(shù)據(jù)的理性發(fā)展和機(jī)器可處理,需要一個(gè)內(nèi)在一致的數(shù)據(jù)模型,于是提出了“DC元數(shù)據(jù)抽象模型(DCMI Abstract Model,DCAM)”。DCMI從2003年年中開始制定DC元數(shù)據(jù)抽象模型,相應(yīng)規(guī)范在2005年3月成為DCMI的推薦規(guī)范。2007年6月,經(jīng)過修訂的新版抽象模型發(fā)布。
2 新版DC元數(shù)據(jù)抽象模型概述
作為抽象的元數(shù)據(jù)概念模型,新版DC元數(shù)據(jù)抽象模型更加明確地定義了DC元數(shù)據(jù)描述所使用的概念、DC元數(shù)據(jù)描述所使用的術(shù)語詞匯類別及其相互關(guān)系以及DC元數(shù)據(jù)描述記錄的基本結(jié)構(gòu)。抽象模型清晰地定義了DC元數(shù)據(jù)描述的各類實(shí)體對(duì)象及其相互之間的關(guān)系,明確了一些長期爭(zhēng)論或者容易引起歧義的概念,描述了DC元數(shù)據(jù)所使用的描述資源的信息結(jié)構(gòu),定義了各個(gè)組成部分,說明了這些組成部分如何組織在一起,及如何解釋這個(gè)信息結(jié)構(gòu)。DC元數(shù)據(jù)抽象模型描述了DC描述集的結(jié)構(gòu),但沒有規(guī)定如何用具體的形式表達(dá)DC描述集;描述了元數(shù)據(jù)術(shù)語詞匯的各種類型,但沒有規(guī)定任何固定詞匯集合或詞表的使用。因而,它提供了一個(gè)獨(dú)立于任何特定編碼方式的信息模型,這有助于更好地理解所編碼的元數(shù)據(jù)描述的種類,便于元數(shù)據(jù)之間的映射和語法翻譯。
3 新版DC元數(shù)據(jù)抽象模型主要內(nèi)容
新版DC元數(shù)據(jù)抽象模型由相互關(guān)聯(lián)的三個(gè)信息模型組成:資源模型(Resource Model)、描述集模型(Description SetModel)和詞表模型(Vocabulary Model)。
3.1 資源模型
資源模型定義了使用DC元數(shù)據(jù)描述資源的基本結(jié)構(gòu):“資源―屬性―值”三元組的構(gòu)成(如圖1所示)。一個(gè)資源(Described Resource)由一個(gè)或者多個(gè)“屬性―值”對(duì)來描述,每個(gè)“屬性―值”對(duì)由一個(gè)屬性和一個(gè)值組成,每個(gè)值是一個(gè)文字值(Literal Value)或者是一個(gè)非文字值(Non-literal Val-ue),屬性的取值也是資源,是與被描述資源的相應(yīng)屬性相關(guān)的物理實(shí)體、數(shù)字實(shí)體、概念實(shí)體或者文字實(shí)體。文字值指屬性的取值是一個(gè)文字實(shí)體,非文字值指屬性的取值是一個(gè)物理實(shí)體、數(shù)字實(shí)體或概念實(shí)體。
3.2 描述集模型
描述集模型定義了DC元數(shù)據(jù)描述記錄的結(jié)構(gòu),如圖2所示:
它使用URI來標(biāo)識(shí)資源和所使用的元數(shù)據(jù)術(shù)語詞匯。一個(gè)描述集(Description Set)是一條或多條描述(Descrip-tions)組成的集合,每條描述描述一個(gè)資源。一條描述是由一個(gè)或多個(gè)陳述(這些陳述與一個(gè)并且僅僅一個(gè)資源相關(guān))和零個(gè)或一個(gè)標(biāo)識(shí)被描述資源的標(biāo)識(shí)符組成。這里體現(xiàn)了DC元數(shù)據(jù)的一對(duì)一原則(One-to-one Principle)。每個(gè)陳述是一個(gè)“屬性一值”對(duì),由一個(gè)標(biāo)識(shí)屬性的屬性標(biāo)識(shí)符和一個(gè)值代理(Value Surrogate)組成。一個(gè)值代理是一個(gè)文字值代理或一個(gè)非文字值代理。文字值代理由一個(gè)值字符串(值的編碼,表達(dá)值的內(nèi)容)組成。非文字值代理由零個(gè)或一個(gè)值標(biāo)識(shí)符(標(biāo)識(shí)值),零個(gè)或一個(gè)詞表編碼體系標(biāo)識(shí)符(標(biāo)識(shí)值所屬規(guī)范詞表)和零個(gè)或多個(gè)值字符串組成。一個(gè)值字符串是一個(gè)普通值字符串或是一個(gè)某種類型或結(jié)構(gòu)的值字符串。普通值字符串附帶一個(gè)語言選項(xiàng),這個(gè)選項(xiàng)是一個(gè)ISO語言標(biāo)簽如en-GB。具有某種類型或結(jié)構(gòu)的值字符串附帶一個(gè)句法編碼體系標(biāo)識(shí)符來標(biāo)識(shí)值字符串的類型或結(jié)構(gòu)所從屬的句法編碼體系,如日期類型。
文字值是一個(gè)文字串,如題名(文本),數(shù)量(整數(shù))等,不能進(jìn)一步描述,可以有語種或句法編碼體系。非文字值是事物、概念或其他非文字串的東西,如人物、文檔、事件等,指代某種事物,可以進(jìn)一步在另一條描述中進(jìn)行描述或用一個(gè)陳述描述,可以是有值字符串,詞表編碼體系,值標(biāo)識(shí)符。
一條DC元數(shù)據(jù)描述只能描述一個(gè)且僅僅一個(gè)資源。但是在現(xiàn)實(shí)世界的元數(shù)據(jù)應(yīng)用中,被描述的資源常常具有各種各樣的聯(lián)系,這就需要把具有某種聯(lián)系的資源的元數(shù)據(jù)描述聚合起來形成描述集。而在軟件或應(yīng)用之間交換數(shù)據(jù)時(shí),通常根據(jù)DCMI編碼指南對(duì)描述集進(jìn)行編碼,以元數(shù)據(jù)記錄(Record)的形式進(jìn)行交換。
3.3 詞表模型
詞表模型定義了DC元數(shù)據(jù)所使用的規(guī)范詞表的構(gòu)成――術(shù)語詞匯的類型及其相互關(guān)系,如圖3所示:
一個(gè)詞表是一個(gè)或多個(gè)術(shù)語詞匯組成的集合,一個(gè)詞匯是一個(gè)或多個(gè)詞表的成員。一個(gè)詞匯是一個(gè)屬性(元素)、類、詞表編碼體系或者句法編碼體系。一個(gè)屬性可以通過關(guān)系“有定義域(has domain)”與一個(gè)或多個(gè)類相聯(lián)系。如果一個(gè)屬性與某個(gè)類具有此種關(guān)系,而且這個(gè)屬性是一個(gè)“屬性―值”對(duì)的一部分,那么意味著被這個(gè)“屬性―值”對(duì)所描述的資源是這個(gè)類的實(shí)例。一屬性可以通過關(guān)系“有值域(has range)”與一個(gè)或多個(gè)類相聯(lián)系。如果一個(gè)屬性與某個(gè)類具有此種關(guān)系,而且這個(gè)屬性是一個(gè)“屬性―值”對(duì)的一部分,那么意味著這個(gè)“屬性―值”對(duì)中的值是這個(gè)類的實(shí)例。一個(gè)屬性可以通過關(guān)系“子屬性”與一個(gè)或多個(gè)其他屬性相關(guān)聯(lián)。如果一個(gè)“屬性―值”對(duì)使用子屬性及對(duì)應(yīng)的值來描述一個(gè)資源,那么這個(gè)資源也可以用子屬性關(guān)聯(lián)的屬性(父屬性)及子屬性的值來描述。這里體現(xiàn)了DC元數(shù)據(jù)的向上兼容原則(Dumb-down principle)。一個(gè)資源可以是一個(gè)或多個(gè)類的實(shí)例(instance of),也可以是一個(gè)或多個(gè)詞表編碼體系的成員(member of)。一個(gè)類可以通過關(guān)系“子類”與一個(gè)或多個(gè)其他類相關(guān)聯(lián)。資源是子類的實(shí)例,也必定是關(guān)聯(lián)類(父類)的實(shí)例。一個(gè)句法編碼體系是一個(gè)類。DCAM沒有提供明確的表達(dá)類的機(jī)制。類可以通過在一條描述中使用一個(gè)或多個(gè)陳述來實(shí)現(xiàn),或通過屬性的定義域來實(shí)現(xiàn)。
4 新版DC元數(shù)據(jù)抽象模型對(duì)舊版的發(fā)展
DC元數(shù)據(jù)抽象模型從2005年3月成為DCMI的推薦規(guī)范以后,包括DCMI應(yīng)用委員會(huì)、DCMI工作組特別是制定DC元數(shù)據(jù)應(yīng)用綱要的工作組、DC元數(shù)據(jù)應(yīng)用綱要實(shí)施人員、元數(shù)據(jù)研究人員、編碼規(guī)范制定人員等在內(nèi)的使用者提 出了自己的應(yīng)用評(píng)價(jià)。這些評(píng)價(jià)在肯定抽象模型重要價(jià)值的同時(shí),發(fā)現(xiàn)了抽象模型存在的問題如遺漏、模糊、冗余、錯(cuò)誤等,提出了對(duì)抽象模型的修改意見。這些應(yīng)用反饋導(dǎo)致了抽象模型的進(jìn)一步修訂,經(jīng)過2007年2月、4月兩輪修改及公示,最終在6月新版抽象模型成為DCMI的推薦規(guī)范。
新版抽象模型在結(jié)構(gòu)、內(nèi)容和措辭上作了巨大的改動(dòng),其語言表達(dá)、語義定義、組織結(jié)構(gòu)更加嚴(yán)謹(jǐn)、清晰、明確。
新版抽象模型的改進(jìn)主要有以下幾個(gè)方面:
4.1 語言表達(dá)、文字表述的改進(jìn)
新版抽象模型修改了對(duì)抽象模型目的的描述,并把詞表模型從資源模型中抽出單獨(dú)定義。舊版抽象模型的目的描述沒有反映抽象模型在定義什么是DC元數(shù)據(jù)、DC元數(shù)據(jù)描述結(jié)構(gòu)的本質(zhì)以及如何解釋這些結(jié)構(gòu)方面所起的作用,新版抽象模型對(duì)此做了改進(jìn),更明確地表明了抽象模型的目的。詞表模型基于RDF Schema,描述了DC元數(shù)據(jù)描述所使用的術(shù)語詞匯的類型以及術(shù)語詞匯間關(guān)系的類型,對(duì)于DC元數(shù)據(jù)描述引用其他元數(shù)據(jù)標(biāo)準(zhǔn)的屬性詞匯或自定義詞匯而言,有必要更明確地對(duì)詞表模型進(jìn)行單獨(dú)定義并進(jìn)一步擴(kuò)展,而詞表模型在舊版抽象模型中是隱含資源模型中的。此外,新版抽象模型更新了使用UML表達(dá)抽象模型的圖表,提高了可讀性。
4.2 內(nèi)容、結(jié)構(gòu)的刪減
新版抽象模型刪除了舊版抽象模型中關(guān)于編碼指南和關(guān)于結(jié)構(gòu)化取值的附錄以及關(guān)于向上兼容的討論;诔橄竽P偷木幋a規(guī)范制定之后,附錄中的編碼指南將顯得冗余。關(guān)于結(jié)構(gòu)化取值的討論放在修訂的DCSV、Box、Period、Point規(guī)范中。此外,新版抽象模型在描述集模型中刪除了標(biāo)記文本和結(jié)構(gòu)化取值,刪除了舊版模型中的“Rich Repre-sentations”!癛ich Representations”中的內(nèi)容允許自我描述,不符合“一對(duì)一原則”。
4.3 已有概念、結(jié)構(gòu)的進(jìn)一步明確
這方面的修訂包括:子屬性、子類在詞表模型中作為屬性、類之間的關(guān)系進(jìn)行表達(dá),并在詞匯表中進(jìn)行定義,而不再作為單獨(dú)的類定義;強(qiáng)調(diào)描述集是基本的抽象信息結(jié)構(gòu);使用“Described Resource”作為描述的主語,消除取值和資源的混亂;值字符串可以附帶語言選項(xiàng)或者句法編碼體系選項(xiàng),也可以不帶,而不是全帶;更新句法編碼體系的定義,明確地把它與RDF Schema中的類“DataType”相映射;重新定義詞表編碼體系為“資源枚舉集合”,從而使屬性的取值作為其成員可以當(dāng)作類的實(shí)例被進(jìn)一步描述。
4.4 新概念、新結(jié)構(gòu)的擴(kuò)展
新版抽象模型對(duì)詞表模型進(jìn)行了單獨(dú)定義,以明確DC元數(shù)據(jù)描述中使用的術(shù)語詞匯類別;增加了抽象模型語義與RDF/RDFS的對(duì)應(yīng)關(guān)系,使其更加易于理解。
新版抽象模型為屬性附加定義域(Domain)和值域(Range)聲明,使隱含在人類可讀的元數(shù)據(jù)描述中的語義顯性化。定義域和值域作為詞表模型中屬性和類的關(guān)系進(jìn)行定義。定義域表明屬性所描述的資源所從屬的類,而值域表明作為屬性取值的資源所從屬的類。定義域和值域以有益于推理的形式說明了與一個(gè)給定屬性相關(guān)的被描述資源和取值資源的種類。形式化的定義域和值域使得機(jī)器能夠處理隱含在自然語言定義中的涵義。
新版抽象模型將屬性的取值進(jìn)一步區(qū)分為文字值和非文字值,以支持任何基于抽象模型的編碼格式可以非常明確、容易地轉(zhuǎn)換為RDF格式。
5 新版DC元數(shù)據(jù)抽象模型對(duì)DC元數(shù)據(jù)其他組成部分的影響
經(jīng)過十幾年的發(fā)展,DC元數(shù)據(jù)已經(jīng)發(fā)展為由多個(gè)部分組成的較為嚴(yán)密的體系,包括抽象模型、編碼規(guī)范、受控規(guī)范詞表、應(yīng)用綱要等。在各個(gè)部分中,抽象模型越來越起到基礎(chǔ)性的指導(dǎo)和規(guī)范作用。
5.1 抽象模型與編碼規(guī)范
DC元數(shù)據(jù)抽象模型提供了多種編碼方式互操作的概念模型,獨(dú)立于任何一種具體的編碼方式,各種具體的編碼規(guī)范必須符合抽象模型。新版DC元數(shù)據(jù)抽象模型推出后,所有的編碼規(guī)范都將重新修訂。2008年1月新的RDF編碼規(guī)范(DC-RDF)已經(jīng)作為推薦規(guī)范正式推出,替代原有的RDF/XML規(guī)范(DCQ-RDF-XML、DCMES-XML)。這個(gè)規(guī)范描述了如何使用RDF模型來表達(dá)DC抽象模型的特征,沒有限定任何具體的RDF編碼方式如RDF/XML,所有的RDF編碼方案都可以使用,可以是RDF/XML、N-Triple、RDFa,也可以是RDF數(shù)據(jù)庫。新的符合抽象模型的XML規(guī)范以及(X)HTML規(guī)范正在制定之中。新的XML規(guī)范將將分為兩個(gè)版本:DC-XML-Full和DC-XML-Min。DC-XML-Full體現(xiàn)抽象模型的全部特征,比較復(fù)雜,滿足復(fù)雜的元數(shù)據(jù)需求。DC-XML-Min體現(xiàn)抽象模型的部分特征,是一個(gè)子集,直觀簡(jiǎn)單,滿足簡(jiǎn)單的元數(shù)據(jù)需求。
5.2 抽象模型與術(shù)語詞表
DC元數(shù)據(jù)術(shù)語詞表作為DC元數(shù)據(jù)描述所使用的術(shù)語詞表之一,必須符合抽象模型。2008年1月新發(fā)布的術(shù)語詞表規(guī)范根據(jù)新版抽象模型作了較大的修訂。由于所有符合抽象模型的元數(shù)據(jù)描述所使用的術(shù)語詞匯必須賦予唯一的標(biāo)識(shí)符,因此DCMI首先于2007年7月根據(jù)新版抽象模型修訂了命名域政策規(guī)范(Namespace Policy),使命名域政策規(guī)范的用語與抽象模型一致,同時(shí)增加了一個(gè)新的命名域dcam:,以容納新增的術(shù)語詞匯。新版術(shù)語詞表主要作了如下改動(dòng):
對(duì)一些定義、描述性標(biāo)簽和用法注釋作了修訂。
更加明確地區(qū)分兩種編碼體系:句法編碼體系和詞表編碼體系。修訂了兩類編碼體系的定義,以便明確如何從模型的角度看待和解釋這兩類編碼體系。
增加與抽象模型相關(guān)的兩個(gè)新的術(shù)語:memberOf和VocabularyEncodingScheme。
明確詞表編碼體系是一個(gè)資源的枚舉集合,DCMI類型詞表是一個(gè)類的枚舉集合。
對(duì)屬性形式化的定義域和值域及子屬性關(guān)系(針對(duì)部分屬性)作了明確的規(guī)定。
為了不影響已有簡(jiǎn)單DC RDF實(shí)現(xiàn)的一致性,DCMI沒有給DCMES即dc:命名域中的15個(gè)屬性規(guī)定定義域和值域,而是在dcterms:命名域中新創(chuàng)建了15個(gè)具有相同名稱的屬性,這些新屬性被規(guī)定為原有屬性的子屬性,同時(shí)分配了定義域和值域。抽象模型不再把屬性區(qū)分為元素和修飾詞兩種類型,新的修訂包含了子屬性關(guān)系的表達(dá),如dcterms:creator是dcterms:contributor的子屬性。同時(shí),這種關(guān)系的表達(dá)只限于新創(chuàng)建的15個(gè)屬性?梢愿鶕(jù)應(yīng)用需求,自由地選擇這兩種15個(gè)屬性,但是應(yīng)該盡可能地選擇dcterms:命名域中的屬性,它們更適合于機(jī)器處理。
5.3 抽象模型與應(yīng)用綱要
近年來DCMI大力推廣和完善應(yīng)用綱要,但是應(yīng)用綱要本身也需要進(jìn)行一定規(guī)范,否則也無法達(dá)到最低程度的一致性。完善后的新版抽象模型提供了實(shí)現(xiàn)機(jī)器可處理的應(yīng)用綱要所需要的元數(shù)據(jù)模型。2007年8月的DC年會(huì)上提出了一整套以DC元數(shù)據(jù)抽象模型為基礎(chǔ)的元數(shù)據(jù)應(yīng)用綱要形式化方案,稱為“新加坡框架(Singapore Framework)”。2008年1月DCMI發(fā)布了“新加坡框架”的相應(yīng)文檔,闡述了DC元數(shù)據(jù)應(yīng)用綱要的概念及組成。其中,最重要的組成部分是描述集綱要(Description Set Profile,DSP)。它基于DCMI抽象模型,為應(yīng)用綱要提供了一個(gè)描述集結(jié)構(gòu)約束語言,對(duì)應(yīng)用綱要的形式化內(nèi)容作了明確的規(guī)定。
6 結(jié)語
DC元數(shù)據(jù)抽象模型定義了元數(shù)據(jù)概念模型,可以保證DC元數(shù)據(jù)的理性發(fā)展與內(nèi)在一致性。它基于RDF,使DC元數(shù)據(jù)可以更好地嵌入未來的語義網(wǎng)應(yīng)用;獨(dú)立于任何句法規(guī)范,為各種元數(shù)據(jù)應(yīng)用提供了互操作基礎(chǔ);支持術(shù)語詞匯的引用與自定義,定義了元數(shù)據(jù)描述的信息結(jié)構(gòu),為實(shí)現(xiàn)DC元數(shù)據(jù)應(yīng)用綱要的規(guī)范化和機(jī)器可處理奠定了基礎(chǔ)。DC元數(shù)據(jù)抽象模型的修訂使其更加完善,必將為DC元數(shù)據(jù)更好更快地發(fā)展以及大規(guī)模應(yīng)用提供堅(jiān)實(shí)基礎(chǔ)。
責(zé)任編輯:杜杏葉
相關(guān)熱詞搜索:抽象 新版 模型 新版DC元數(shù)據(jù)抽象模型研究 都柏林核心元數(shù)據(jù)抽象模型 抽象模型
熱點(diǎn)文章閱讀