35
DCMI Metadata Updates DCMI元数据进展 [email protected] 1 1 2009年11月4日星期三

南宁会议 Metadata

Embed Size (px)

DESCRIPTION

 

Citation preview

DCMI Metadata UpdatesDCMI元数据进展

[email protected]

112009年11月4日星期三

ContentsDC元数据

DC应用纲要(DCAP)

DC抽象模型与新加坡框架

描述集纲要(DSP)及其编码

什么是规范的元数据应用纲要(举例)

当前国内元数据应用中的问题

未来(规范控制、RDA等)

222009年11月4日星期三

DC元数据

332009年11月4日星期三

4

42009年11月4日星期三

Elements1. Identifier2. Title3. Creator4. Contributor5. Publisher6. Subject7. Description8. Coverage9. Format10. Type11. Date12. Relation13. Source14. Rights15. Language

来自Tom Baker的演示文稿

不断增长的元素

552009年11月4日星期三

Elements1. Identifier2. Title3. Creator4. Contributor5. Publisher6. Subject7. Description8. Coverage9. Format10. Type11. Date12. Relation13. Source14. Rights15. Language

AbstractAccess rightsAlternativeAudienceAvailableBibliographic citationConforms toCreatedDate acceptedDate copyrightedDate submittedEducation levelExtentHas formatHas partHas versionIs format ofIs part of

Is referenced byIs replaced byIs required byIssuedIs version ofLicenseMediatorMediumModifiedProvenanceReferencesReplacesRequiresRights holderSpatialTable of contentsTemporalValid

RefinementsBoxDCMITypeDDCIMTISO3166ISO639-2LCCLCSHMESHPeriodPointRFC1766RFC3066TGNUDCURIW3CTDF

EncodingsCollectionDatasetEventImageInteractive ResourceMoving ImagePhysical ObjectServiceSoftwareSoundStill Image

Types

来自Tom Baker的演示文稿

不断增长的元素

552009年11月4日星期三

DC元数据标准规范体系

DC 1.0

{Element | (DCMES, DCTerms)}

DC 2.0

{Element | DCAMDCAP(DCTerms++)}

662009年11月4日星期三

元数据应用纲要(DCAP)

元数据工作的最重要的目标:制定AP

适用于领域应用(可以是标准文件)

包含元数据元素、相互关系及元素取值

的各种规定

元素和取值的术语尽可能重用

可以推荐编码方式,并制定编码规范

772009年11月4日星期三

新加坡框架(来自Tom Baker)

8

应用指南

功能需求 领域模型元素集描述

编码指南与数据格式

社区领域模型

元素词表DCMI抽象模型

DCMI句法指南

RDF/S RDF

标注 Annotate

建立基础

建立基础

建立基础

使用

使用 建立

基础建立基础

建立基础

建立基础

建立基础

建立基础基础标准

领域标准

DC应用纲要

新加坡框架提出了一个完整的框架,解决了“元数据规范体系包括哪些部分,各部分的相关关系是什么”的问题。

82009年11月4日星期三

元数据应用纲要的内容应用指南(可选)

规定元数据应用的目的和范围

功能需求(应备)

领域模型(必须)

包含功能需求所涉及的所有实体的数据模型

描述集纲要(必须)

描述所涉及的所有“类”及其“属性”,及其各类约束

编码规范(可选)

992009年11月4日星期三

应用指南对于所适用领域应用该元数据纲要(规范)的目的

和范围的说明,应该回答下列问题:

该应用纲要是否已经被/能够被哪些领域/类型的应用所采用?

应用纲要的目标用户群是谁?

应用纲要是由哪些组织机构或个人参与制定的,为什么

制定?

该应用纲要如需进一步开发和维护,包括部署、编写或

修改指南等,是否有责任实体?是谁?

10102009年11月4日星期三

功能需求

功能需求的详略程度决定了一个应用纲要适用范围

作为领域应用标准(如科技部项目)

作为系统开发文档

作为前者,通常可以笼统地定义这类功能需求,

如“find”, “identify”, “select”, “obtain”,也可以进行详细定义

11112009年11月4日星期三

领域模型是一种数据模型,而不是抽象模型

通常以“实体关系”模型建立,包含所涉及的、满足系统功能需求的所有实体及相互之间关系的描述

可以采用图形方式(例如用UML类图),也可以采用文本说明

可以复用或参考其它的外部定义的数据模型。

需要回答以下问题:

该模型是否析出了足够的实体,并描述了它们之间的关

系?

如果该模型采用了外部定义的数据模型,该模型是否被

明确标识?以及与被引用的模型与本应用是否有不同之

处?

12122009年11月4日星期三

FRBR作为领域模型 DOMAIN MODEL FOR SCHOLARLY WORKS APPLICATION PROFILE

13132009年11月4日星期三

DC抽象模型 (DCAM)规定了“资源如何被描述”,即元数据的最小组成单位——记录*的一般结构(源自RDF)

任何事物都是资源

资源有类型

任何资源都可以以URI标识

任何资源都包含一个或多个实体

实体可以由属性来描述,属性集构成描述集

描述由陈述集组成,一个属性-值对构成一个陈述

属性取值可以有领域和范围(domain & range)的约束

属性值可以是另一个资源,可以是文字(literal)

资源(类)、元素(属性)、取值(元素修饰词和编码体系修饰词)都可以进行规范控制,主要方法就是术语及模式的登记注册(赋予URI并进行管理维护,可利用关联数据技术等)。

注意:该“记录”不同于数据库中的记录)。14142009年11月4日星期三

领域模型与抽象模型

领域模型决定哪些资源需要被标识和描述

抽象模型决定如何进行描述

完全不同的模型

15152009年11月4日星期三

DC属性元素的“领域和范围(Domain and Range)”见:http://dublincore.org/documents/domain-range/index.shtml

16162009年11月4日星期三

DCAM RESOURCE MODEL 29 October 20

07

22

Images D

CA

P WG

meeting, London

17172009年11月4日星期三

DCAM DESCRIPTION SET MODEL

18182009年11月4日星期三

Record (encoded as html, XML, or RDF/XMLDescription set

Resource Description (URI)Resource Description (URI)

Resource Description (URI)

Statement

Statement

Statement

language (pt-BR)

DCAM图示(来自ANDY POWELL)

value string

value URIproperty (URI)

syntax encodingscheme

Vocabulary encoding scheme

19192009年11月4日星期三

Description Set

Description

Statement

Property URI

Resource URI

Literal Value Surrogate

Description

Statement

Property URI

Resource URI

Non-Literal Value Surrogate

Statement

Property URI

Non-Literal Value Surrogate

Value URI

Vocab Enc Scheme URI

Value URI

Value string

Value string

Value string

Syntax Enc Scheme URI

Language

Language

20202009年11月4日星期三

Description Set

Description

Statement

Property URI

Resource URI

Literal Value Surrogate

Description

Statement

Property URI

Resource URI

Non-Literal Value Surrogate

Statement

Property URI

Non-Literal Value Surrogate

Value URI

Vocab Enc Scheme URI

Value URI

Value string

Value string

Value string

Syntax Enc Scheme URI

Language

Language

20202009年11月4日星期三

描述集纲要(DSP)描述集规范(DSP)规定了描述一个资源的各个实体,其属性元素如何组合、有什么约束,等等,为

各种形式化(格式)提供了说明。DSP决定了一个元数据应用纲要的差异性。

描述集规范由描述模板和陈述模板进行定义。描述

模板对应于组成资源的各个实体,包含了一组陈述

模板,每个陈述模板对应于一个属性描述,包含了

元素及其各种约束。

21212009年11月4日星期三

DCAP举例

DC-CAP(完成)

http://dublincore.org/groups/collections/collection-application-profile/index.shtml

都柏林核心资源集合描述应用纲要

都柏林核心资源集合描述应用纲要概述

DC-Lib(草案)

http://dublincore.org/documents/library-application-profile/index.shtml

22222009年11月4日星期三

我们目前的AP存在的问题1、元素URI2、功能需求(用例)3、领域模型4、属性元素(DSP描述集纲要)5、属性取值规定及约束(规定描述模板及陈述模板,包括:词表修饰词,编码体系修饰词,语种,数据类型,重复次数及其它约束关系等内容)

6、著录时所需的其它规定(著录对象、著录单元的判断,部分所需的管理或技术元数据)

还要注意:AP并不当然包括编码方式(可以用多种形式编码),也不一定是一种格式。

可以举例:http://cdls.nstl.gov.cn/2003/SpcMetadata/

24242009年11月4日星期三

当前元数据研究和应用人读而非机读

语义的模糊性

模型的完整性(两类模型:FRBR和DCAM)

执行的一致性

数据的独立性

基本上无法编码实现(包括数据库系统开发)

我们目前的元数据方案可以说只完成了MARC数据格式的定义,还没有2709格式使其真正机器可读

从这一点来说,目前各类元数据著作、方案中值得推敲的地

方还是比较多的

25252009年11月4日星期三

一些建议建立本地化扩展术语的命名域参考

建立元数据应用纲要(词表)及编码的登记注册体系

修订目前的领域应用元数据应用纲要

推进元数据集成开发系统(IDE)软件和工具的开发建立数字图书馆标准规范的开放讨论维护机制

“机读版”元数据方案的推广、培训

随着元数据应用的开展和普及,一致性问题越来越严重。现在如果不重视,将后患无穷!

26262009年11月4日星期三

网络资源的规范控制

资源(类)、属性(元素)、编码体系、词表的控

规范控制的功能需求及其实现

常见的、一般的网络资源类型(DCType)

RDA作为一种领域应用的元数据著录规范

27272009年11月4日星期三

目前符合DCAM的术语前提是四类术语必须都具有URI;

应该有以下方式的RDF的声明: 1). 作为RDF属性词(RDF Property)也即DC元素(http://www.w3.org/1999/02/22-rdf-syntax-ns#Property 或其子元素;

2). 作为类(http://www.w3.org/2000/01/rdf-schema#Class or a subclass thereof).

3). 作为RDF数据类型(Datatype)或DCMES /DCT (http://www.w3.org/2000/01/rdf-schema#Datatype or a subclass thereof

4). 作为(http://purl.org/dc/dcam/VocabularyEncodingScheme or a subclass thereof).

 

RDF属性词。当然不仅仅是DC元素或子元素(http://dublincore.org/documents/dcmi-terms/)也包括很多其它如SKOS术语(http://www.w3.org/TR/2004/REC-rdf-schema-20040210/),以及RDFS(http://www.w3.org/TR/2004/REC-rdf-schema-20040210/)等等。

28282009年11月4日星期三

元数据编码

元数据模式与元数据记录的编码是两回事

DC元数据的编码并无统一,只是定义了符合DCAM的“最佳实践”,同样符合DCAM的编码最佳实践可能有多种,有细微的互操作差别

描述模版和陈述模版是DSP推荐的元数据记录打包方式。

29292009年11月4日星期三

元数据编码

DC-Text:http://dublincore.org/documents/dc-text/

HTML/XHTML meta and link elements http://dublincore.org/documents/dc-html/

DSP的编码:http://dublincore.org/documents/dc-ds-xml/

XML编码指南: http://dublincore.org/documents/dc-xml-guidelines/

RDF:http://dublincore.org/documents/dc-rdf/

30302009年11月4日星期三

ONE MODEL – MANY SYNTAX OPTIONS

37Example of Simple Dublin Core in XHTML

31312009年11月4日星期三

未来—关于RDA1、适应了全球化浪潮,加强了国际性,消除了英美国家特有的内容,是第一部真正全球大同的编目规则。

2、扩展了适用对象,不只是针对纸质资源,而定位于描述和检索所有资源,从而能够作为复合型图书馆的“大一统”的元数据规范,并适用于互联网环境。

3、首次全面实践了FRBR,突破了传统MARC数据的的扁平结构,为MARC数据进入互联网,以及Web时代的信息资源描述和规范控制提供了概念模型。

4、不再仅仅是一套文本,同时也是一套Web工具;不仅具有方便的、“事件敏感”型查索功能(包含词表登记注册管理等功能),同时支持开发商集成到管理系统中,提供各类商业性的Web服务。

5、独立于编码和数据格式,定位于“内容”规范,从而能支持MARC、DC、MARCXML、MODS、RDF/XML等等众多输出格式。

6、成为连接过去与未来的桥梁。吸收了大量DC元数据的研究成果,使它能够“兼容”互联网,把遗留系统中的书目数据,带入到互联网时代,并为互联网提供一套经典的“书目控制”手段。

32322009年11月4日星期三

DCMI Metadata UpdatesDCMI元数据进展

[email protected]

谢谢!

33332009年11月4日星期三