会聚信息检索器具扣问·AV影院
格外元数据扣问近况过火发展
刘 宇
(南京政事学院上海分院信息惩处系 200433)
摘 要 本文通过对海外格外元数据的先容和比较,分析了格外化当作元数据发展趋势之一的近况、成因,并转头了格外元数据的制定门径。
要津词 元数据 格外化 格外元数据
1 元数据的主张和发展气象
元数据当今迢遥界说为对于数据的数据,或对于数据的结构化数据。对于这一粗陋的界说,各界的巨匠和学者皆对它作了进一步的解释和推广,天然刻下莫得酿成一个调和的、更为精准的界说,然则东说念主们对这一主张的以下康健却被平常罗致。
最初,元数据不一定是数字的。正如芝加哥大学藏书楼和系统认真东说念主助理Priscilla Caplanrn所指出的那样,元数据并不是什么崭新事物,“书目记载是元数据,TEI头标亦然”,出书商以及藏书楼员几个世纪以来一直在制作和使用着元数据。这雷同也讲明元数据所记载的信息对象也不一定是数字的。藏书楼的典籍、博物馆的艺术品以及档案馆中的档案向来即是元数据所描摹的对象,因此元数据所记载的信息对象既有实体资源也格外字资源。
其次,元数据欣慰于数字期间。尽管元数据的历史不错纪念得手工记载的期间,但元数据的平常应用和发展却是在电子文档即数字资源迢遥产生的期间。尤其是为安妥会聚上海量信息资源的惩处和垄断,当代元数据以全新的面庞赶紧发展起来。跟着会聚信息资源的迢遥斥地与垄断,元数据益发显得缺陷而不成或缺。
大众皆知,信息资源的内容终点丰富,这与它的信息开端平常、信息发布摆脱不无关系。由于互联网大致折射社会糊口的各个范畴,是以东说念主类坐褥、糊口、科研、文娱以过火他社会实行行动中产生的各式信息费力皆可在互联网上找到。会聚信息资源触及许多语种、关联许多学科,加之许多新事物、新学科时常先在网上表露和报导。另外,与实体信息资源比拟,会聚信息资源采纳的方法更是五彩斑斓。而方法不同,文献的类型也不沟通。如在Web页上,既有以HTML说话编制的ASCII文献,也有与其他Web页相勾通的文本、图像、声息等信息内容,致使导致作事器类型也不沟通,即会聚信息资源的使用与提供信息的站点的软硬件和作事关系。简言之,信息资源呈现出多元化的发展趋势,信息资源的文献类型以及资源的应用环境(包括学科范畴、行业部门)也呈现出各种化的发展趋势。与此同期用户对信息资源的垄断需求也阐发出多元化、格外化的特色,包括用户对信息内容条款的专科化、多头绪化,对信息抒发花样(文献类型)条款的各种化,以及信息提供路线(如通过Email)条款的各种化等。在这么的配景下,描摹资源的元数据也顺应这种发展呈现出多元化,格外化的发展趋势。
由于元数据决议的制定老是在特定应用下开展的。因为这些元数据反应不同范畴的实行和原则,安妥不同范畴用户的不同需求,是以应为不同范畴制定不同的元数据。
2 海外格外元数据简介
从20世纪90年代于今,宇宙列国各业就先后制定出数十种有一定影响的元数据。
2.1 学科范畴使用的格外元数据
下文将对几种海外常用的元数据进行分组先容。
2.1.1 用于教诲资源的IEEE LOM和GEM
IEEE LOM(IEEE Learning Object Metadata,学习对象元数据)是由IEEE学习本领标准委员会P148412学习对象元数据责任组确立,用以齐备、充分地描摹一个学习对象的特征。其描摹对象包括任何数字化或非数字化的实体。如多媒体内容、教诲内容、教诲软件和器具、参考费力等能在学习系统(如筹划机培训系统、交互学习环境、智能筹划机辅助教诲系统、资料学习系统、基于会聚的学习系统和配合学习环境)中被使用、参考和复用的对象实体。
IEEE LOM将描摹学习对象各方面特征的元素分为9个基本类别:1) General(通用类)、2) Lifecycle(人命周期类)、3) MetaMetaData(宏元数据类)、4) Technical(本领类)、5) Educational(教诲类)、6) Rights(权柄类)、7) Relation(关系类)8) Annotation(注解类)以及9) Classification(分类类)。各元素下设有子元素来对元素内容加以推广。
GEM(The Gateway to Educational Materials,教诲资源网关)是好意思国政府教诲部扶植的名堂,勤苦于于组织和整合好意思国各种网站上的教诲资源,以便东说念主们浅易地检索和得回。GEM元素集在复用DC全部十五个元素为中枢元素的基础上,证据教诲资源的特色推广了8个新的元素,况兼对各元素通过加多规章属性的门径加以推广。这八个新的属性包括:1) Audience(受众)、2) Cataloging(编目信息)、3) Duration(抓续时期)、4) EssentialResources(必要资源)、5) Grade(适用年岁)、6) Pedagogy(教学条款)、7) Quality(质料评估信息)以及8) Standard(标准)。表1对上述两种元数据元素进行了分类和对照。
表1 学习元数据分析
IEEE LOM
GEM
与其他元数据标准相似的元素
Identifier
Title
Contribute
Language
Description/Annotation(各元素)
Keywords/Classification(各元素)
Version
户外内射Format/Size/Duration
Relation(各元素)
Rights(各元素)
Identifier
Title
Greator/Contributor/publisher
Language
Description/source/coverage
subject
Date
Format/Duration
Relation
Rights
type
具有特色的元素
Structure
CatalogEntry
Requirements
Aggregation Level
Education(各元素:Interactivity Level、
Semantic Density、
Intended end user role、
Learning Context、
Difficulty、
Typical Learning Time)
Audience
Cataloging
EssentiaIResource
Grade
Pedagogy
Quality
Standard
2.1.2 用于博物馆藏品或特藏的:CDWA、VRACore和REACH元素集
CDWA(Categories for the Description of Works of Art艺术作品描摹类目),是描摹艺术作品的结构化器具,主要应用于艺术作品,珍善本和其他三维作品,它的描摹要点在于“可动”的对象过火图像。它有27个中枢元素,每一中枢元素下还设一层或多层子元素。该元数据标准是针对描摹艺术品的需求而遐想的,艺术品具有物理形态的,也可能同期具格外字化了的图像,此外时空、东说念主物、历史文化等方面的凹凸文关系在描摹一件艺术品时也瑕瑜常缺陷的,CDWA中有许多元素皆反馈了艺术品独到的这些特色。
VRA(Core Categories for Visual Resources,视频资源中枢类目)由好意思国视觉费力协会制定,是为在会聚环境下描摹艺术、建筑、史前古器物、民间文化等艺术类可视化资源而确立的元数据标准。刻下已推出到第三版块,制定了17项元素。VRA著录单元辘集比较粗陋,尽管VRA的元素大多数能在其他元素中找到对应名堂,其元素修托词的界说却瑕瑜常具有特色的。举例对日历元素Date作念落拓的修托词就包括Creation(创作)、Design(遐想)、Beginning(启动)、Completion(完成)、Alteration(修改)以及Restoration(诞生)。
1997年RLG(Research Libraries Group)提议REACH名堂,探索若何组织博物馆信息来灵验提供博物馆资源的在线作事。为此,RLG王法了REACH元素集(The REACH Element Set)。REACH元素集王法了20个基本元素,它不扶植任何方式的推广。表2对上述三种元数据元素进行了分类和对照。
表2 藏品、艺术作品元数据分析
CDWA
VRA
REACH Element Sets
与其他元数据标准相似的元素
CurrentLocation:Repository NumberAV影院
Title or Names
Creation
Descriptive Note/Context
Subject matter/Classification
Edition/State
Measurement
Related works/Related Visual
Documentation/Related Textual
References
Copyrights/Restrictions
Object/Work Type
ID NUMBER
Title
Creator
Description
Subject
Date
Measurements
Relation
Source
Rights
Type
Currrent Object ID Number/ Electronic Location & Access
Object Name/Title
Creator/Maker
Notes
Subject Matter
Date of Creation/Date Range
Medium/Materials/Dimensions
Related Objects
Language
Provenance/Place of Origin/Discovery
Current Owner
Type of Object
具有特色的元素
Orientation/arrangement
Inscriptions/Marks
Style/Periods/Groups/Movements
Facture
Critical Responses
Cataloging History
Materials and Techniques
Physical Description
Conditions/Examination History
Conservation/Treatment History
Ownership/Collection History
Exhibitions/Loan History
Record type
Culture
Style/Period
Material
Technique
Location
National Culture of
Creator/Maker
Style/Periods/Groups/Movements
/School
Techniques/Process
Current Repository Name
Current Repository Place
2.1.3 用于地舆空间资源的FGDC/CSDGM
刻下元数据已成为国际地舆信息范畴的扣问热门,当许多部门启动康健到地舆空间元数据标准的缺陷性时,元数据标准化当作一项寂然扣问内容的需求也越来越彰着。1994年,好意思国联邦地舆数据委员会(FGDC)便启动了元数据的扣问,发展了一种以元数据为中枢的标准,以便完毕数据查询、分享、减少重叠坐褥以及促使其合理使用。地舆空间信息包括数字舆图、空间扫描图像、附载其他数据(举例东说念主口、经济、历史等)的地舆图等,本体上是一定结构的数据集。FGDC界说了数字地舆空间数据内容标准(The Content Standard for Digital Geospatial Metadata,CSDGM),其方针是为数字化的地舆空间数据提供一组群众术语集过火界说,为地舆空间信息通达性描摹、交换和处理奠定基础。
FGDC/CSDGM主要由10个元素段构成:1) Identification Information(识别信息)、2) Data Quality Information(数据质料信息)、3) Spatial Data Organization Information(空间数据组织信息)、4) Spatial Reference Information(空间参考信息)、5) Entity and Attribute Information(实体与属性信息)、6) Distribution Information(发布信息)、7) Metadata Reference Information(元数据参考信息)、8) Citation Information(援用信息)、9) Time Period Information(时期信息)以及10) Contact Information(筹划信息)。
其中识别信息段、实体与属性信息段、发布信息段、援用信息段、时期信息段以及筹划信息段的各元数据元素与其他元数据标准的元素相类,其余则是地舆空间元数据所独到的元素。各元素能通过子元素加以推广。
1994年后期,国际标准化组织靠近地舆信息数据标准化的趋势,诞生了地舆信息/地球信息业本领委员会,即ISO/TC 211,用于格外扣问和建当场理信息,标准拟制定的元数据标准编号为ISO 15046-15。该标准是在FGDC的基础上,参考其他地舆空间元数据,按照国际标准化组织王法制定。
2.1.4 用于手稿档案保存类的EAD
EAD(Encoded Archival Description编码档案描摹)由好意思国国会藏书楼会聚斥地 & MARC标准办公室保重(the Network Development and MARC Standards Office of the Library of Congress),同期好意思国档案惩处员协会(the Society of American Archivists)是其合作家。EAD方法主要用于描摹档案和手稿资源,亚洲色图 校园春色包括文本文档、电子文档、可视材料和声息记载。
EAD方法先用SGML(标准通用标记说话)当作其编码说话,并使用SGML DTD(文档类型界说)界说其内容与结构。EAD DTD将系数这个词EAD元素辘集界说为多少头绪的元素组合。其中高层元素分为三项:EAD Header(EAD头标)、Frontmatter(前边事项)和Archival Description(档案描摹)。
EAD头标描摹了档案产生、校正、出书与刊行等信息,包括EAD Identification(EAD标志符)、File Description(文献描摹,包括Title Statement、Edition Statement、Publication Statement、Series Statement和Note Statement)、Profile Description(摘要描摹,包括Creation和Language)以及Revision description(校正描摹)。可见EAD头标中所含的这些元素内容是不错在其他元数据方法中找到相似元素的。
EAD前边事项含有一个落款页元素,用以生成各档案单元我方的落款页。EAD档案描摹项则是对档案内容和相互关系信息的具体描摹部分,这些信息以分层的方式组织在全部,包括文献内容、凹凸文关系以及可选的增补信息。包括描摹标志符、附庸描摹费力、惩处信息、编排、列传/历史、检索规章、数字档案对象/数字档案对象组、附注、其他描摹数据、组织、鸿沟和内容以及附庸因素描摹十块内容,宽敞的元素内容注意地标志了档案的各式可用信息。
2.1.5 用于政府信息的GILS
GILS(Government Information Locator Service,政府信息定位作事)是一种扶植公众搜寻、得回和使用政府公开信息资源的分散式信息资源及垄断体系。自1994年12月好意思国商务部将GILS筹划当作联邦政府信息处理标准颁发以来,一些国度和政府组织纷纷启动垄断GILS来确立或股东政府信息的平常垄断。GILS基本构建要素是GILS作事器资源目次中对具体资源进行描摹的元数据。GILS元数据由多少中枢元素构成,并可含有应用系统自界说的元素或与具体应用系统相容的其他Z3950应用范例中界说的元素。表3列出GILS元数据中枢元素。
2.1.6 数学标记说话MathML
MathML(Mathematical Markup Language,数学标记语说话),是基于XML(推广标记说话)的描摹数字公式结构和内容的标准门径,扶植对基于WEB的数学信息进行抒发、传递与处理。MathML通过使用表征元素(Presentation Element)将数学公式阐明为多少基本标记的组合,通过使用内容元素(Content Element)将数学公式领路为一个个抽象数学主张的辘集,使数学公式不再是可视标记的堆砌,而是具有本体语义的内容结构。这么MathML不仅不错对数学抒发式作可视化表征,而且不错明确标记数学抒发式的内容含义和构成结构。使用MathML这么的格外范畴标准标记说话,对格外范畴内的文献进行语义领路和结构领路,使得元数据对资源里面的信息实体、学问内容的揭示才调大大加强了,从而使资源描摹由文献款目头绪的描摹的确插足到内容头绪的描摹。
此外还有一些范畴的元数据标准也得到了一定鸿沟的应用。举例,用于文本文献的TEI(Text Encoding Initiative,文本编码首创名堂)、ONIX(ONIX Product Information Standards,在线信终止换家具信息标准);用于数据费力的SDSM(Standard for Survey Design and Statistical Methodology Metadata,造访遐想与统
表3 GILS元数据分析
GILS
与其他元数据标准相似的元素
Schedule Number/Control Identifier
Title
Orginator/Contributor
Date of Publication/Date of Last Modification/Record Review Date
Place of Publication
Language of Resource/Language of Record
Abstract
Controlled Subject Index/Subject Terms Uncontrolled
Spatial Domain
Source of Data/Record Source
Access Constraints/use Constraints
Cross Reference
具有特色的元素
Availability
Methodology
Point of Contact
Supplemental Information
Purpose
Agency Program
计门径元数据标准)、DDI(Data Document Initiative数据文档首创名堂);用于音乐类的SMDL(Standard Music Description Language,标准音乐描摹说话);用于数字图像或动画的TMI(Technical Metadata for Images,数字图像本领元数据)、MOA2数字图像元数据(The Making Of America II)、CDL数字图像元数据(California Digital Library);用于音像费力的MPEG-7(多媒体内容描摹接口)标准、MusicBrainz元数据;用于会聚资源的IAFA/WHOIS++Templates、SOIF(Summary Object Interchange Format);用于医学资源的OhioLINK医学元数据、NLM Metadata Schema(好意思国国立医学藏书楼元数据集)等。
2.2 应用于各范畴所酿成的DC格外元数据
在宽敞的元数据中,DC无疑最受热心。DC元数据全称为皆柏林中枢元素集(Dublin Core Element Set,简称DC),产生于1995年3月在OCLC地点地Dublin召开的第一届元数据研讨会上。DC只含有15个基本元素,它们是内容描摹部分:落款、主题、讲明、开端、语种、关联和笼罩鸿沟;学问产权部分;创建者、出书者、其他包袱者和权限;外形描摹部分;日历、类型、花样和标志符。不丢丑出这些元素笼罩了上文先容的各式元数据中“与其他元数据相似的元素”。DC也恰正是这些元素的最精简的辘集。
DC被平常地应用于各学科范畴,酿成了一系列的格外范畴DC应用,较为着名的有DCEd(DC教诲资源应用元素集)、DC-Gov(DC政府机构应用摘要)以及DC-Lib(DC藏书楼应用摘要)。其中DCEd的推广为:补充Audience(读者对象)和Standard(联系标准)元素;为Relation元素加多一个修托词Conformsto(资源标准);复用了LOM中的InteractivityType(交互类型)、InteractivityLevel(交互历程)和TypicalLearningTime(继续学习时期)三个元素。DC-Gov则作了以下推广:复用DCEd的Audience元素;为Date元素推广Acquisition(得回)修托词,Relation元素推广IsBasedOn(基于)和IsBasesFor(为…的基础)修托词,Right元素推广Access marking(检索标记)、Previous Access marking(上次检索标记)、Access marking change date(检索标记更动日历)、Access rights(检索权限)和Copyright(版权)修托词,Subject元素推广Category(种类)和Keyword(要津词)修托词,Type元素推广Dossier type(卷宗类型)和Item type(款目类型)修托词。DC-Lib加多Edition(版块)和Loction(馆藏位置)两个元素;Date元素加多修托词DateCaptured(得回时期)、Identifier元素加多修托词identifierCitation(援用标志符);复用DCEd的Audience元素。
3 元数据格外化发展趋势及对元数据应用的启示
上文先容的几种元数据是宽敞格外元数据中辞宇宙鸿沟内有较平常应用、比较具有代表性的几种。通过对上述元数据元素内容进行比较不难发现,各式格外范畴的元数据标准中存在着一定数量标相似元素,这些相似元素的存在是像DC这么纯真而粗陋的通用元数据产生的依据之一。刻下通用元数据,主如果DC元数据在列国、各范畴的应用和发伸开展得热气腾腾,取得了宽敞扫尾,一时期让应用者们不由得怀疑格外元数据是否还应链接存在?正如DCMI在对DC功能的先容中所言,DC的出现并不是思要取代其他元数据,正相悖,DC的目标是成为会聚信息资源描摹的基础的跨范畴的元数据集,它是要成为这些元数据方法的补充,同来自这些元数据方法的元素相结合,最终达到跨范畴资源发现的目标。通用元数据与格外元数据在资源发现中所处的位置和所起的作用是不同的。此外,通用性和特指性从来即是一双矛盾,使用通用元数据来描摹格外范畴内的文献势必是以裁汰信息描摹的粒度为代价的。从上文中几种元数据相似元素的比较不错看出,尽管它们描摹相似的对象,然则在不同的范畴中它们的含义以及子元素的引申皆不尽沟通。如果期待用一种通用元数据标准取代系数的格外元数据,又盼望保有一定的标引粒度,这一元数据势将变得广大而脱落,也必定会因为使用的复杂性而在信息爆炸的今天丧失其本体操作性。同期元数据当作资源的“替代品”,用户对其资源发现功能的条款也在束缚晋升。用户对信息需求的专科性越来越强,因而发展得当不同专科风气、适用不同格外阵势的元数据是元数据发展的势必趋势之一。
元数据格外化的趋势在格外元数据制定和应用中的阐发为以下三种情况:
3.1 发展格外的元数据标准
针对范畴资源的特殊性,以及范畴内用户检索资源的风气,制定全新的元数据标准。举例上文的LOM元数据。
3.2 调和架构下针对格外的应用环境推广格外的元数据元素子元素
举例上文的GEM元数据即是在使用DC元数据元素当作中枢元素的前提下,推广描摹教诲资源对象的格外元数据元素。国内北京大学制定的元数据标准决议,将元数据隔离三个部分:开端于DC的中枢元素、本馆的中枢元素以及格外元素。在这一架构下北京大学藏书楼制定了拓片元数据等元数据标准。DCMI组织的各范畴DC应用更是这一门径的代表。
3.3 结合格外元数据与格外的标记说话
举例在好意思国国度科学基金会的NSDL(National Science Digital library)资源辘集名堂之一GREEN(Green's Functions Research and Education Enhangcement Network)数图名堂中,格外标记说话MathML和MatML(Material Makeup Language,材料格外标记说话)被用来与LOM元数据相结合以达到揭示范畴联系的格外内容的目标。
本文倾向于不要清闲制定全新的格外元数据,最佳选用第二种门径。无论最终采纳上述哪一种门径,在制定格外元数据时一定要处理好两个问题,即特指性与通用性的问题以及复用依然新建元数据元素的问题。前者当依据元数据的应用环境而定;后者则应该尽量洽商联系范畴的元数据标准,复用驰名元数据中的合适元素,这也出于格外范畴资源不错更好地融于更大鸿沟内的资源辘集的洽商。
参考文献1 张敏,张晓林.元数据的发展和联系方法.四川藏书楼学报,2000(2)
2 郭志红.元数据的多角度透视.藏书楼,2002(5)
3 冯项云等.海外常用元数据标准比较扣问.
4 胡海帆等.北京大学古籍数字藏书楼拓片元数据标准的遐想过火结构.
5 刘宇,王松林.《DC藏书楼应用摘要》概括.藏书楼杂志,2002(8)
6 韩夏,张晓林.描摹医学资源的元数据决议.典籍谍报责任,2003(12)
7 吴建中主编.DC元数据.上海:上海科学本领文献出书社,2000
8 王松林.信息资源编目.北京:北京藏书楼出书社,2003
9 刘嘉.元数据导论.北京:华艺出书社,2002
10 张晓林.元数据扣问与应用.北京:北京藏书楼出书社,2002
11 蒋景瞳,刘若,贾云鹏.国际元数据标准的发展和扣问近况.
12 周幼兰.元数据环境下国际华晓谕目交换的估量.,cn/dcchina/hywj.htm
13 陈微丽.凝听「Metadata发展现况:资源描摹与主题检索」演讲有感
14 傅明仪.三种档案描摹王法之比较.-1paper.PDF
15 DLTS-3.1学习对象元数据范例. jiaoyu.shtml
16 联系讲解费力之先容与比较.
17 《我国数字藏书楼标准范例格外数字对象描摹元数据范例》子名堂主页.
18 Virpi Lyytik en,Pasi T.Tiitinen,Airi Salminen.XML Metadata for Accessing Heterogeneous Legal Databases
19 DCMI Education Working Group.Education Working Group:Draft Proposal.-namespace/
20 DCMI-Government Working Group.DC-GOV APPLICATION PROFTLE.-200111.shtml
21 Rebeccar Guenther.Library Application Profile.-application-profile/index.shtml
22 Alison M.White.PB Core:the Public Broadcasting Metadata Initiative:Progress Report.-abstrac.pdf
23 Gregory M.Shreve,Marcia Lei Zeng.Integrating Resource Metadata and Domain Markup in an NSDL Collection.-abstract.pdf
24 By Wendy Duff.Evaluating Metadata at a Metalevel.
25 Getty Art Institute.Categories for the Description of Works of Art.
26 VRA Core Categories,Version 3.0.-web.org/vracore3.htm
27 IEEE 1484 Learning Objects Metadata(IEEE LOM).
28 A review of metadata:a survey of current resource description formats:Work Package 3 of Telematics for Research project DESIRE(RE 1004).[Online,Access Date:1 May,2003]
刘 宇 南京政事学院上海分院信息惩处系讲师。
- 2024/11/20调教 小说 外媒转头黑传闻悟空最难拼集的十大boss战名次:虎前卫仅第八
- 2024/11/18蘇暢 麻豆 多点数智第四次冲刺港股上市通过聆讯 获IDG成本、腾讯、金蝶、联念念等投资方加握
- 2024/11/16日本成人动漫 光影为媒,讲好中国故事的新疆篇章
- 2024/11/13王老撸 《舌尖上的中国•第2季:治大国若烹小鲜》
- 2024/11/12调教 揭露“科学教”的五部记载片(图)