学术前沿 | 网络首发·文化遗产智慧数据资源建设与服务专题 | 本体驱动的档案文献遗产元数据设计与应用研究——以苏州丝绸
字号:T|T
2023-09-07 16:39 来源:信息资源管理学报
http://kns.cnki.net/kcms/detail/42.1812.G2.20230814.0858.004.html.
摘 要:档案文献遗产元数据是实现档案文献遗产组织、数字存储的关键,也是开发利用的保障。本研究引入本体理论与方法,考虑本体中包含的类的定义、类的层级结构以及类的属性等特点,设计具有语义特征、包含内容元素的聚合式元数据体系。以档案文献遗产为研究对象,以档案文献遗产的元数据设计为核心问题,提出本体驱动的档案文献遗产元数据设计总体框架和具体步骤,包括资源选取与采集、本体模型的构建、从本体到元数据、元数据方案应用四个方面,并以苏州丝绸档案为例,结合资源特征,构建本体模型,实现该对象的元数据方案设计与应用,以证实本体方法指导元数据构建的有效性与科学性。
档案文献遗产是具有一定的历史、文化、艺术、科学、技术或社会价值的各种记录,是不可再生的“集体记忆”[1]。元数据方案的设计是档案文献遗产数字化保护系统工程中的基础性、关键性工作,对档案文献遗产的数字保护与传承具有重要价值。当前很多学者针对不同类型资源展开了档案文献遗产领域的元数据设计研究,这些研究在元数据的设计方法、元数据标准的复用、元数据结构的构建等方面各有特色,得到的元数据方案在促进档案文献遗产保护方面具有非凡的作用和意义。
档案文献遗产数字化保护和传承不仅需要对档案物质载体进行有效描述,也需要对文献承载的内容进行定义说明。元数据更为侧重对载体信息进行描述,在载体特征和内容特征的全面概括与融合过程中,体现出描述粒度不一致、描述关系不足等系列问题。目前,从档案文献遗产内容出发的元数据顶层设计较少,在考虑内容的细粒度描述与内容关联等方面还有进一步研究的空间。本文引入本体方法,发挥本体在全局层面、内容层面对事物定义的优势,并将其映射到元数据方案中,从元数据功能、主题、元数据组几个视角展开设计,以期获得新的元数据体系方案,为档案文献遗产的数字化保护传承提供新的视角和思路。
元数据设计是档案文献遗产保护和利用过程中的重要工作。目前,档案文献遗产相关领域的元数据设计研究较为丰富,针对的资源对象包括文化遗产数字馆藏图像[2]、线性文化遗产[3]、非遗视频资源[4]、傣族历史档案[5]、石刻档案[6]、新闻片档案[7]、名人手稿[8]等,涉及不同的主题和载体类型。
从元数据设计的方法来看,国外学者更加关注用户导向思维,例如,Hu等[9]采用深度访谈、内容分析方法得出用户对元数据元素的需求与重要性评价,为壁画和石窟寺等包含复杂信息的文化遗产元数据构建提供了解决方案。国内学者采用的主要是结合资源特征,复用相应元数据标准进行设计的思路,对资源的实际需求调研较少。在元数据的结构方面,多数研究[3,10-11]构建的元数据方案在层级划分中存在不足,元数据框架模型主要是简单的模块区分。例如,宁夏非遗数字资源元数据模型由内容描述、管理描述和相关资源三部分构成[12];契约文书元数据包括内容特征、物理特征以及身份识别特征三个描述模块[13];庄文杰等[4]参考DC、CDWA和VRA元数据集,从基本属性、非遗属性、视频属性、知识元属性四个方面对非遗视频资源进行描述。分析元数据方案的元素组成可知,不同学者对同一类资源设置的元数据元素在类型和数量上各有差异。以非物质文化遗产数字资源为例,张勇等[14]完全复用了都柏林核心元数据集中的15个元素,而许鑫等[15]则复用了其中的12个元素,仅仅复用DC元数据得到的方案在资源内容的描述方面还有一定扩展空间。
本体在信息科学领域是一种模型,是对客观存在的对象类型或概念及其相互关系进行的形式化的表达[16]。在档案文献遗产相关领域,学者们使用本体方法实现对相关资源的知识聚合[17]、语义组织[18-20]、知识库构建[21-22]等。目前,国内外学者以文化遗产、非物质文化遗产与档案文献等为研究对象,构建了若干本体模型。针对文化遗产,刘美杏[23]等认为古道线性文化遗产信息资源本体包括不可移动、可移动、地理位置和主体四个核心概念;Wang等[24]确定了敦煌知识在洞穴结构、学术作品、数字信息资源、壁画内容和历史文化五个层次中的语义关系。非遗的知识本体描述的资源类型涉及非遗图像资源[25]、非遗视频资源;此外,更多的是针对特定领域的非遗资源,尤其是传统节日[26]、戏剧[27]、舞蹈[28]、传统工艺[29]等。档案本体的研究数量在近几年呈现上升的趋势,从档案著录本体的标准化构建[30]到工程档案数据化过程中的文件级本体、元数据级本体以及内容级本体构建[31];从西班牙内战照片档案本体[32]、家谱档案本体[33]到口述历史档案资源本体[34],本体方法在档案领域的应用逐渐丰富。
本体与元数据是进行资源组织的重要方法,邵璐[35]融合本体与元数据进行数字文化资源的语义组织,在数字文化资源元数据和本体模型的构建基础上,搭建了由资源层、语义层、关联层、应用层组成的语义组织框架;李江瑶[36]基于元数据和本体进行非遗传承人个人档案的数字资源组织,将元数据元素转化为领域本体中的属性,实现非遗传承人个人档案元数据方案与该领域本体之间的映射关系。本体模型的构建有利于增强元数据的语义与互操作性[37],Goy等[38]设计了本体驱动的众包系统用户界面,使得用户可以根据本体提供的词汇表来构建语义元数据以描述历史档案资源;Ziaimatin等[39]提出了以地理空间用户为中心的元数据本体GUCM,该本体参考了相关领域本体概念和用户描述元数据,可促进数据互操作性;CverdeljFogaraši等[40]设计的非特定领域元数据本体为描述文档元数据提供了丰富的语义基础。
综上所述,国内外档案文献遗产相关领域的元数据方案在层级性和系统性方面表现不足;从整体分析该元数据集,元数据元素的分类或聚类,结构性和聚合性不强,在内容描述上还有待扩展。本体作为重要的知识组织、语义关联工具,在文化遗产、档案领域都已经具有丰富研究。本体与元数据的融合是资源组织的重要方式,本体中包含的类的定义、类的层级结构以及类的属性,对设计更具语义特征、包含内容元素的聚合式元数据具有指导意义,在提升元数据互操作性方面具有重要作用。
一方面,档案文献遗产类型丰富、主题多样,在记录内容上存在较大差异,部分档案文献遗产资源受学者关注,产生了具有针对性和聚焦性的相应元数据设计研究成果,但实际情况中,有些珍贵的档案文献遗产资源管理体系构建问题亟待解决。通用性的方案如DC核心元数据等在一定程度上适用于不同类型的资源,但在特征内容信息的描述上略显单薄,而充分体现资源特色的描述体系更有利于资源的后续开发与利用。另一方面,目前多数研究是基于相关元数据标准,有选择地复用元数据元素以得到元数据方案,元数据框架主要依据元数据类型或元数据属性进行模块划分,但在模型设计上层级性不强;从整体分析元数据集,元素分类或聚类较为缺乏,内容聚合性[41]有待提升。
2021年6月,《“十四五”全国档案事业发展规划》[42]中提出要“全面推进档案治理体系和档案资源体系、档案利用体系、档案安全体系建设,深化档案信息化战略转型”,对档案资源的数字化管理提出了更深入的要求。同时,作为文献遗产的档案资源,还应充分体现文化传承与文明传播的价值。信息化时代下,档案文献遗产的数字化保护与传承需求随即呈现。元数据体系的构建是实现数字化保护利用与传承的前提基础,以档案文献遗产保护传承为目标,元数据描述体系需做到对资源的载体特征与内容属性的双层揭示。
元数据的设计需要基于具体的应用领域和目标[43]。综合多位学者[44-46]的观点,元数据的设计流程主要包括资源分析、元数据标准选择、框架模型构建、元数据元素确定、限定规则与著录规则设计等环节。本文引入本体模型设计档案文献遗产元数据,在具体流程上较以往有所差异。笔者将其总结为资源选取与分析、本体模型构建、元数据类型确定、元数据模型构建、元数据元素设计、应用规则说明等流程,设计环节较以往有所增加。通过构建某主题的档案文献遗产本体模型,可得到该领域具有共识性的统一说明,这些说明是对该领域资源的内外部特征的充分展现。基于该本体模型的类、类的层级关系与类的属性,实现更具结构化的元数据框架模型与突显内容聚合的元数据元素设计。
(1)元数据结构更具立体化
扁平式结构的元数据方案很容易造成资源描述过程中的语义损失。在以保护传承需求为导向的档案文献遗产数字资源体系构建过程中,需要进行元数据方案的结构扩展。在保留原有元数据核心元素的基础上,新的元数据标准需要构建出更能揭示资源语义特征的具有层级结构的方案。档案文献遗产本体所蕴含的知识体系在档案文献遗产领域具有统一性、可共享性,元数据设计时参照本体的体系框架使得元数据框架结构更具系统性、聚合性,不同于传统的难以描述语义信息的扁平式结构。
(2)元数据元素更显关联化
档案文献遗产元数据设计的目的不仅在于建设档案文献遗产数据库,保护档案文献遗产实体,更重要的是要揭示其所蕴含的知识内容,构建出一个具有关联性的知识体系[47]。构建本体模型可厘清档案文献遗产领域的知识内容和体系,并将其应用到元数据的设计当中,可以使得元数据方案更关注资源的内容层面,且可以更好地体现语义特征。
(3)档案内容描述的详细化
仅仅关注资源的外部特征不利于传递资源所蕴含的信息内容和知识。元数据描述信息的详细化意味着元数据元素对描述对象在内外部特征上的兼顾,是对外在特征和内容信息两个方面的充分考虑。本文从资源和内容两个层面构建本体模型,将本体中的类转化为元数据组,本体类的属性转化为元数据元素,使得元数据体系中的档案内容特征描述更为丰富。
在应用层面,元数据是档案文献遗产组织的重要工具,是资源数字存储的关键,是资源利用的保障。此外,从档案文献遗产的开发利用、共享方面来看,本体方法具有很大价值。档案文献遗产本体是档案文献遗产领域的规范形式化描述,元数据设计可以为本体的实例填充提供规范描述,使得本体又能够得到数据来源和支持。因此,基于本体的元数据设计间接促进了档案文献遗产的知识共享与开发利用。
(1)元数据方案制定与本体构建具有相似性质
元数据与本体在本质上都是对信息的结构化描述方法[48]。元数据方案的制定与本体建立之间存在关联性。元数据方案的制定是对一个应用系统相关的实体进行分析并提取属性的过程,如果在此基础上继续对所设计的各种实体类型的关联关系进行详细分析,最终就能导出本体模型[49]。由此可见,元数据方案本身可以看作是一类简单的本体形式,其制定过程可以看作是知识本体的建立过程。
(2)元数据设计与本体构建相辅相成互为补充
一方面,本体模型将领域概念的内在特征按照一定的知识结构组织起来,各个概念的属性则需要依靠元数据来进行规范描述[50],元数据元素可以作为本体中概念的属性[51]。另一方面,正是因为本体描述信息、类的属性定义的需要,进而促进了元数据方案中元素集的设计,而这种本体驱动下的元数据设计最终又能对该本体的实例填充提供数据来源。
国内外已有一些基于本体的元数据研究,为本文提供了实践基础。张哲[52]提出了一种通过集成现存本体和主题词表构造元数据模式的新方法;张正强[53]从电子文件元数据的概念本体、语言本体等方面,论述了建立基于本体的电子文件元数据是建设智慧档案馆的关键与核心。电子文件元数据的概念本体是指在概念层次上由电子文件元数据元素及其关系所构成的结构体系,语言本体则是指采用本体语言来完整映射与描述电子文件元数据的概念本体所构成的形式化语言结构体系[54]。锅艳玲[47]提出基于本体理论和方法,以本体模型的核心概念、主体、客体、文献为框架,提炼贝叶经的核心元素和各子元素,实现元素关联,旨在为贝叶经提供统一的描述标准。
Europeana(欧洲数字图书馆项目)[55]是国外发展较为成熟的数字文化资源整合实践项目,其最初的元数据方案ESE(Europeana Semantic Element, Europeana语义元素)采用以DC为核心的扁平式结构,之后更新为EDM(Europeana Data Model,关联数据模型)。EDM在保留原有ESE核心元素的基础上,增加了类和属性,形成了描述与组织信息资源的类关系属性层级结构[56]。通过国内外的研究与实践可知,元数据与本体之间的关系越来越密切,本体是帮助元数据升级优化的重要技术。
本文拟构建的档案文献遗产元数据旨在元素层面增加内容信息、描述层面体现语义关联,方案架构上具有聚合层次,图1展示了本体驱动的档案文献遗产元数据设计框架,包括档案文献遗产资源集合、档案文献遗产本体、档案文献遗产元数据三个层次。
于档案文献遗产资源集合层次而言,档案文献遗产作为有形遗产的重要组成部分,不仅在内容和来源上具有多样性,在主题层面也具有差异性。从入选《中国档案文献遗产名录》的五批档案文献来看,包括文书档案、会计档案、照片档案等多种类型,涉及文化、交通、民俗、工程等多个主题领域。
于档案文献遗产本体层次而言,本文从多主题、多类型的资源集合出发,针对某主题的资源展开本体模型构建。不同主题的档案文献遗产在外部资源特征上具有相似性,在内容记录上具有相通之处,但又存在核心差异。因此本文认为,档案文献遗产本体的构建可以归纳为通用层与主题层两个方面。对于通用层本体,档案文献遗产主题与本体模型之间为N1:1(N1>=1)的关系;对于主题层本体,二者为N1:N(N1=N)的关系。通用层本体的概念集合与某一主题层本体的概念集合相结合,共同描述该主题下的档案文献遗产资源。
于档案文献遗产元数据层次而言,本体模型向元数据的转化是1:M(M>=1)的对应关系,某主题下档案类型与元数据方案的关系为N2:M(N2>=1;M>=1),即基于一个本体模型,针对不同档案类型设计多个元数据方案。从总体视角看档案文献遗产,目前最为普遍的档案种类概念是按照档案的内容形式和形成领域来划分的,主要为文书档案、科技档案和专门档案[57]。该档案分类模式对于元数据方案的设计和产出具有指导作用。
总体而言,本体驱动的档案文献遗产元数据设计框架即为针对某一具体主题下的档案文献遗产资源构建相应本体模型,基于该本体模型,设计出该主题下不同类型档案的元数据方案。
本体驱动的档案文献遗产元数据设计过程包括资源选取与采集、本体模型的构建、从本体到元数据以及元数据方案应用四个部分,如图2所示。
档案文献遗产内容丰富、主题各异,主题确定是资源选取与采集的前提。围绕相关主题,可以从来源、类型和内容进行逐级分析。档案文献遗产资源的可获取来源一般包括LAM(图书馆、档案馆、博物馆)服务机构等。在档案文献的类型方面,主要考虑内容形式和形成领域,一般可以将其划分为文书档案、科技档案、专门档案等,此外,也需要对档案的载体类型进行整理。从档案文献的内容看,文献所记录的信息或实物所承载的内容是档案文献遗产的核心部分,对内容的分析和把握可以通过对馆藏机构进行资源情况调研、申请相应数据库目录或者实地观摩等方式实现。
相比于档案文献,档案文献遗产不仅强调其记录属性,更加强调其价值属性[58]。其中,记录属性则体现在其所记载的内容方面。本文从资源层和内容层两个角度分析档案文献遗产的概念。资源层的本体概念主要描述与档案文献遗产有关的业务活动,是对档案文献管理、保存等活动的体现。内容层的本体概念设计旨在对档案文献记录的内容进行更好的描述、发现、挖掘和利用。
在资源层方面,本文采用系统论方法,借鉴蔡璐等[16]、张勇等[14]分析非物质文化遗产资源知识体系的想法,从“主体—过程—客体—成果”的视角分析档案文献资源,将粗粒度的档案文献视为一个整体。本文提炼与档案文献遗产资源相关的业务活动、对其进行操作处理的主体、被处理的客体以及展开业务活动后形成的成果,最后得到资源层的核心类为“业务活动”“时间”“行为主体”“物理实体”“档案实体”“遗产项目”“数字化资源”。资源层的核心概念适用于主题各异的档案文献遗产。在内容层方面,虽然不同档案文献遗产所涉及的主题差异性较大,但“行为主体”“经典事件”“时间”“地点”“物理实体”作为描述档案内容的关键概念,对于各档案文献也有适用性。
基于资源层与内容层的本体概念分析,本文对资源层和内容层的通用本体核心类进行归纳与合并,得到表1所示的通用本体类与类的层级关系。其中,行为主体、时间、地点、物理实体分别复用了CIDOCCRM文化遗产领域概念参考模型[59]中的“actor”“timespan”“place”“physicalthing”类。业务活动复用RIC-CM《背景中的文件》概念模型[60]的“activity”,专门指有目的的活动,本文中,该类主要指与档案实体形成、处理和管理相关的业务行为。经典事件用于与业务活动进行区分,指代档案实体中记录的历史事件,例如重大会议、赛事、活动等。资源层的业务活动和内容层的经典事件作为二级类,从属于事件一级类,复用RIC-CM的“event”类。档案实体是已存在的、具体的、处于实体状态的档案文献。数字化资源为档案实体的数字化副本。遗产项目指与档案实体内容相关的文化遗产项目,或以该档案为对象进行申遗形成的文献遗产。
在通用层本体的构建基础上,针对某主题档案文献遗产还需要进一步提炼得到主题层的“内容概念1”…“内容概念n”等本体类,再将主题层的本体与通用层的本体进行结合得到完整的用于描述该主题档案文献遗产的概念体系。
表2、表3展示了档案文献遗产通用本体类的对象属性与数据属性。对象属性的类别大致分为事件情境关系、资源对象间关系、资源与内容间关系、行为主体间关系。事件情境关系包括有参与者、发生时段、发生地点、相关物品;行为主体间关系指人物与组织机构之间的从属关系;有数字化副本、相关遗产项目、相关业务活动将档案实体与数字化资源、遗产项目和业务活动进行关联,形成资源对象间关系;此外,记录事件属性体现了档案实体与经典事件之间的关系。通用层本体类的数据属性依据档案文献遗产资源特点,参考相关本体模型、元数据标准或重建得出,具体如表3所示。
从本体到元数据的转换归纳为三个步骤,分别是元数据数量的确定、元数据模型的构建与元数据元素的设计。
4.3.1 元数据数量的确定
基于某一主题的档案文献遗产本体,元数据方案的类型具有多样性,要实现本体向元数据的转换,首先需要确定最终生成的元数据方案数量。目前国内较为通用的档案元数据标准主要有《档案著录规则》《文书类电子文件元数据方案》《录音录像类电子档案元数据方案》《照片类电子档案元数据方案》《口述历史电子档案元数据方案》等。从实际情况出发,综合档案馆主要设有文书档案元数据;专门档案馆,如苏州中国丝绸档案馆除了设有文书档案元数据,还有科技档案元数据、音像档案元数据、实物档案元数据与照片档案元数据。从实践情况可知,元数据方案的产出数量应考虑档案类型的差异,也需要结合档案记录的内容进行分析。本文基于本体设计元数据方案,以按形成领域和内容形式划分的档案类型为基础,结合实际情况进行元数据方案类型的确定。
4.3.2 元数据模型的构建
在确定元数据数量的基础上构建元数据框架模型。档案文献遗产本体从资源层和内容层进行概念提取、模型构建,资源层侧重档案文献遗产资源的整体管理、保护操作;内容层侧重档案文献所记录的事件以及带有主题特征的内容。资源层和内容层的划分对应不同功能类别下的元数据类型。从本体资源层和内容层可以将元数据按照功能的不同划分为管理型元数据与描述型元数据,如图3所示。
本体的核心概念体系是对档案文献遗产的系统描述,每个概念具有若干属性特征。本文将档案文献遗产本体中的核心概念转化为元数据方案中的元数据组。例如,档案实体核心概念转化为档案实体元数据组,数字化资源核心概念转化为数字化资源元数据组。根据元数据组描述信息的差异,进一步向上进行主题聚类,分别为资源外部主题、文献内容主题与文献特征主题。事件类的两个二级类的描述信息具有资源外部主题和文献内容主题之分,因此,在进行元数据组转化时,不直接使用一级类,转而使用该类的子类进行元数据组的命名以便区分。数字化资源、遗产项目、业务活动、行为主体、时间、地点、物理实体元数据组描述的是资源外部主题;同时,行为主体、时间、地点、物理实体、经典事件与一些内容概念元数据组共同描述文献内容主题;档案实体元数据组描述文献特征主题与文献基本属性,包括聚合层次、档号、语种、页数、题名、主题词等。不同类型档案对应的元数据模型具有一定差异,主要体现在文献内容主题下的元数据组构成上。
4.3.3 元数据元素的设计
本体中类的属性与元数据方案的元数据元素有着关联性和互通性。每个核心类的数据属性都可以转换为相对应元数据组中所包含的元数据元素。而对象属性是不同类之间关系的体现,可进行语义关联。基于元数据模型结构,元数据元素的设计通过本体类的数据属性与对象属性进行转换,并结合资源类型进行相应补充,如档案实体元数据组的元素设计一定程度上依赖于档案类型,对于音像档案元数据,该元数据组的元素需要在类的数据属性基础上增添音像档案所特有的数据字段。
此外,其余元数据组的元素设计思路适用于各类型档案,如表4所示。数字化资源、遗产项目、地点、时间、物理实体元数据组的元数据项来源于本体数据属性。相关业务活动、记录事件对象属性转化为档案实体元数据组元素。经典事件元数据组抽取本体中的有参与者、发生时段、发生地点、相关物品对象属性以达到对事件各要素进行聚合的效果。业务活动著录有参与者、发生时段元数据项。行为主体在本体中具有人物、组织机构两个二级类,在行为主体元数据组中,本文将该类的二级类数据属性转化为元数据项,并设计所属机构元素将人物与组织机构进行关联,揭示行为主体之间的关系。
元数据方案应用涉及元数据元素著录与元数据方案利用两个层次。元数据元素著录需要考虑元数据方案的适用性、元素的选择约束性以及著录方式。元数据的基本功能是对资源进行描述、实现资源组织、存储与管理,是信息资源的代替物,详细完整的元数据方案是进行资源检索定位的重要帮手。另外,基于本体的元数据设计得到的元数据方案对于原本体又具有补充完善的作用,可以作为本体实例填充的数据依据,体现了元数据与本体之间相互促进的关系。
丝绸档案是在丝绸产品的设计、试样、生产、管理及交流等相关实践活动中形成的清晰、确定、完整、特定的有型物品[61]。目前苏州中国丝绸档案馆完整保存了大量的丝绸档案,共计29592卷[62]。这批档案于2015年入选《中国档案文献遗产名录》,2016年入选《世界记忆亚太地区名录》,2017年入选《世界记忆名录》,从最初的地方档案文献遗产,晋级为世界级档案文献遗产,成为了全人类共同的记忆[63]。苏州丝绸档案类型丰富,价值宝贵,亟待保护和开发,而元数据的设计是对该资源进行组织、整理、存储,以备开发利用的前提基础。通过实地调研发现,苏州丝绸档案元数据存在元数据种类较繁杂、元数据结构扁平化、档案内容描述不足、元数据应用效果较差的问题。面对这些困境,本文认为引入本体方法可为其提供一定思路。
苏州丝绸档案包括文书、会计、科技、实物(含丝绸样本)、照片、音像等类型,大致可以分为文书档案、会计档案、科技档案、特殊载体档案四类。不同类型档案记录了不同信息内容。丝绸样本档案涵盖了绫、罗、绸、缎、绉、纺、绢等完整的丝绸14大类织花和印花样本,全面真实地记录了100多年来花色品种的演变与发展。科技档案记录了丝绸的生产工艺,包括产品的原料构成、工艺参数、纹样色彩等技术细节等。苏州丝绸档案资源所记载的内容十分多样,这些信息对于丝绸文化的传承至关重要。
5.2.1 本体类与类的层级关系定义
在沿用通用层本体类的基础上,主题层的本体类提炼一方面需要以该档案资源内容为基础,另一方面需要参考相关专业书籍,以获得全面的概念术语。本文重点参阅《近现代中国苏州丝绸档案》[62]《档案中的丝绸文化》[64]《中国历代丝绸纹样》[65]《纺织品设计欧美印花织物200年图典》[66]等书籍以补充内容层面表达主题特征的概念,得到丝绸种类、丝绸外观特征、工艺技法一级类,如表5所示。其中丝绸外观特征下分色彩、纹样、度量三个二级类,工艺技法下分织造规格、后处理工艺两个二级类。
表 5 苏州丝绸档案本体类与类的层级关系(主题层)
确定主题层本体中类与类的层级关系后,类的对象属性如表6所示。主题层的本体对象属性包括内容间关系,如有工艺技法、有外观特征;包括资源与内容间关系,如相关遗产项目与记录关系,图4为苏州丝绸档案本体模型。类的数据属性设置需要满足能够充分描述其特征,并体现与其他类之间的区别,如表7所示。
苏州中国丝绸档案馆的馆藏档案管理系统现有五类元数据方案,分别为文书与会计档案元数据、科技档案元数据、音像档案元数据、照片档案元数据与实物档案元数据,每类元数据分为案卷元数据和卷内元数据,元数据方案种类冗杂繁多。分析元数据结构、元数据项设置可知,该馆藏元数据方案扁平化、不具有模块划分,缺乏聚合性;元数据项主要关注档案资源的基本著录特征,资源内容描述不足且元素关联性有待增强。本文根据该馆的档案资源情况、现有元数据方案,结合不同类型档案的内容差异,拟设计文书档案元数据、科技档案元数据、音像档案元数据与实物档案元数据四类元数据方案。
5.3.2 元数据模型的构建
不同元数据方案都包含文献特征主题和资源外部主题下的元数据组,元数据模型的差异主要体现在文献内容主题的元数据组构成上。以科技档案元数据为例,如图5所示,对苏州丝绸科技档案元数据框架模型进行元数据功能、主题、元数据组三级划分,在内容层面上主要聚焦于丝绸种类、丝绸外观特征和工艺技法,这也是科技档案元数据模型相对于其他类型元数据模型的主要差异。
文书档案、音像档案在内容层面上较少涉及丝绸种类、丝绸外观特征以及工艺技法,而是重点记录了以经典事件为中心的人、地、时、物等信息,因此,文书档案和音像档案的元数据模型在文献内容主题方面聚焦经典事件、时间、地点、行为主体、物理实体。实物档案包括照片、证书、奖牌、织锦、丝绸样本(含塔夫绸样本)、企业刊物等,元数据模型相较于科技档案元数据模型,在内容上缺少工艺技法元数据组,主要包含经典事件、时间、地点、行为主体、物理实体叙事元素。
基于元数据模型,表8展示了科技档案元数据元素设计结果,档案实体元数据组引入了本体中档案实体类的数据属性;有选择性地基于对象属性增添了相关业务活动元素,带有语义特征的元素使得档案实体能够与活动进行关联,增强了资源的可检索性。相关遗产项目元数据项著录遗产项目名称以关联非物质文化遗产项目信息。工艺技法、丝绸外观特征元数据组的元数据设计参照本体数据属性。
元数据方案的元素具有必选、条件选与可选之分。必选表示总是强制采用,在表8中以“*”标识;条件选表示在特定环境和条件下必须采用,在表8中以“+”标识;可选表示可采用也可不采用,由用户根据需要确定,在表8中不加标识。条件选的元数据项依赖于聚合层次的具体取值,当著录的档案聚合层次为案卷时,选择全宗目录号、档案馆卷号、库房号、排号、列号、层号著录,当著录的档案聚合层次为文件时,选择案卷号、件号、文号、密级、主题词。必选元数据项主要体现在档案实体、丝绸种类、工艺技法、丝绸外观特征以及数字化资源五个元数据组中。
文书档案元数据、音像档案元数据与实物档案元数据的元素设计与科技档案元数据类似。除了在元数据模型上的差异,音像档案元数据在档案实体元数据组中具有著录者、摄录者、档案文件大小、摄录日期、载体类型、档案门类、时长等音像档案所特有的数据字段。
本文构建的四类元数据方案适用档案类型如表9所示。文书档案和会计档案使用文书档案元数据进行著录,二者的区分在档案类型元数据元素中得以体现。科技档案元数据适用于科技档案,包括产品工艺设计书、设计流程书、色样卡、意匠图、工艺手册、工艺汇编、申报材料、鉴定材料等内容。音像档案元数据主要用于著录音频、视频类档案。实物档案元数据适用于丝绸样本、证书、奖牌等实物档案,也用于各类活动剪影、证书照片、领导参观、行政管理、经营管理、党群活动等照片档案的信息描述。
元数据著录采用人工填充为主、计算机自动获取为辅的方式。为验证元数据的有效性,本文选取一份科技档案进行元数据著录,见表10。著录时参考的资料主要为条塔夫绸产品工艺设计PDF文件、苏州丝绸档案馆档案管理信息系统中该文件的著录信息。通过著录结果可以发现,有部分元数据项为空值,其中,档案实体元数据组中的必选与条件选元数据项著录信息来源于管理系统,可见该系统遗漏了来源、成文时间、密级、主题词重要信息。其余模块的元数据著录空值主要是源于所选文件信息的不足。总体而言,本文构建的元数据方案未出现不适用的情况。
本体作为一种重要的知识组织方法,其对于领域知识的揭示具有形象化、逻辑性、层级性等特征。本文以档案文献遗产为研究对象,以档案文献遗产的元数据设计为核心问题,引入本体方法,在理论层面,提出本体驱动的档案文献遗产元数据设计总体框架和具体步骤;在实践层面,以苏州丝绸档案为例,结合资源特征,构建本体模型,实现元数据方案设计,并选取档案资源进行了元数据著录,以验证本体方法指导元数据构建的有效性与科学性。
总体而言,本文构建的元数据方案具有以下特征:①元数据方案数量类型更为精简,由原先的5大类、10个元数据方案缩减为文书档案元数据、科技档案元数据、音像档案元数据、实物档案元数据四类。②改变了原有元数据方案的扁平化结构,具有功能、主题、元数据组划分,实现了元数据元素的聚类。③不同元数据组之间设计了关联性的元数据项,可增强元数据描述信息的语义性。如档案实体与事件的挂接,行为主体之间的所属关系,以经典事件和行为活动为中心的人、地、时、物的关联等。④增加了详细描述苏州丝绸档案内容信息的元数据项,如对丝绸种类、丝绸外观特征和丝绸工艺技法等信息进行揭示,充分体现苏州丝绸档案文献遗产的特色内涵。
后续将不断完善元数据方案中元素的著录信息,并丰富元数据方案的具体实践利用与成果展现。文章期望不断与实践结合,对理论部分内容进行反馈与补充,从而得到在档案文献遗产领域的元数据设计路径与方法。
[1] 周耀林.档案文献遗产保护理论与实践[M].武汉:武汉大学出版社,2008.
[2] SalehE.lmage embedded metadata in cultural heritage digital collections on the web: An analytical study[J].Library Hi Tech,2018,36(2):339-357.
[3] 徐芳,李亚宁.大运河线性文化遗产数字资源的元数据集设计与实现[J].图书馆学研究,2021(14):45-51.
[4] 庄文杰,谈国新,侯西龙,等.非物质文化遗产视频知识元组织模型研究[J].情报科学,2018,36(12):25-32.
[5] 刘为.基于语义网的傣族历史档案信息资源开发研究[D].昆明:云南大学,2018.
[6] 孙梦琪.博物馆石刻档案数字化保护规范建设研究——以宜良本熊博物馆为例[D].昆明:云南大学,2019.