学术前沿 | 网络首发·文化遗产智慧数据资源建设与服务专题 | 面向活化利用的文化遗产智慧数据建设论纲
字号:T|T
2023-09-07 16:47 来源:信息资源管理学报
http://kns.cnki.net/kcms/detail/42.1812.G2.20230814.0859.006.html
摘 要:智慧数据是信息资源建设在数智时代的新发展,代表着数据资源更高级的组织形态,更适应了新环境下对数据与服务的新要求。本文首先系统梳理智慧数据的历史演进与发展趋势,剖析智慧数据的科学内涵与核心特征;然后,面向文化遗产传承与活化利用的重大现实问题,提出智慧数据赋能文化遗产活化的内在逻辑;最后,从建设机制、标准规范、文化基因解构、质量控制体系等角度提出文化遗产智慧数据建设的实现路径与举措。智慧数据的研究不仅对领域大数据资源起到提质增效的作用,也推动了数智赋能的信息资源管理与知识管理的理论变革;文化遗产领域智慧数据建设将有力推动文化遗产保护、传承与活化的进程。
关键词:智慧数据 文化遗产 活化利用 信息资源管理 数据科学
文化遗产的保护传承与活化利用已经成为新时代面临的新任务和重要使命。新兴科技与文化遗产的融合是激活文化遗产的重要路径,为文化遗产活化利用与创新发展提供新动能。在科技赋能文化遗产活化的过程中,文化遗产智能计算与智慧数据建设成为重要内容与趋势[1]。智慧数据作为信息资源的一种高级组织形态,以数据价值提升与实现为目标,具有更高的结构化、语义化、关联化与智能化程度,更强调从数据中获得见解和洞察力。智慧数据资源观已经成为多个学科领域新的关注点,在文化、教育、交通、医疗等多个领域得到应用。如何利用智慧数据的理念与方法,赋能文化遗产的活化利用,已经成为大数据领域与文化遗产领域共同面临的重大现实问题。
本文首先梳理和阐述智慧数据的演进背景和发展趋势,然后对智慧数据概念的科学内涵进行分析,归纳总结智慧数据的基本表现和核心特征。最后,面向数智时代文化遗产的传承与活化,分析智慧数据赋能文化遗产活化的内在逻辑,并提出文化遗产领域智慧数据资源建设的实现路径。本研究旨在拓展人文社科领域的数据资源观,促进文化遗产资源向智慧数据的转变和升级,推动文化遗产的活化创新。
智慧数据是伴随大数据价值提升而产生的一个新兴概念,其理论体系仍在不断完善,与大数据、数据科学、开放数据等领域有着密切的关联,其提出背景如图1所示。大数据与人工智能时代,数据资源在价值创作活动中的地位日益凸显,是信息社会进入智能化阶段的关键要素。大数据也改变了传统思维模式和研究范式,基于大数据的管理决策和数据密集型研究范式逐渐成为科学研究和应用的主流。作为科学研究的“第四范式”,数据密集型研究范式强调应用计算机对海量数据进行分析、挖掘,从而发现以往科学研究方法难以发现的模式、知识与规律,为科学研究开辟出新的途径[2]。从“大数据”到“大智慧”的数据价值转换过程,引发了管理决策理论与实践的深刻变革,大数据驱动的智慧决策范式成为决策进化的方向[3]。我国信息系统研究也正在经历从数据化到数智化的新跃迁[4]。
在此背景下,围绕大数据的科学治理与数据价值的有效挖掘,与信息资源管理学科密切关联的数据科学逐渐兴起。数据科学以大数据为研究对象,利用数据驱动的方法从数据中探寻事物的本质和规律,主要研究数据加工、数据管理、数据计算、数据产品开发等交叉性领域[5]。数据密集型研究范式与数据科学为人文社会科学的研究模式、思维、方法和手段等方面带来根本性的变革与创新,丰富了人文学科研究的数据来源,拓宽了人文学科研究的问题域[6]。同时,数字人文、人文计算等跨学科新兴研究领域与范式的发展,对新型数据资源的需求更为多元,对数据的智能化程度要求更加迫切。信息资源建设也正经历着从过去小数据到大数据,再进阶跃迁到智慧数据的过程[7]。
由此,大数据时代,经济社会的数字化转型是智慧数据建设的社会背景,信息科学、计算机科学、数据科学等学科的发展,为智慧数据建设与服务提供了理论、方法、技术和工具等在内的科学基础。大数据技术、人工智能、区块链等新技术则为智慧数据提供了坚实的技术条件。科学研究范式变革成为智慧数据建设与服务的持续动力。
随着现实世界被数据世界表达的程度更加深入与全面,数据的概念不断被泛化,数据规模、来源、内容与形态不断丰富。然而在大数据资源的实际应用中,面临着数据泛滥、大数据价值密度低、缺乏关联等挑战,存在“数据爆炸但知识贫乏”的现象,最终使得数据价值利用低下、因果规律不清、结果可解释性差等问题。同时,随着人工智能和机器学习领域的发展,学者们更加关注于构建人工智能系统所需的数据,强调高质量优质数据在提高人工智能输出中的重要性,并提出“以数据为中心的AI”的思想[8]。数据量的积累和算法的更新成为信息时代创新和知识生产的关键[9]。衡量数据价值的标准不再是数据规模,而是其是否能够符合研究的需要,比如数据代表性、数据质量等[10],智慧化才是大数据的核心。
借助大数据与人工智能等新技术获得的长时间的、连续的、大量的各类数据资源,为人文社会科学提供更加坚实的基础,也推动了研究范式的转变[11]。人文社科大数据发展需要迈向智慧化,以支持和助推全新的智慧社会建设[12]。近年来,数字人文的蓬勃发展使得数据资源建设成为新兴趋势,同时也对数据基础设施提出了新的要求。新技术发展为数据资源建设带来新契机,急需应用新的思维、理论方法构建智慧数据以适应数字人文研究的新特征,如大尺度研究、量化计算研究、时空可视化研究等[13]。只有将碎片化、模糊化、来自不同场景的海量数据变成智慧数据,才能够支持人文社会科学研究[14]。数字人文研究也需要跨网域、多维度、小粒度、自解释、富语义的数据,来支持定量分析统计、多重证据对照、溯源循证等[15]。人文社科研究者多样化的信息需求以及复杂化的信息环境,对知识服务模式与内容的创新提出更好的需求——即注重数据本身的深度挖掘与加工,通过智慧化数据来驱动面向科研的知识服务[16]。
由此可以看出,大数据资源快速积累、数据密集型研究范式的发展,要求数据资源具有较好的结构化、规整性、可计算性以及智能化等特征。为解决这些挑战与满足这些需求,需要重新思考与审视数据与信息,深入地认识智慧数据的特征,探索新型研究方法论,发现新的研究方向和解决路径,用智慧数据资源观和理念统领各领域数据资源建设实践。
通过梳理智慧数据的概念及其应用,深入剖析了智慧数据的科学内涵,并归纳提炼了智慧数据的基本表现与核心特征。
智慧数据的概念是伴随大数据价值提升而产生的一个新兴概念,逐渐受到众多领域的关注和研究者的认可。智慧数据属于大数据范畴,但相比大数据更加有序和有目的性。大数据通常是在没有特定目的的情况下被收集与捕获的,因而其中大部分是与任务无关的数据,数据噪声比较大。Iafrate[17]认为智慧数据是将原始和低质量的大数据转换为适合数据挖掘或知识提取的数据的过程。Duong等[18]认为智慧数据是一种对不同来源的数据资源进行语义编译、操作处理、关联和分析的组织方式;Lenk等[19]提出智慧数据描述了从最初的非结构化海量数据到数据的智能处理以及数据转化为知识的发展过程;曾蕾等[20]指出智慧数据是一种可信的、情境化的、关联的、可认知的、可预测的以及可利用的数据,基于大数据的方法,揭示“未知-未知”,而非证明或否定“已知-未知”。智慧数据已不再是过去认知的简单的数据要素,而是更加富有意义(情境)的语义单元,是信息、知识以及语义的集合体[21]。罗琳等[22]从知识管理的视角指出,智慧数据是从大数据中精选出来的、能够成为知识酵母的数据;通过数据的有效组织与提取,使数据更加智能地匹配需求,从而更加智慧地作出决策和行为。张云中等[23]从价值视角、结构视角、过程视角对智慧数据的定义进行梳理与比较,认为智慧数据通过数据演进或结构设计实现数据规范精准及价值增值。陈涛等[24]提出智慧数据是一个定性的概念、一个流变的过程和多态的结果,并针对古籍保护提出从原生数据到语义数据、关联数据、智能数据和智慧数据的逐级进阶产生的技术路线。
从宏观上看,智慧数据是信息资源的高级编码方式与组织形态,在数据的结构化、语义化和关联化程度上相比现有的信息资源组织程度更高,能够满足新型研究范式下对数据的要求。智慧数据体现出内容全面数字化、编码结构化、表示语义化、组织网络化和关联智能化的核心特征[25]。智慧数据关注于数据价值的提升与实现,借助智慧数据能够从任何规模的数据中获得重大的洞察与发现,揭示规律、给出结论与决策,由此形成智慧的基础。
目前学界对智慧数据概念与内涵的探讨没有形成统一的概念和体系化的研究,国内外学者结合不同的领域、不同的维度对智慧数据概念进行论述,主要关注智慧数据的价值论视角和过程视角。智慧数据的重要价值及其发展趋势得到广泛的认可,但智慧数据建设的方法论体系和实现路径有待系统深入的研究。
在深入认知大数据特征的基础上,从数据科学的视角,归纳提炼出智慧数据的核心特征:富语义性、可计算性、可溯源性与可信性。
(1)富语义性
富语义性是智慧数据的首要特征。智慧数据拥有较强的语义表示与语义关联能力,包括数据内容语义、数据结构语义、数据背景语义等层面。智慧数据的转化升级需要遵循语义本体、概念模型等,通过对数据内容的解构以及数据结构的编码规范,表示成语义三元组、知识元、知识基因等语义单元。在数据语义增强的过程中,数据对象经过转录、编目、描述、标注、关联等语义增强环节与过程,被赋予了不同粒度的丰富的情境化信息与语义关联[26]。这些富语义信息不仅提高了人类对数据对象的可读性,也为计算机的可操作和可理解奠定了基础。
面对海量大数据挖掘与知识发现的挑战,要求计算机能够根据不同的访问机制和协议,自主地、适配地采取解析、集成、融合、分析处理等行动。因此,原始数据资源对象必须从初级的计算机可读状态向高级的可理解状态转型。智慧数据是一种人和机器都能够理解的显性编码化知识,而非只有人类能够理解的隐形知识。智慧数据将人类可读与可理解的知识转化为机器可执行的知识单元,如采用统一的资源描述框架对领域数据进行描述,用数据库、关联数据、知识图谱等结构化形式存储,使得智慧数据的内容可计算化。同时,智慧数据采用国际通用标准化的数据表示语言以及知识表示方法,如通过提取数据特征并将数据表示为特征向量,使得智慧数据的表示形式可计算。
(3)可溯源性
智慧数据的可溯源性能够满足意义上和证据上追踪溯源,以及演化过程表示的需要[27]。智慧数据不仅记录数据的原始来源、获取方式、数据更新等背景信息,也对智慧数据演变过程及其后续应用转化动态过程进行追踪与描述,形成数据世系。借助PROV、OPM数据溯源描述模型和方法,描述参与智慧数据生产、转化与增强等生命周期中涉及的实体、活动和人员信息,用于验证与评估智慧数据的完整性、可信度和数据质量。借助区块链、数据对象标识符、持久访问技术、数字签名等技术,保证智慧数据的防篡改和可追溯,实现智慧数据管理的去中心化、公开透明以及有迹可循。
(4)可信性
社会的复杂性与不确定性带来了数据的可信性问题,数据存在偏见或缺陷以及对抗的风险,导致决策的不公平或错误结果。人工智能训练数据的可信性直接影响着人工智能系统整体的可信性[28],数据质量问题也引发了社会科学研究的新的“可信性”革命。从原生大数据到智慧数据的转化过程,经过数据检测、偏见消除、数据增强等环节,保证数据内容需要可信。除了智慧数据内容的可信,智慧数据的生成、加工与流通乃至推理过程也是可见的、可查的和透明的。同时,借助区块链、身份认证、数字签名、访问控制、加密等技术与工具,保障智慧数据不可被篡改与可验证。
此外,智慧数据不仅能够实现对领域大数据的代表性、一致性与多样性语义反映,作为结构化、标准化、开放性、可通用的数据对象,在可信性、可解释性、可及性与可探索性等方面也表现出优势。智慧数据的以上特征使得数据规模可以在不同尺度上进行灵活的伸缩,数据形态既包含数据原始形态,也包含有组织地重构为高级编码形态,数据的模式能够在不同数据模态间进行转化,满足数智时代对数据新的需求和要求,更加有效地支撑数据智能、知识发现、智能计算、智能决策等智慧化的场景。
文化遗产活化强调以利用促进保护,通过给文化遗产注入新的活力,将文化遗产从静止、无活性的状态转变为具有活性的状态,使其更加符合现代社会的需求。文化遗产活化不仅指传统意义上的文化遗产保护与继承,更强调以“活态”开发的形式对蕴含其中的物质和精神价值进行解码、诠释、继承和重构[29]。其本质是不断重新展现文化遗产所在地的内在历史记忆和文化脉络,不断激发民族自豪感并增强文化自信。
在数智时代,随着前沿科技与文化遗产的有机融合,文化遗产知识图谱、文化遗产数字孪生、文化遗产+元宇宙、“文化遗产+X”等已经成为高成长性领域[30]。在此过程中,数据资源成为了文化遗产保护、传承与活化工作聚焦的重点,始终围绕文化遗产信息与数据的获取、存储、组织、加工、利用等环节展开,对数据资源重要性的认知形成共识。由于物理现实世界中的实体表征及实体间的关系都是通过数据进行表达,数据成为支撑文化遗产活化的核心。文化遗产领域智慧数据资源建设及智慧服务,为遗产保护、传承与活化提供了坚实的数据底座和智慧的源泉。
智慧数据赋能文化遗产活化的逻辑进路如图2所示。首先,通过领域智慧数据建设实现对文化遗产的全面数据化与关联化,使得文化遗产在数字空间中得以记录、保存与存续;其次,智慧数据的建设能够加速文化遗产的数据要素化与数据资产化,使其作为新兴的生产要素推动数字文化产业与数字经济的高质量发展,丰富了文化遗产的载体形式与表现形态;再次,智慧数据资源与人工智能技术的深入融合,共同赋能对文化遗产的科学研究与智能计算,提升文化遗产的智慧服务水平;最后,领域智慧数据建设将支撑对文化遗产的多元数字化阐释与艺术化表达,推动文化遗产实体空间向虚拟空间活化,提升社会大众对传统文化的认知、理解与认同。文化遗产领域智慧数据的建设实现了数据价值的激活、重构与释放,是文化遗产向数字空间迁移的关键,促进文化遗产以动态、鲜活的面貌融入现代社会。
在文化遗产数字化的基础上,智慧数据资源建设能够进一步促进文化遗产的数据化与关联化。物质形态和非物质形态的文化遗产经过数字化采集与记录形成的数字资源,以及原生数字资源等大数据资源,经过结构化建模、知识表示、语义组织、融合集成,形成富语义的、情境化与关联化的智慧数据形态,并与人物、时间、地点、事物、主题等要素建立丰富的数据关联与知识关联。同时,智慧数据具有的语义互操作性,可以促进跨地区、跨机构之间馆藏资源的交流共享,实现文化遗产的数据统一和数据关联,挖掘它们共同承载的历史和文化基因。比如,威尼斯时光机、欧盟时光机等项目的核心任务旨在建设形成有关过去的历史大数据基础设施。
智慧数据具有的多模态数据资源统一语义表示能力,借助人工智能的多模态特征表示与融合,将文化遗产对象的文本、图像、语音、视频、3D模型等数据类型映射到统一的多模态向量空间,应用于智能检索、视觉与语言导航、视觉问答等智能化知识服务场景。因此,在社会数字化转型加速进程中,以智慧数据为理念,促进了物理世界中文化遗产对象及其内容的全面数据化与关联化,将文化遗产的数字化资源及其承载的信息与知识转变为统一的“数据态”,实现文化遗产在数字空间中的存续与永生。
海量的文化遗产智慧数据资源,为动漫游戏、网络文学、数字艺术、创意设计等提供了优质的数字文化内容和创意素材。通过对文化遗产智慧数据资源的深度加工与二次创作,将其转化为文化素材,进而成为可深度开发利用的数据生产要素。通过对文化遗产智慧数据资源进行解构与重构,提取与萃取文化元素、符号和标识,形成文化元素库、文化素材库、文化基因库等,转化为可溯源、可计量、可交易的数据资产,形成文化数字化的核心驱动力[31]。在数字经济发展的背景下,借助区块链等技术,文化遗产数字资源被转化为NFT、数字藏品、数字艺术品、数字文创、新型出版物等新型载体和表现形态。
在文化遗产数据资产化进程中,智慧数据成为数字经济下的新型生产要素,实现在文博、旅游、科研、公共管理等行业领域的应用,促进了传统文化资源的价值转化与开发增值,而文化遗产的产业化发展将推动历史文化遗产融入人们的生活与文化消费,也将带动大众对传统文化更大的关注与更深的理解。
智慧数据不仅要能被人类所认知与理解,还能为深度学习、机器学习、认知计算等算法与模型提供训练与学习的可信语料资源,进而提升AI的精度与智能化水平。新型研究范式下,智慧数据作为一种新型的“数智证据”[32],借助知识推理、因果推断、智能分析、推理演绎、假设检验等智能计算方法,实现文化遗产领域新知的发现与未知的探索。如对残缺壁画的数字化复原、甲骨文与简帛等古文字的考释、历史事件与场景的考证等。融合人工智能与智能计算技术、工具与平台,形成智慧数据驱动的文化遗产研究范式。
同时,智慧数据资源为人工智能生成内容(AIGC)提供了最基本的算据支撑,通过人机协作、人智协同与群智协同方式,革新数字文化创作的生产方式,实现了文化内容的智能生产[33]。通过对用户需求的智能感知、内容的精准推送、个性化智慧服务等,对文化遗产深度挖掘和精准传递,提高普及率和传播效率,激发用户对传统文化的兴趣。此外,通过智慧数据资源服务可以解决文化遗产多元主体利用需求和文化服务供给之间的不平衡,推动文化遗产资源利用转向智慧交互服务,激活新的文化效益和经济效益增长点[34]。
文化遗产领域数据都是离散、客观的数字事实,在经过处理前难以被用户理解。人们只有经过阅读、参与、体验和理解等若干环节才能真正认同文化遗产的内涵和价值,进而参与文化遗产的传播、传承与创新。文化遗产的数字化阐释是对文化遗产智慧数据的挖掘、分析、推理与诠释,形成文化遗产阐释信息,并借助数字技术具有的可视化、形象化、具体化、可感性优势,帮助公众认识和理解文化遗产内涵与价值的活动。
元宇宙环境下,在领域智慧数据的支撑下,充分利用展陈交互技术、可视化技术、数字叙事、VR/AR/MR等技术,将智慧数据资源与领域知识映射到用户对文化遗产的体验,支持文化遗产的数字孪生、数字化再造、数字记忆再现、4D重建、元宇宙搭建等文化体验场景的创新性应用。借助数字视觉技术与数字媒介内容生产,将文化遗产转化凝练成数字视觉文化产品并有效传播[35]。通过对文化遗产的艺术化加工与表达,呈现其深厚内涵与美学意蕴,在活态展示与创意传播中融入时代潮流,走进民众生活。借助数字空间跨媒介演绎传统文化,丰富文化遗产的艺术呈现形式和表达方式,让文化遗产所承载的历史背景和文化内涵更加生动立体地展现在人们面前,引发民众的精神共鸣、情感连接与文化认同。
文化遗产智慧数据资源建设应积极创建领域智慧数据价值共创机制,完善智慧数据模型与标准规范体系,实现对文化基因与文化元素的提取与表示,并形成对文化遗产领域智慧数据全生命周期的质量控制体系。
在智慧数据建设理念和数据价值实现目标的引领下,建立文化遗产领域智慧数据资源的多主体协同、众包与开放参与、人机协同的价值共创机制,构筑文化遗产领域智慧数据开放与共建共享的环境,促进开放式社会化协作建设,激发智慧数据资源建设的规模化效应。
(1)多主体协同建设机制
文化遗产智慧数据建设涉及众多文化机构、社会组织、社会公众等参与主体以及利益相关者。明确智慧数据资源建设方、服务提供方、服务使用者等主体角色,建立多元主体分工协作和利益协调机制,规范各参与主体的职能与定位,形成主体间协调联动的合作模式。图档博等文化记忆机构作为文化遗产智慧数据建设的核心力量,价值共创不仅促进了文化遗产资源的整合与互补,还促进了文化记忆机构融合以及用户服务的创新[36]。为此,完善文化记忆机构数据资源协同建设与互动交流机制,实现彼此间的资源互补;扩宽不同机构服务平台间的数据流动,构建去中心化的开放式协作网络。在文化遗产智慧数据理念下,形成同创共生的场域,吸引更大范围内的参与者和行动者,共同创造完整的文化遗产领域智慧数据底座。
(2)众包与开放参与
文化遗产众包是公众参与文化遗产的重要形式,文化记忆机构利用众包实现文化遗产资源的有效再生、利用和保护,提高了公众对文化建设的参与度[37]。智慧数据的构建离不开群体协同和社会性众包;搭建领域智慧数据整理、加工及组织的众包平台或在线社区,公众通过社会化网络参与数据众包。制定文化遗产领域专题智慧数据资源建设众包的标准,确保资源建设的高效与统一。从众包任务匹配、过程监控、激励策略、质量评审和成果发布等环节设计完善的众包任务操作流程,强化众包的质量控制。智能感知众包用户的需求、动机和行为,设计符合用户认知情感的智慧数据建设过程用户智慧融入模式,建立公众参与、交流与反馈机制,通过群体协作实现群体智慧涌现。
(3)人机协同模式
人工智能环境下,信息资源建设由传统的以人为主导转向人机协同的方式。借助人机智能具有的智能分析和自主学习能力,通过人机协作发挥各自的优势,共同完成任务。文化遗产领域智慧数据资源的建设重视混合智能技术的应用,将创造性弱的、重复与机械的任务交给人工智能,人类完成更高层次的、创造性强的核心任务。同时,优化人机协同的领域智慧数据建设的工作流程,结合众包、人在环路等协同策略,通过紧密的流程衔接共同完成任务。
全面的智慧数据模型以及覆盖全生命周期的标准规范体系是领域智慧数据构建的基础。
(1)完善领域知识组织体系与语义表示模型
文化遗产领域信息资源较为离散且语义模糊,缺少一致性的表达和关联组织。因此,需要设计完善文化遗产领域知识组织体系以及各类模型,以实现对文化遗产的形式化语义表达、多维化的语义关联和知识融通。
在宏观层面,对文化遗产领域知识结构与知识纲要进行分析,确立文化遗产核心数据模型,从实体对象、人物、事件、时间、空间、概念与类型等核心维度,明确定义领域概念与实体的含义及其之间的关系,指导领域应用本体或图谱的构建。同时,基于一体化本体的知识融通思路,提出文化遗产知识的多刻面、多层次语义表示与统一语义建模方案。在微观层面,针对青铜类、书画类、瓷器类、壁画等文物以及传统手工艺、民俗等多元文化遗产类型,设计专门化的语义本体模型,表征各类遗产对象的独有特点与知识体系。在数据层面,构建多模态和多粒度的智慧数据资源关联与聚合模型;针对多模态资源存在的不同粒度语义描述现象,在一体化本体知识融通模型的基础上,揭示不同粒度间语义描述的关系,进而以资源间的语义关系和知识单元为中介,实现跨模态、资源融合与关联,从而形成一个可操作、可信的智慧数据网络。
(2)完善智慧数据的标准规范体系
智慧数据标注规范是保障对智慧数据统一理解、构建、交换和应用的一致性、准确性和完整性的规范性约束。文化遗产具有长周期、跨领域、多学科的特征,涉及的对象涵盖众多不同类型的参与主体,因此,应建立统一的智慧数据标准规范并贯彻实施,以保障领域智慧数据资源的标准化和完备性。
从基础标准、技术标准、管理标准、应用和服务标准等层面,整体性规划智慧数据与智慧服务的标准规范体系框架。围绕智慧数据对象,从智慧数据结构、数据值标准、数据内容标准、数据格式标准等维度,构建包含分类编码标准、元数据标准、数据发布规范、数据质量标准等标准集合。同时,根据智慧数据的生命周期,制定不同阶段所对应的数据相关操作规范,规范化管理和指导智慧数据治理。最终,整合形成一个多层次的涵盖标准、规范、指南、术语词表、参考模型、最佳实践等内容的全方位的文化遗产领域智慧数据标准规范体系。
建设覆盖智慧数据全生命周期、多层次的标准规范体系,能够解决文化遗产领域数据资源在加工、组织、共享、融合、交换、应用等过程中的不一致所造成的数据处理困难,为文化遗产领域智慧数据资源建设与智慧服务的发展提供全面的标准化支撑。
文化遗产的数据化与基因化是领域智慧数据构建的核心。
(1)知识对象的细粒度表示及其关系的抽取
从海量碎片化的文化遗产大数据和信息中抽取、剥离出知识单元是智慧数据构建需要解决的关键问题。文化遗产领域信息组织应从物理层面的文献单元深入到认知层面的知识单元,以语义三元组、知识元、知识基因、纳米出版物等作为更细粒度的知识组织单元,进而生成更结构化、更具语义完整性的知识。设计建立更适宜的领域知识表示模型与编码方式,促进领域知识转化与形式化表示。通过对文化遗产领域的各类知识进行编码封装,形成计算机可识别、可处理执行的知识对象。突破从文本、图像、音视频等多模态数据中识别、提取不同粒度知识对象的关键技术,在提取不同信息来源中的实体与知识对象的基础上,建立多角度、多层次的知识关联,形成文化遗产知识大图,为管理决策提供全局知识视图[38]。
(2)文化基因的识别与表示
文化基因是表达和决定文化系统传承与变化的基本要素,从最基本、最原始的文化基因出发可以认识复杂的文化现象和文化进化。从信息论的视角,智慧数据是文化基因的载体,核心是对文化基因的识别、提取与表示。
研究提炼出文化基因的具象化表现,从形状、纹样、材质库、造型等器物文化到美学、意识、观念与精神,由表及里地进行文化基因的解构与分析,并厘清文化基因的类型与识别提取的原则。从信息与数据的视角,对文化基因进行语义编码与表示,将文化信息单元转化为可量化、可计算的智慧数据对象。从文化组学视角,结合历史学、考古学、信息管理、计算机科学等多学科的方法和技术手段,智能化地提取文化遗产蕴含的文化模因和文化构造,形成素材库、纹理库、标本库等文化基因库或文化基因图谱。
完善的智慧数据质量控制与数据治理体系,有助于强化智慧数据生命周期内各环节的管理。遵循文化遗产领域的特质与规律,将参与主体、数据管理标准与规范、数据基础设施、支撑资源等协同整合成为智慧数据质量控制体系的有机整体。
首先,加强文化遗产领域数据质量控制顶层规划,明确数据价值提升与智慧数据升级的战略意识。完善文化遗产智慧数据管理制度,指导与调控不同主体间的协同联动。其次,从文化遗产领域数据生产与采集、组织、描述与加工、共享与开放、保存与利用等阶段[39],制定相应的标准、规范、原则、操作流程、指南、管理制度等,如FAIR原则、元数据质量控制方法、数据发布的最佳实践等。最后,制定与完善文化遗产智慧数据质量评价的指标体系,基于数据内容、数据形式和效用提出智慧数据的完整性、真实性、全面性、可信性等方面的质量指标;通过对文化遗产领域智慧数据质量进行评估与检测,并不断调整与优化质量控制体系。
数智时代,传统的信息资源建设与管理的资源观发生了变化,需要全新的大数据资源观、智慧数据资源观为牵引。智慧数据是信息资源建设理论在数智时代的新发展与演进,智慧数据成为信息资源建设工作聚焦的重点和核心任务。本文首先分析梳理了智慧数据的历史演进与发展趋势,系统性梳理归纳了智慧数据的科学内涵与表现特征。在此基础上,面向数智时代的文化遗产保护传承与活化利用,提出智慧数据赋能文化遗产活化的逻辑和进路,以及文化遗产领域智慧数据建设的具体方法与实现路径。
智慧数据是信息资源的高级编码方式与组织形态,其表现出富语义性、可计算性、可溯源性、可信性等突出特征。智慧数据以数据价值提升与实现为核心,具有更强的结构化、语义化、关联化与智能化程度,使得数据可计算、可认知、可解释与可推理,能够满足新型研究范式的需要。面向数智环境下的文化遗产的传承与活化,智慧数据能够实现对文化遗产对象的全面数据化与关联化、文化要素的解构以及数据资产化的转化,融合人工智能技术支撑对文化遗产的智能计算与数字化阐释,实现文化遗产在数字空间中的赓续与活化。智慧数据的系统性研究有助于促进数智赋能的信息资源管理与知识管理理论变革,深化大数据的基础理论与方法体系。文化遗产领域智慧数据的研究与建设实践,是文化遗产创造性转化与创新发展的有效路径,支撑文化研究、传承、传播与弘扬,推动文化遗产活化的进程。
[1]王晓光,梁梦丽,侯西龙,等.文化遗产智能计算的肇始与趋势——欧洲时光机案例分析[J].中国图书馆学报,2022,48(1):62-76.
[2]罗俊,罗教讲.数据密集型知识发现的边界与陷阱——以美国大选预测为例[J].学术论坛,2017,40(3):1-7.
[3]邱国栋,王易.“数据-智慧”决策模型:基于大数据的理论构建研究[J].中国软科学,2018(12):17-30.
[4]陈国青,任明,卫强,等.数智赋能:信息系统研究的新跃迁[J].管理世界,2022,38(1):180-196.
[5]朝乐门.数据科学理论与实践(第三版)[M].北京:清华大学出版社,2022.
[6]马费成.推动哲学社会科学创新发展——新时期我国图书情报学科的进展与使命[N].中国社会科学报,2021-07-20(007).
[7]孙建军,李阳,裴雷.“数智”赋能时代图情档变革之思考[J].图书情报知识,2020(3):22-27.
[8]StricklandE.AndrewNG:UnbiggenAI[EB/OL].[2022-02-09].https://spectrum.ieee.org/a