关键词 古籍数字出版 智慧数据 价值再造 知识生产
1、引言
近年来,传统文化的重要性被提升到新高度,党的十九大报告强调,要加强文化遗产保护传承,推动中华优秀传统文化创造性转化、创新性发展。习近平总书记指出:“中华优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力。”[1]古籍是中华优秀传统文化和知识体系的重要载体,数字化方式是目前保存古籍承载信息的重要手段。目前,我国的古籍数字出版大多只是将纸质文本原封不动地放置到数字媒介上,并加入书目查询、全文检索、阅读等功能,基本满足了大众的传统优秀文化素养培养和基本知识普及的需求、专业化的学习和研究需求,以及少量个性化的消费需求[2],但现有的古籍数字出版模式并没有利用数字技术改变古籍出版的传统线性出版模式[3],仅仅是古籍在形式上由物理形态到数字形态的转变,古籍的价值未得到充分挖掘,滞后于数智时代的发展。
2022年4月,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》,在加强古籍保护工作的基础上提出了加快古籍资源转化利用的要求,深入推进中华优秀传统文化创造性转化、创新性发展,为新时代的古籍转化利用提出了新的要求。在数智化转型中,古籍数字出版需要挖掘古籍价值,开发古籍资源,进行价值再造,对古籍出版的发展具有重要意义。数智时代的古籍基础知识建设服务于数智时代古籍文化价值的挖掘与传播,对古籍的文化、学术和社会价值的传承与保护具有重要意义,也将进一步拓展古籍应用模式,对古籍的深度开发与利用具有重要意义,构建古籍智慧数据,实现古籍基础数据和知识共享与重用,为古籍研究提供重要的智慧数据,服务于社会。
数智时代,数智技术赋予人类社会极其强大的创新力和价值创造力,数据成为新的生产要素,在数据和数字技术的作用下,数据智能、数据智慧等新生产要素构成的新生产力推动人类社会进入数智化新时代,新一代“数智”环境将促使人们的思维模式和理念转变,人类文明正在经历一场立体的、多要素、全景式的数智化迁变。数智时代对数据的要求促使古籍数字出版进行新的改造和升级,适应“数智”技术体系与应用。因此,无论古籍的内容组织形式还是出版使用模式都将面临新的变革,数智技术推动古籍数字化扩容、媒介的跨平台整合、内容的精准化投放、场景的沉浸式体验。
数智时代带来了古籍数字出版思维模式的转变,数智技术促使新的出版框架形成,也为古籍数字出版带来新的应用场景。古籍将逐步由“数字化”进一步向“知识化”转变,以适应数智时代的数智化需求,形成数据智能、数据智慧,以开放、协同的姿态迎接“数智”机遇,打破古籍知识的固化、单一、封闭的逻辑导向,从而使得很多过去不能研究或难以研究的问题成为可能,也使不同时空的古籍知识关联起来。数智时代古籍数字出版不仅面向用户,也需要面向智能机器的“阅读”与理解。因此,数智时代古籍出版将由单一数字媒介向跨媒介转变。数字化背景下,古籍数字出版的功能实现途径和出版理念发生了很大变化[4],数智时代古籍数字出版将不再是单纯意义上的图书,而是现代工具与传统内容完美结合的统一体,人机合一的模式,古籍数字出版的理念也应当有所转变。传统的古籍数字出版是以影印、点校等为主的线性出版模式,基本满足了传统文化的传播及大众的需求,然而古籍的价值还未得到很好的挖掘。
数智时代,以知识化为代表的智慧数据成为重要的形态,给古籍数字出版的思维、框架和场景带来新的变革。古籍数据智慧化大数据的环境为古籍知识的生产与价值再造提供了条件,将推动中华优秀传统文化创造性转化、创新性发展,突破传统古籍数字出版模式,为古籍数字出版中的新知识生产及场景化重构奠定基础,有助于让古籍从“活下来”,真正转变为“活起来”。
数智时代古籍数字出版中的价值再造内涵
价值再造顾名思义为“价值再创造”,在原来的基础上进行价值的二次创造,古籍数字出版中的价值再造是相对于原有古籍数字出版来说,通过挖掘古籍中最具特色的元素,或者最有价值的内容,通过合并、重组及挖掘等知识生产的劳动,形成一个全新的文化作品而进行创作的过程和创作的结果[5],是对古籍知识沉淀的再组织,是新知识的生产。古籍拥有中华民族共有的智慧财富,数智时代对古籍资源增值,提高古籍资源的效用,将古籍蕴含的传统文化与元素融入当代社会生活,通过理解和转化,并将其适用于现代生产和生活的创新中,服务当代文化、社会和经济,继而深入推进中华优秀传统文化创造性转化、创新性发展,使古籍数字出版具有时代的生命力。
古籍数字出版中的价值再造的核心是做好产品,提供优质古籍内容。古籍数字出版中的价值再造中化面为点、化点为面成为古籍价值再造的两个过程,见图1。传统的古籍数字出版通常以古籍册、篇章为单位进行组织与出版,“数智”是以大数据和人工智能为代表的数据思维和新兴技术应用的深度融合,数智化是数智时代的主要特征,要求古籍资源知识化、语义化,将古籍内容进行深度加工与标引,化面为点,由古籍册、篇章变为“知识点”,从知识组织体系出发对古籍的篇章、知识单元进行标引,从而实现古籍知识单元的颗粒化、关联化,形成古籍数字内容知识库,统一存储古籍数字化内容资源,以适应新的“数智”技术体系与应用环境的需要。同时,通过化点为面,由“知识点”变为“知识体”,以碎片化、系统化的知识为基础,根据用户及场景需求,在古籍智慧数据中选择匹配知识单元,通过挖掘、合并、重组等,对古籍知识进行重组和聚合,形成新的有价值、个性化的、高质量的内容产品,实现一次数据加工、多次内容利用,以高质量的内容创造价值。
图 1 古籍数字出版中的价值再造
古籍价值再造是数智时代新知识的生产与新场景的再造。古籍资源本身蕴含的思想精髓与文化元素,挖掘和阐发古籍资源本身蕴含的思想精髓与文化元素,是哲学社会科学研究的重要内容[6],古籍资源的数据化、知识化为中华优秀传统文化的核心元素和基因的提取提供了条件,将相关的离散知识单元按一定规则进行组织与重构,并形成新知识,从而实现古籍的传统文化创造性转化和创新性发展。随着人工智能、虚拟现实、元宇宙等智能技术的发展,古籍的数智化也为古籍文献的场景再造奠定了基础,结合古籍文献资料背后的历史背景、时代特征、空间结构和内容主题,用严谨和科学的历史观和文化观对文献内容进行阐释[7],以故事化的场景,生动解读古籍内涵,通过创设鲜活的情境为读者提供身临其境、全方位的感受,真正实现让古籍“活起来”。
数智时代古籍数字出版中价值再造方式:
知识生产及场景化重构
数智时代古籍数据智慧化大数据的环境为古籍知识的重塑与再造提供了条件。从古籍数字出版中的价值再造内涵来看,数智时代古籍数字出版中价值再造方式主要为知识生产及场景化重构。
3.1数智时代古籍数字出版中的知识生产
数智时代,古籍数字出版的精髓—非线性逻辑生产、展现和传播知识的形式,为新知识的生产提供了基础条件。古籍的数字出版打破了古籍原有的线性逻辑生产与展现形式,打破了长期以来存在的多重知识区隔,古籍数据智慧化使古籍知识和信息由过去的分隔走向贯通,实现时空贯通、部类贯通等,知识呈现多维关联的网状结构,为知识创造了非线性的复合空间,数字技术的融合性特质把不同古籍包含的知识公开化形态一网打尽,使古籍可以在数智化的技术语境中以网状形式共存共现。重构传统文化成为时代主题,文献整理工作不仅应继承“整理国故运动”的理性精神,更应努力建立一种呼应时代主题的文献整理模式[8],挖掘古籍中的传统文化元素、文化基因是古籍数字化与文化产业相结合的关键环节,通过知识关联、重组、聚合古籍中蕴涵的传统文化元素、文化基因及社会记忆,诸如传统礼仪、习俗、成语、典故、地域特色等,诸多文化元素、文化基因及社会记忆形成中国文化元素知识库,快速提取碎片化相关素材形成文化产品。
随着媒介变迁不断转化,出版的意义也随其形态的演变不断转化、拓展,数字媒介的可重写性使其成果迭代生长和扩展,古籍的价值再造在古籍知识关系网络中显现出来。数字智能技术带来了新知识的产生,在数字化技术的支持下,通过语义标记来增强古籍数字出版物的表现形式和内容,从而提供深入挖掘和关联分析知识的能力,在数字媒介中古籍知识可根据出版需要对古籍知识元进行重新组织并再利用,根据社会及读者的需要对古籍知识元提炼与重构,进而形成新知识体系,通过数字媒介平台形成新的知识产品,生成新的数字出版物。从纸质古籍文本到智慧化古籍数据,古籍资源进行了形态转变,古籍知识也可实现媒介形式的转换,将数据映射为可视化图形,以不同形态呈现,从而获得新的价值。
数字技术的交互性改变了传统印刷出版业的基本状态,数字出版呈现显著的趋向—弥散性,使人类社会的知识生产迈向一个新阶段[9],出版与读者的交互、读者与古籍中的人与物的交互、不同时空的古籍知识互相渗透形成了紧密的新知识组织形式,出版与大众及公共性的关系更加紧密,出版可以按读者的知识需要动态组织与重构知识,通过数字媒介进行动态的精准知识投送,形成一种新的古籍出版及发行模式,满足用户多样化、个性化和多终端传播的出版需要,根据DIKW(Data-Information-Knowledge-Wisdom)体系,知识是经过过滤、提炼和加工的信息,因此,这种基于知识单元的精准投送可认为是一种知识生产过程。
在新的数字学术环境中,智慧数据成为学术研究的重要材料,促使了新的科学范式的产生,在数据驱动的第四范式之下,学者通过数字化方法从不同角度进行多维度的古籍数据统计、比较、分析,对古籍数据进行挖掘、使用、重构、进一步激活和再生产,在原有知识的基础之上产生新的知识,也实现了古籍知识的再生产。
近年来,古籍数字出版中的价值再造引起了各方关注,在实践中从古籍实体资源的图像化、数字化,到数字化资源的文本化、数据化,再到数据化资源的本体化、模型化、场景化进行了尝试,探索新时代古籍文本结构化、知识体系化、利用智能化的研究和实践。上海辞书出版社推出了“聚典”,把其出版的各类辞/词典数据化,结构化加工后构建系统的、标准化的云端数据仓库,一站式数据服务体系基本实现,聚合内容、融合场景,实现产品价值再造[10]。上海古籍出版社推出了“汇典•古籍数字服务平台”,对其出版的古籍资源内容进行知识结构化揭示,重构原有的古籍内容组织形式,并创建全新的知识模块,实现古籍资源的知识化[11],古籍数据智慧化实践为古籍知识生产与场景重构奠定了基础。
3.2数智时代古籍数字出版中的场景化重构
数智时代,随着移动互联网、大数据、人工智能、虚拟及增强现实等现代信息技术的发展,以数字化、可视化、智能化、网络化、集成化理念为目标,构建起实时映射、虚实相生的场景,将带给人们立体化、交互性、沉浸式的全新体验,并实现逐级可视。从人、事、物的层层展示,使呈现方式更立体,虚拟现实技术具有沉浸、交互的特点,与传统技术相比,虚拟现实技术具有更好的情景叙事性的表达,为历史与传统文化的场景化全面展示提供了新的途径和方法。多模态的场景再造成为一种新的古籍价值再造的途径,利用多维的文本、图像、视频、音频等关联,给读者带来沉浸式场景体验。
古籍知识的要素解构及全景式呈现是古籍数字出版中场景化重构的一种重要形式。古籍蕴含着丰富的中华元素、符号和标识,传统古籍数字出版中,受众普遍存在知识内容获取困难,对古籍知识与内容的理解也超出了普通受众的认知范围,古籍出版陷入“业内一片叫好,社会阅读低迷”的境地。大型文化节目《典籍里的中国》给古籍呈现带来了新的启示,利用仿真的虚拟环境,赋能古籍内容的叙事呈现,创新实现“沉浸式”的古籍阅读,给普通受众带来了视觉、听觉等多种感官感受,全景式呈现具有想象性(imagination)、交互性(interaction)和沉浸性(immersion)的特点[12],且打破了时空界限,不仅激发受众对传统文化的兴趣,降低古籍阅读困难,而且为受众带来了随时随地获取知识、提供沉浸式学习的便利,场景化阅读具有得天独厚的优势。
古籍数字出版也有助于古籍中的中国优秀传统文化及社会记忆的数字化重现。古籍是记录我国传统文明和文化的重要载体,记载着中华优秀传统文化基因和社会记忆,为传统文化及社会记忆重现提供了真实、丰富、细致的历史素材。利用古籍中记载的重要古迹、遗址等空间信息,通过数据化、模拟仿真及三维建模,可以构建不同历史时期的数字化历史场景。在这些数字化历史场景中,还可以将古籍文献中记载的人物、器物等数字化叠加或嵌入,从而对传统文化及社会记忆全面立体展示,实现历史物理空间、社会空间和信息空间三元世界的联通与融合,重建部分人类社会历史记忆。数字化传统文化及社会记忆重构,再现历史社会场景,可帮助追溯中国古代社会发展演变过程,如不同历史时期国家的出现与消亡、疆域的变迁、人口迁徙和运河的改造等。借助数字化建模、虚拟修复、数字仿真等数字化手段对文化遗产加以虚拟保存或再现已广泛应用于实践之中,“威尼斯时光机”(Venice Time Machine)项目通过地理信息系统将威尼斯千年来历史变迁中的人、物、事件等在时间与空间中进行组织,重构了一种跨时空的威尼斯数字空间,并通过数字技术可视化呈现威尼斯的城市变迁,还原威尼斯历史生活场景。
古籍数字出版的场景化价值再造还体现在日常生活中,将古籍蕴含的丰富文化元素和历史信息与日常生活相融合,嵌入知识消费、价值传播等过程中,在现实中让人们更好地了解和体验古代文化,让古籍更好地为现代社会服务。通过数字技术,将古籍中蕴含的文化元素、文化基因应用到现代设计中,创造出更具有中国特色的设计作品。同时,借助数智时代的虚拟与增强现实、实时交互等技术,将古籍数字化内容、知识体系融入场景之中。
2021年,国家图书馆推出了“VR全景文化典籍”作品—《永乐大典—旷世宏编,文献大成》[13],该作品集成5G、全景视频拍摄、三维动画制作等技术手段,将虚拟现实与古籍文献相结合,立体化展示书本中的文字及场景,全景再现《永乐大典》的成书过程及历史变迁,打造出全景沉浸式观展体验,推动了虚拟典籍博物馆建设;此外,中央电视台运用环幕投屏、增强现实、实时跟踪等技术录制的《典籍里的中国》专题节目,以故事化的场景,生动解读《尚书》《论语》《天工开物》等古籍内涵,让传统文化资源焕发新的生命力,反映了当前古籍与新技术深度融合的内在趋势,凸显了古籍数字出版发展的新方向,也为更多古籍中的传统文化融合传播探索了新路径。
4、数智时代古籍价值再造的基础:古籍知识化
数智时代以知识化为代表的智慧数据成为重要形态,智慧数据是对不同数据进行汇集、关联、分析等操作,使古籍数据具有富语义性、可计算性、可解释性和互操作性等核心特征[14][15],在古籍价值再造过程中古籍数据智慧化是核心。古籍知识化是古籍数据智慧化重要途径,将文本化的古籍转化为语义化的领域知识库是古籍数字出版中价值再造的核心任务,也是数智时代古籍数字出版过程中新知识生产及场景重构的基础。
4.1古籍价值再造中的古籍知识化路径
古籍知识化以古籍数字化为基础。随着古籍数字化的发展,不少古籍知识化研究工作与实践随之展开,特别是在医学、农学等古籍领域,通过构建知识库,发现、利用古籍中的宝贵知识成为研究的重要方向。通过对古籍数字资源的深入整理、加工、组织,为古籍数字出版提供一整套古籍知识组织体系,并利用这一体系,对包含的古籍进行知识标引,实现古籍知识单元分类、概念关联、语义解析,将古籍数字资源与知识组织体系有机结合,建立起立体化知识网络,从而为用户提供传统纸质图书无法提供的聚类知识与信息、超链接的浏览环节以及知识关联等功能,实现古籍数字资源的利用,达到古籍资源价值增值。古籍知识的构建可分四个阶段:知识组织体系构建、内容颗粒化、内容标注、构建知识库,见图2。
图 2 古籍知识化路径
古籍文献涵盖面广,包含历史、地理、语言、文化以及社会等方面,因此,古籍包含的是一个内涵十分庞大、复杂的知识系统。但是就古籍基础知识来说则简化不少,目前古籍知识化相关研究成果较为丰富,但多局限于单一古籍、某一类别的古籍知识库研究与构建,基础性、通用型的中国古籍知识库的研究比较缺乏。清华大学刘石、孙茂松教授曾提出“中国古典知识库”的概念,提取古籍文献中的年代、地域、人物、社团、著述、事件等实体,通过其实体的相关属性及不同实体间的关系构建文献中的知识体系[16]。当然,古籍基础知识库超出了古典知识库的范畴,需要站在古籍的文化、学术和社会价值的传承与保护以及人文研究等角度来思考,从人文社科学科的知识体系来构建古籍基础知识库。
古籍基础知识库的建设既要考虑到“藏”古籍,更要考虑到古籍的“用”,由于侧重于古籍数字出版中的价值再造,因此古籍基础知识库的知识组织体系以“用”为主,其中又以学术研究及社会大众为主。中国古代的学科知识侧重于人文社科,古代的知识体系以《七略》为代表[17],以及后来更为实用的四部分类[18],古籍文献主要涉及人文学科领域知识,根据2018年教育部的《学位授予和人才培养学科目录》,人文学科包括哲学门类、文学门类、历史学门类、艺术学门类等,古籍文献也涉及部分自然学科领域知识,如古代农学、医学等少数学科。古籍基础知识庞大而繁杂,考虑到知识点的定义、构成、条件、背景、历史、用途、功能方向、外延等知识组合,古籍基础知识体系可参照以这些人文学科门类为基础建立古籍知识组织体系,以人文学科通用性强的古籍书目、人物、物名、地名、时间等多种实体类型的知识点,也还有一些抽象的概念、思想、事件、典故等知识,并建立知识点之间的关联,在统一的框架之下,通过构建多个具体的专业知识库,如人物知识库、职官知识库、地名知识库、名物知识库、古籍书目知识库等,最后形成综合性的古籍基础知识库,见图3。以知识组织体系为基础,对古籍文献经过结构化处理后的知识单元进行内容标引,同时对古籍文献间的引用与被引用的各种关系进行标注。
图 3 基于学科的古籍基础知识库
古籍内容颗粒化,也即根据古籍知识组织体系确定文献的切分方式、切分的颗粒程度等,对古籍内容颗粒化,将古籍文献内容按知识体系分解为多个具有独立意义的知识单元,并对各知识单元进行唯一标示,为后期知识标引和关联打好基础。古籍内容标注是古籍基础知识关联及重组的关键环节,通过对元数据标引及颗粒化知识单元进行实体属性标引,形成古籍基础知识库中低层内容数据,是进行颗粒化知识重组聚合的核心,通过内容颗粒化及标注,孤立的文献成为丰厚的知识库的有机组成部分。
4.2古籍价值再造中的古籍知识化方法
古籍知识化的实现以古籍信息处理技术为基础,古籍知识化的路径与方法跟古籍信息处理技术的发展密切相关。目前,除了人文学者和古籍专家人工建设之外,古籍知识化构建方法可归为两种:一种是在元数据、(叙)词表和知识分类体系的基础上构建古籍知识库;另一种构建方法是利用机器学习和统计模式挖掘古籍文献中的知识元,进行知识库构建。
以元数据、(叙)词表和知识分类体系为基础成为一种常用的构建古籍知识库方法,即通过元数据、(叙)词表和知识分类体系构建古籍知识库。运用数字技术将多源异构的古籍数据按古代知识体系、分类及知识之间的相互关系等进行关联,并集成于统一的环境下,采用数据聚合、数据关联等方法,使时间、空间、人物等从语义上进行聚合与关联,从而构建相应的古籍基础知识库,该方法便于古籍“显性知识”的知识库构建。
不少学者在元数据、(叙)词表和知识分类体系的基础上,在构建古籍知识库方面进行了探索,谷建军(2006)、罗晨光(2007)、杨继红(2008)、邓仲华(2014)等采用古籍元数据、(叙)词表等基于本体的方法构建古籍信息知识库,通过对古籍元数据、(叙)词表和分类体系聚合,建立相关概念和关系,从而实现语义知识描述的迁移,完成知识库的构建,该构建方法通过元数据、(叙)词表及知识分类体系可快速建立起相应的古籍知识库。也有学者通过挖掘古籍文献相关的注疏文献来构建知识库,如贾凤旭(2015)、马创新(2013)等采用注疏文献的聚类方式发现古籍文献之间的相互联系,按知识之间的相关性把文献资源整合构建成知识库。近年来,随着大数据理念和应用的逐步深入,通过多源异构古籍数据构建古籍知识库成为研究热点,欧阳剑(2021)、熊晶(2020)等通过对现有多源异构古籍数据的组织与重构的方式构建了相应的古籍知识库。
另一种古籍知识库构建方法是利用机器学习和统计模式挖掘古籍文献中的知识元,进行知识库构建。研究深度学习的古籍知识组织,利用新兴数字技术探索古籍基础知识库自动构建方法,如利用自然语言处理、机器学习、人工智能等新数字技术对古籍文本中的命名实体、术语、事件等知识元进行抽取,以及对古籍中的“隐性知识”如学术史、思想史、历史事件等进行挖掘,将文献间的显性和隐性关联标识出来,并构建相应的古籍知识库。
古籍文本中的人名、地名、事件、时间、职官等命名实体是古籍知识的重要组成单元,通过计算机对文本中的命名实体进行识别,并构建领域词典或词汇库。侯汉清(2008)、朱锁玲(2011)、皇甫晶(2013)、黄水清(2015)等对古籍中的命名实体识别进行了研究,王东波(2018)等对先秦典籍中的历史事件自动识别进行了研究。近年来,随着自然语言处理及人工智能等技术的发展,新的信息技术开始应用于古籍知识建设之中,李斌(2020)、杜悦(2021)、常博林(2022)、梁媛(2022)等采用深度学习等方法进行了古籍命名实体识别,加速了古籍知识库的构建。目前利用计算机技术和统计模式挖掘古籍文献中的知识元的效率得到了提升,但准确率还待提升。
从古籍基础知识的构建来看,古籍基础知识库的构建需要古籍语料库、术语词表及相关基础库等基础性材料的支持,从而在数字技术的处理中提高提取古籍知识元的准确率,但目前基础古籍数据及古籍文本语料建设与研究存在明显不足,忽略了对现有多源古籍数据的组织与重构,古籍文本化加工、基础古籍语料库及术语、词表建设等基础性工作尚且薄弱,基础词表和语料库缺乏等问题突出。由于数据格式及元数据标准多样化,古籍基础数据的完整性也有所欠缺,数据之间的关联关系建立也存在不少问题,给古籍知识化带来困难。
5、结语
古籍承载了丰富的中华优秀古代文化知识体系和精神内核,保存状态的文献文化因子处于休眠状态,只有加以研究利用,方能激活文献中的文化基因 [19],古籍才能在再创造和再生产中保持持久的生命力。随着信息技术的发展,古籍开发的重心逐渐从古籍数字化到古籍数字化价值再造,古籍的数字化开发也逐渐从过去注重纸质资源的数字化,演进到数智时代的数据化、语义化再造,参与数字学术生产的新形态。
数智时代给古籍数字出版的思维、框架和场景带来新的变革,也为古籍价值再造创造了条件。古籍数字化资源经过碎片化拆分、知识体系构建,实现古籍知识语义化、数据关联化、支持语义出版、细粒度数据集成,可以通过古籍资源的各种属性汇聚碎片化资源,形成新的产品,实现知识生产,不仅可以充分发挥古籍的价值,实现古籍数字出版的增值。同时,古籍数据智慧化为古籍传统文化及社会记忆场景重构奠定了基础,有助于古籍中的中国传统文化及社会记忆的重现,在更大范围内推动古籍的传播,提高公众对古籍的普及与认知,并带来社会效益和经济效益,促进古籍价值再造的良性循环。