非常高兴今天能够参加古籍图典数字化与活化利用研讨活动,对古籍数字化,我从宏观的角度谈谈我的想法。国家图书馆出版社在国家文化大数据体系建设方面发挥了重要作用,也发挥了先锋队的作用,在古籍典籍数字化与孵化利用方面为我们立了一个标杆,在这方面国家图书馆出版社做了大量的工作,而且卓有成效。
新技术的迭代是非常快的,大家都非常关心人工智能到底能做到什么程度。OpenAI的CEO奥特曼认为,到2030年就能达到他理想中的通用人工智能的程度。奥特曼认为到那时,大概GPT已经到了10(GPT-10),将比世界上所有人加起来都聪明。
人工智能出来后,我们关注的不单是技术问题,更重要的是在人工智能发展迅速的今天,它对意识形态的冲击,我们怎么去应对。
到2023年8月份,我们大模型已经超过156个,其中的10亿级参数的大模型已超过80个,还有说现在已经有200多个。这个大模型的主要战斗队是以百度、阿里为代表的互联网大厂,以华为、讯飞为代表的科技行业龙头,还有一些重“创新”的企业。我们这些年一直坚持一个观点:人工智能一定是文化和科技深度融合的产物,文化提供数据源,而科技是在训练大模型。我觉得这是两者之间是密切关系的。
大家都知道人工智能三要素:算力、算法和数据。现在做大模型的大多数都是科技公司,科技已经发力,文化也不能缺席,所谓“不能缺席”就是我们要有数据。如果没有数据的话,我们可能就在这场人工智能的大战当中败下阵来。实施国家文化数字化战略,我们是以国家文化大数据体系建设为抓手,主要的目标是到2035年要建成国家文化大数据体系,它的表征:物理分布、逻辑关联、快速链接等。国家文化大数据体系的战略意义就是把我们中华民族积淀了五千多年的资源转化为数据,我们从这些数据中提取具有历史传承价值的中华文化的元素、符号和标识来丰富中华民族文化基因的当代表达,增强对伟大祖国、中华民族、中华文化、中国共产党、中国特色社会主义的认同。我们最终目的是要做价值观的认同,这是我们推动实施国家文化数字化战略很重要的原因。