中国考古学对人工智能以及数据科学的重视与广泛讨论开始于20世纪90年代,俞伟超、张爱冰以及李科威等先生提出的“全息考古论”,预见了科学技术与考古学的深度融合。此后一些学者着手开发与拓宽计算机在考古中的应用,但囿于现实条件与当时软硬件限制,在学术研究中难以普及。如今全息式呈现考古资料已经成为中国考古学研究的常态,在每年的年度十大考古新发现中,我们都能看到大量多科学合作的丰硕成果。
甲骨文校重助手 Diviner
如今人工智能在考古学领域的应用已经有许多成功的案例,如2021年,美国北亚利桑那大学的研究人员利用卷积神经网络对陶片进行分类识别,在短时间内将数以千计的陶器碎片分成若干组,帮助考古学家对陶片类型进行分析研究;2022年,以色列的研究团队利用拉曼光谱与人工智能技术,通过分析材料化学成分与评估其热暴露情况发现了距今100万—80万年间的旧石器时代早期人类用火痕迹;2022年,微软亚洲研究院研究员武智融与首都师范大学甲骨文研究中心莫伯峰教授团队合作,开发了甲骨文校重助手Diviner,大幅度提升了甲骨文校重工作效率,还发现了300多组校重的新成果。这些研究都需要研究者具备一定的研究基础,掌握机器学习、神经算法等研究方法。如今生成式人工智能的商业化应用,让人工智能技术可以更加普及。
生成式人工智能是一种利用深度学习模型生成文本、图像和音频等内容的技术。这种模型可以被训练以模仿人类的创造性和想象力,生成看起来真实的内容。它的工作方式基于概率模型和神经网络算法,模型学习输入数据的概率分布,并使用这些概率来生成新的数据。然而它也存在例如数据偏差、数据样本不足、模型过度拟合等问题。目前生成式人工智能已经被广泛应用于自然语言处理、计算机视觉、语音合成和音乐合成等领域。可以想见,生成式人工智能的普及可以更进一步推动中国考古学的发展与多学科研究的交叉融合。
十八大以来,党中央高度重视世界范围内智能化与数字化的工业4.0浪潮,特别强调创新合作发展。伴随生成式人工智能的商业化应用,社会大众深刻体会到人类“第四次工业革命”已经来临。为了学科的发展与未来,考古工作者不得不充分考虑人工智能可能对考古学带来的影响。
简单重复性工作将可能被替代
生成式人工智能非常善于对大量数据的处理与总结。对于一些简单的重复性工作得心应手,而且处理速度极快,比如文献爬梳、回顾、总结与摘要等,甚至只要数据库足够广大,它所收集的材料可能比人工收集更为全面与精确,当然精确性需要依赖使用者所下的指令与要求是否准确。文献回顾是学术工作的重要基础,诸如考古学年鉴、文献资料汇编以及学术史的整理等方面,生成式人工智能都具有很强的辅助作用。
OpenAI 的生成式人工智能 ChatGPT
需要注意的是,人工智能的数据需要预先经过训练与学习。如美国OpenAI公司开发的ChatGPT内主要为2021年9月之前的数据资料,尽管已经汇集了各种来源的数十亿参数与数万亿文本数据,但仍然有所不足,需要更多不同国家、语言、文化以及学科的数据资料进行训练。此外,学术研究涉及的资料安全性与数据库材料的适应性也极为重要。目前国内诸如文心一言等国产生成式人工智能的开发让我们有更多的期待,自主创新是实现高水平科技自立自强的关键,将更好地适应于中国特色的学术研究,更有效地保障学术公平与信息安全。
百度的生成式人工智能文心一言
对研究范式的可能影响
在关于理论范式的研究中,往往有对于归纳—总结与演绎—推理的两类范式的讨论,前者是文化历史主义研究的重要基础,后者是过程主义研究科学性的理论依据。上述生成式人工智能对简单重复性的工作所具有的替代性,将使我们可以对遗址繁多、材料广泛以及达到一定瓶颈的研究进行更复杂的讨论与总结,或许可以使我们对考古学文化的认识更为清晰与明确。也因此,它既是刺激,也是机遇。这表现在对考古学研究的要求可能会进一步提高,对考古学文化脉络的梳理可以更为深入,让考古学家可以借助生成式人工智能给已经长期大量积累的文化历史主义研究带来新的视角与启发。
此外,生成式人工智能在人文社科领域的应用适应于演绎—推理的范式中关于数据收集、整理、总结与量化分析的过程,可见其作为符合这一研究范式需求的辅助性工具,能够更加有效提高研究效率,扩大研究基础与学术社群。而基于不同的人文社科学术训练与理论
范式指导存在的差异,如果因为不符合我们当下的学术研究程式,而忽视生成式人工智能的作用,是否会造成我们与世界上其他国家的考古学研究水平的差异扩大,这或许值得重视与思考。
促进科技考古理论方法的普及
当今考古学界仍然存在对科技考古与考古学关系的讨论,一方面是由于考古学专业与科技考古方向在学科基础与学术训练存在的差异,另一方面是在现实状况下二者存在的底层研究策略的差异,以致于存在将科技考古学者视为实验室的“采样员”与实验结果的“打印机”的情况,也同时存在由于考古发掘项目负责人不同的研究背景使得科技考古的研究视角与具体田野工作的分离。作为对话式的语言人工智能,生成式人工智能在学习上的优势毋庸置疑,我们可以通过对话以及请生成式人工智能用“打破砂锅问到底”的方式,为人们讲解复杂的学科知识。甚至我们可以请其对研究的方法提供建议,任何不理解不确定的地方都可以反复提问,它几乎是一位24小时在线的“学术导师”,这在以往是不可想象的。
使用生成式人工智能帮助编写陶器主成分分析 R 语言代码
因而生成式人工智能在教育领域将极大提高学习效率,这有助于降低学科的细分领域间的门槛,便于学者在短期内掌握新的方法与技术知识。当然仅仅是纸上谈兵恐怕是不行的,纸上得来终觉浅,还需要在实践中应用。理论上,只要提供的经验性知识足够丰富,例如学科权威的经验教训总结与精细化的标准作业程序等内容,将经验性知识与生成式人工智能获得的知识结合,会给指导学术实践带来极大便利。
在学术研究中凸显问题意识的重要性
生成式人工智能主要擅长于数据(包括文本信息)的清理(收集、整理)、翻译(转换内容、形式与语言)、分类、总结(摘要、提取关键信息)、分析等,其中都离不开的是使用者提出适合的提示词(prompt)。好的提示词就如同魔法的咒语一样可以达到研究者预期的效果,可以想见,作为非计算机专业的学生将来或许不需要系统学习机器学习、神经网络及其他复杂的算法,但需要学习如何提出更准确的提示词。目前美国一些高校已经开设了有关课程,教授学生如何更好地通过提示词使用生成式人工智能。
提示词可以理解为学术研究的问题意识,好的问题意识是好的研究基础。这也可以让我们了解生成式人工智能无法替代的部分,即原创性的问题意识,它直接指导我们的研究底层策略的选择、研究计划的制定、研究规范的执行、研究材料的选取。尽管极大化提高的学习效率为我们更好地进行跨学科合作研究提供了切实的依靠,使学科之间对双方的理论范式与技术方法有一个基本的认识,实现有更高融合度的创新性研究,但原创性的问题意识始终是需要研究人员去制定的,它直接体现了研究的创新性与学术价值。
对学术评价体系的影响
在生成式人工智能商业普及之初,源于其巨大的技术优势,不少人欣喜于可以使用它帮忙代写论文,这不得不让我们重视可能发生的学术不端与剽窃行为,同时促使我们反思知识生产的本质。一般而言,知识生产理解为通过脑力劳动在原有知识的基础上产生新的知识,保证对原有知识产权的尊重是学术界的共识。假使生成式人工智能成为学术的蚁后,学者沦为给人工智能输送知识的工蚁将是一个悲哀的境况。因此我们既要保障使用生成式人工智能工具带来的便利,又需要避免学术不端,这就要求我们对学术评价体系有适应性的改变,提高学术研究的透明度。当下需要考虑的除了论文查重系统需要添加人工智能检测系统以外,是否需要研究者完整公布提示词,以便于可以追溯完整的写作过程,防止出现大量抄袭的情况。
联合国教科文组织推进倡导开放科学
21世纪以来,国际上众多学科开始推动开放科学与可重复性研究,2021年联合国教科文组织通过《开放科学建议书》,旨在实现人人皆可公开使用、获取和重复使用多种语言的科学知识,为了科学和社会的利益增进科学合作和信息共享,并向传统科学界以外的社会行为者开放科学知识的创造、评估和传播进程。在一些科学研究中,如Python、R一类的统计编程语言为可重复性研究提供了基础,应用编程语言来书写研究论文已经有许多成功的研究,研究的可追溯性与数据公开透明为开放科学提供了必要条件。
另外需要注意验证内容的正确性,国家互联网信息办公室《生成式人工智能服务管理办法(征求意见稿)》第四条提到“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息”。生成式人工智能只是内容的提供者,尽管它具备分析的功能,但在正确性上需要更多检验,直接使用生成式人工智能产生的研究结论不仅涉及学术不端,更可能存在许多错漏,甚至满篇废话。因此生成式人工智能的发展并不意味着其能够完全取代学者的研究能力,研究结果的有效性与研究材料使用的正确性极大程度上依赖于学者自身的学术水平。
党的十八大以来,以习近平同志为核心的党中央高度重视考古文物工作,习近平总书记多次就考古工作发表重要论述,如何构建新时代中国考古学理论范式与创新学术体系是摆在每一位中国考古人面前的课题。习近平总书记今年4月在广东考察时强调,广东是改革开放的排头兵、先行地、实验区,在中国式现代化建设的大局中地位重要、作用突出,广东要在推进中国式现代化建设中走在前列。作为广东的田野考古工作者,在高科技与产业融合的前沿阵地,我们希望通过对生成式人工智能的充分认识与深入思考,帮助考古工作者更好地把握新兴技术在考古学应用中的守正与创新,为推进立足于中国式现代化的中国特色、中国风格、中国气派的中国考古学做出更大贡献。