了不起的甲骨文丨当甲骨文牵手AI
——专访首都师范大学教授莫伯峰
莫伯峰教授正在办公。本报记者 于晴 摄
□本报记者 马愿 河南日报社全媒体记者 李向华
10月25日上午,记者走进首都师范大学甲骨文研究中心莫伯峰教授的办公室。不到20平方米的房间,一侧是满墙书架,除了包括甲骨文、金文等在内的古文字类图书外,其中一个书架上是《神经网络与深度学习》《信息检索与深度学习》《人工智能:人脸识别与搜索》等涉及人工智能技术的诸多书籍。
莫伯峰的研究主要围绕“甲骨刻辞字体分类”展开,即根据字体把甲骨文细分为几十个类型,这是他在甲骨学领域的专长。目前他的研究又增加了“人工智能在古文字研究中的应用”类的题目,这是他近年来重点关注的领域。熟悉他的人认为他是甲骨文研究领域最懂AI(人工智能)的,他则幽默地说:“其实我是甲骨文研究领域踢足球最好的,只是现在没那么多时间踢球了。”
用AI解放生产力
“识别是当下甲骨文研究的基础问题。”莫伯峰介绍,全球约有16万片甲骨,按每一片有10个字计算,就是160万字,目前还有三分之二的甲骨文字未破解。
“甲骨缀合是将本属同版的甲骨碎片,依据形态、卜辞等信息拼接在一起,尽可能恢复其本来面貌。”莫伯峰说,以前都是由甲骨学家手工缀合,全凭个人经验和脑力记忆,耗费大量时间和精力。
2019年,莫伯峰提出用计算机缀合甲骨作为“甲机会”的实验项目,2020年与河南大学联合研发软件“缀多多”,在甲骨学历史上首次实现了人工智能批量缀合甲骨。
莫伯峰表示,AI能够与专家缀合的方法互补,这是这项工作最有价值之处。专家主要通过甲骨上文字内容进行缀合,而AI可根据甲骨断裂处特征性边缘形状进行缀合,这是专家很难实现的。未来,随着AI的发展,可以实现结合文字内容来进一步提升智能化缀合的水平和效率。
甲骨“拓本”图像是研究甲骨文的基础。从甲骨文首次发现至今,因为收藏、流转,大部分甲骨都留下了多个版本的拓本。这些拓本被称为重片,梳理重片的工作被称为校重。甲骨的拓本数量远远大于甲骨的数量,需要对这些重片进行系统整理,才能理清这笔“糊涂账”。因此,校重是甲骨学一项重要的基础性整理工作,耗费了甲骨学者大量时间。
莫伯峰教授团队与微软亚洲研究院合作开发了基于自监督学习的甲骨文校重助手Diviner,系统比对了18万幅拓本,辅助甲骨学家在上百个甲骨文数据库中发现了大量甲骨重片,而且经过初步整理,已经发现超过300组未被前人发现的校重新成果。该软件可以让专家彻底摆脱这项繁重的整理工作。
校重也体现了AI与专家的方法互补。甲骨学者校重,主要基于拓本上的文字内容,准确性非常高。但这种方法需要凭借对文字内容的存储和记忆,效率很低。而且由于种种原因,在甲骨拓本中的文字并不都很清晰,这也限制了这种方法的应用范围。AI校重模型不受文字信息的限制,也不受图像数量的限制,直接运用图像比对就可以迅速完成图像校重,虽然没有甲骨学家准确性那样高,但胜在效率非常高。AI的结果再经过甲骨学者的审核,就能实现又快又准了。
跨学科提升新质生产力
“集图像和语言于一体的多模态模型,将成为AI发展的主要方向。”莫伯峰认为,AI和甲骨文的结合仍处于初级阶段。随着AI技术的不断进步,甲骨文研究将会迎来更多可能。
甲骨文本身具有多模态属性,既是一种图像,又是一种语料,人工智能在甲骨文研究中的应用,未来将汇集在统一的多模态大模型中。莫伯峰判断,未来的多模态大模型可以同时处理图像和语言。
AI以后将会成为“学术小助手”,对甲骨文破译等研究发挥重要的辅助作用。
另外,AI对大数据的处理能力远超人类,甲骨文研究可以借助AI的数据挖掘技术,更好理解和掌握甲骨文的发展演变规律、结构和特征等方面的重要信息,从而推动甲骨文研究不断深入和发展。
“研究者要了解AI的基础运行规律和技术发展状况,我们和AI是共同成长的关系。”莫伯峰说,“学术的研究往往同国家的经济、科技发展水平密切相关,国内AI的蓬勃发展,为我们提供了极大研究便利。”
“随着AI技术与古文字研究结合逐步深入,学术界的研究方法和思维模式将随之转变。AI的运用使得人文学科不再是孤立的学术小圈,而是一个与技术深度融合的开放平台。”莫伯峰认为,甲骨学一直有着多学科协同的传统,现在更应该被看作是一门新型交叉学科。相信随着AI技术的不断进步,会有更多的跨学科研究参与,共同提升甲骨文研究的新质生产力,助力更多成果的产生。