古籍如何获得“新生”?
近些年,越来越多的人投入到让古籍重获新生的工作中,作为古籍数字化成果之一的“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”(https://www.shidianguji.com)测试版于10月11日正式上线。该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字。据介绍,未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,并将全部免费开放。
就“识典古籍”的上线,国家图书馆副馆长、国家古籍保护中心副主任张志清、北京大学数字人文研究中心主任王军与抖音集团的负责人进行了分享。
“识典古籍”网页截图
从“识典古籍”谈起:古籍数字化难在哪里?
数据显示,我国现存5000万册/件古籍,其中亟待修复的大约1000万册/件;而就古籍数字化的情况,我国现存古籍约20万种,其中有数字化扫描影像的大概8万种,实现文本数字化的只有3-4万种,由此可见,大量的古籍亟待修复和数字化。
让古籍重获“新生”需要三方面共同努力:首先是原生性的保护,主要是指古籍修复;然后是再生性保护,指的是将古籍数字化,保存其珍贵的影像资料、为古籍使用者提供阅读便利;最后是传承性保护,指的是将古籍里面蕴含的信息、知识活化,让更多人了解古籍蕴含的历史文化。
我国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复、整理、出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间,若利用人工智能技术辅助修复整理,大概二三十年就能完成。
古籍怎样数字化?
抖音集团企业社会责任部产品总经理唐垲鑫介绍,第一步就是要将古籍实体变成电子扫描版,这一步比较简单,最早用微缩胶片,现在主要用电子扫描仪扫描图片;第二步是通过OCR技术变成文字版并进行校对;第三步是把文字版进行整理,变成现代人好阅读的数字化文本。
数字化的过程中也面临着许多难点,比如古籍原文大多数是没有句读的繁体竖排版,存在大量的异体字和生僻字,因此只有让人工智能算法学会更高准确率地自动加标点才能保证识别的准确性;在呈现端,一个检索词可能在古籍中有十几种不同的写法,怎样准确地检索到,这就对模型准确性以及搜索技术形成挑战。以“识典古籍”为例,为了更高的效率和更好的阅读体验,也需要对古籍中的书名、人名、地名等进行标注,并建立古籍里的知识图谱,和百科业务打通。
“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
据悉,“识典古籍”书目将持续更新,后续将上线手机移动版。未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
“识典古籍”页面,有查看原版本影像的功能和人名、地名、书名标注与检索功能
“让文明触手可及”
北京大学数字人文研究中心主任王军提出,典籍数字化要放在整个中国典籍传承的历史线索中去理解它,“大家可能有一个疑问是国家图书馆花了那么大力气保存典籍,不放在数字环境中它也不会丢,我们为什么还要将它数字化呢?因为我们今天的这一代人生下来就是用手机的,古籍虽然还存在图书馆,但如果用的人越来越少,它也是一种中断,所以我们这一代传承的责任就是要把它迁移到数字化。”
“我自己想了一个口号是‘让文明触手可及’——在你的手机上,在你的平板上,就能接触到现有的所有典籍,让文明成为一种可以感知、可以估摸,可以交互的数字化产品,这是我们打造古籍数字平台的最终目标。”王军谈道。
王军也畅想了古籍数字平台未来的发展趋势,他认为,更重要的是让典籍文献跟我们今天的互联网信息形态融合在一起。比如在识别古籍的专有名词基础上再往前迈一步,识别这些专有名词之间的关系,把人名、地名、官名、书名都识别出来,并试图抽取人和地和官职之间的关系,转成图谱形态,再与百科、各种问答应用、旅游产品等联系在一起。
现在已经有许多古籍活化利用的案例,比如纪录片《穿越时空的古籍》。每一集选一个主题,用中短视频形式在卷帙浩繁中四两拨千斤。比如第一集“古籍里的盛宴”,就讲述美食家卢冉从古籍中打捞宋代的食谱,将其复原为包括“蟹酿橙”“素蒸鸭”等300多道看得见、吃得着的宋代美食。此外,服饰史学者陈诗宇通过古籍考证古代服饰,将平面的考古资料还原成立体造型,用画笔勾勒出《山海经》神兽的撒旦君、以古籍字体为母版设计4万多个艺术字的应永会、在《牡丹亭》中寻找艺术灵感的张渔,他们的故事也在纪录片中一一呈现。
“识典古籍”的负责人们也介绍,未来“识典古籍”中非常重要的一部分就是古籍活化传承,包括“古籍巡游记”,会将古籍里的一些原生场景,通过AR方式复现出来,让更多人对古籍产生兴趣。
纪录片《穿越时空的古籍》