最近,复旦大学文科资深教授陈尚君先生最新著作《我认识的唐朝诗人》由中华书局出版。陈先生长期从事唐代文学与历史基本文献的校订与研究工作,而本书的特别之处就是作者对文献的充分占有和专业使用,以及作者冷静客观的叙述和真情实感的流露。
《我认识的唐朝诗人》,陈尚君/著,中华书局,2023年2月版
纵观全书,五十余位唐朝诗人的真实生活状态一一鲜活呈现。可以说,本书是围绕“人”而展开,只是人物主角的活动时间是离我们有点远的唐朝。
最近微软(OpenAI)开发的ChatGPT为代表的人工智能(百度在16日推出了其生成式AI产品、大语言模型“文心一言”)引发海啸般的广泛关注,成为最热门的话题。它们能够利用大型语言模型,经过反复校正沟通后,可生成具有特定结构和语言风格的文本,如散文、诗歌等。
笔者尝试结合陈先生《我认识的唐朝诗人》一书,和ChatGPT3.5做一些互动,看看谁更“认识”唐朝诗人。
01 ChatGPT“认全”唐朝诗人了吗?
首先,我们就这本书提供的一组数字对AI做一个测试。对于数字来讲,AI不需要特殊的语义转换,只需要根据AI所搜集到的数据进行简单的加减即可。向ChatGPT提问的这个问题,各种搜索引擎也能在头部位置显示答案,问题如下:
为了提高答案的准确度,我们采用了两种表达方式分别询问,得到的答案差别却很大。第一种回答“2.2万余人”“5.4万余首”,第二种回答“两千多位”。
根据清康熙年间编纂的《全唐诗》,收诗人2200多位,诗歌48900多首,加上陈尚君先生《全唐诗补编》收录诗人1600多位,其中新见诗人900余位,诗6327首,唐诗总量为48900+6327=55227(首)。陈先生书中提道:
五万多首唐诗,近四千作者,每篇皆曾阅读校写五到十遍,每人皆穷搜文献,务知始末,名家固得了然于心,仅存单篇只句者亦未敢轻忽。
《全唐诗(增订简体本)》(全十五册)
从数字上可以看出,陈先生真正做到了在文献上的全面占有,并且对每首诗和每个诗人都了然于心。ChatGPT的数据集采集截至时间为2021年9月,而早在1992年10月出版的《全唐诗外编》就已对存世唐诗数量进行了厘清。在百度百科中早有词条显示:
加上《全唐诗外编》原有成果,《补编》共收诗六千三百二十七首,句一千五百零五条,约为《全唐诗》作品的七分之一;收诗人一千六百多位,其中新见者九百余位,接近《全唐诗》诗人的三分之一。至此,唐诗作品存世者正式已知诗达五万五千七百三十首,句计三千零六十条;所涉唐代诗人三千七八百位。这还不包括1992年夏天在湖南长沙唐窑出土瓷器上所题的几百首唐诗。
因此,ChatGPT对于唐诗总数的回答是基本准确,而对唐朝诗人数量的回答不一,前后相差十倍,第一个回答 “2.2万余人作过诗”,是第二种回答“两千多位”的近10倍。
《中国三十六诗仙图》(局部),【日】狩野常信 绘
但第一个答案中“作过诗”的表达,似ChatGPT在故意玩弄一个文字游戏,毕竟“作过诗”可以理解为唐朝人会一定的音韵格律技巧就能来上几句而成为诗人,而不一定有作品被记录下来。
从这一“回合”来看,陈先生占据文献的原始出处,优势非常明显。关于唐诗、唐朝诗人数量的数字早已经公开,而ChatGPT数据集却没有采集到这组数字,说明在数据统计上,ChatGPT还没有“认全”唐朝诗人。
02 ChatGPT是怎么“认识”唐朝诗人的?
唐诗“大数据”相对容易获取,具体到每一个活生生的诗人,ChatGPT又是怎么“认识”的呢?
以晚唐诗人温庭筠为例,他生前屡受挫折,死后还背了一千多年的“浮浪”之名,被冠以“恃才傲物”“轻薄无行”的恶谥。诗歌方面,他与李商隐齐名,时称“温李”。词作方面的成就更高,被尊为“花间词派”的鼻祖。
然而,温庭筠虽多次参加科举考试却均以落榜告终,名声在外,然无人赏识,一生郁郁不得志,这是为什么呢?《我认识的唐朝诗人》中有一篇文章《温庭筠的早年经历:从有志青年到文场浪子》详细记录了温庭筠早年所经历的事情:
近四十年前,我重加研究,认为李仆射就是写出《悯农二首》的著名诗人李绅,并根据李绅生平,推测温庭筠的生年为贞元十七年(801),详拙文《温庭筠早年事迹考辨》(《中华文史论丛》,1981年第2辑)。由于温庭筠生年大幅度推前,他在四十岁以前的早年生活经历也引起学者更多的关注,对他的存世作品,学者做了许多全新的解读,看到他从一个衰落的世家走出,曾有积极用世的雄心,一连串的挫败后,弃而浪迹文场,游戏青楼,以另一番成就留名青史。
温庭筠画像
就着这样一个问题,我们尝试让ChatGPT回答一下。
回答之前我们先了解ChatGPT的基本原理,即通过语料的训练有目的地学习人类语言知识和模式,从而生成高质量的文本。
就此,笔者反复提交问题,不断修正,终于从类似小学生写作的概述文字变成如下的回答:
ChatGPT回答中有几处明显的错误,其一,温庭筠是宰相温彦博的裔孙,而非儿子。其二,温“出生在一个富裕的家庭中”并不符合,从“道直更无侣,家贫唯有书”(《赠卢长史》)的自述可知,在他出生的年代,温家已经颇为寒苦了。其三,正史中并没有记录哪个女诗人和温庭筠有关联,但据“风月小报”的消息,和温庭筠有过交集的女子并非“薛涛”而是女道士“鱼玄机”——《唐才子传》之鱼玄机载:“与李郢端公同巷,居止接近,诗筒往反。复与温庭筠交游,有相寄篇什。”与鱼玄机交游并写诗相寄的诗人有很多,温也只是其中之一。薛涛是与鱼玄机、李冶、刘采春并称为唐代四大女诗人,与之有交集的应为诗人元稹。
鱼玄机画像
掌握全网数据集的ChatGPT在描述温庭筠的人生经历时,并没有准确而生动的文本生成;陈先生的文本则从史实出发,相互映照,将温的出生年提前11年,并分别从“早年的出塞与入蜀”“甘露事变前后”“入东宫陪游太子及其影响”“开成末之登第罢举”直到最后“索性就在红尘中做一个浮艳才子”,还原了温跌宕起伏的前半生,也为后半生里,科举无望,只能堕落红尘的行为埋下了伏笔。才华横溢却流连花丛,终落下浪荡之名声,却“以他的深厚造诣写作此类作品,开创了以隐约迷离、秾艳绮丽为特征的新的文学语境”。温庭筠的人生不幸却成就了“花间派”词的创作,他也被尊为“花间词派”之鼻祖,并与韦庄齐名。
《温庭筠全集校注》
从温庭筠一文中,陈尚君先生坚持现在传记文学的立场,“是真实全面而生动地写出传主一生之经历和事功,他的时代、他的家族、他的交往、他的言谈,不允许任何的虚构,也不作刻意的掩饰和拔高”。
限于ChatGPT对数据集的使用和学习,在有限的数据集中,人工智能不能做到甄别有主观倾向性的那些数据,而只能当作素材堆砌到生成的文本中;而人类凭借人文、历史、哲学等学科的训练,虽不能做到绝对的客观公正,但能甄别文献的真假,并能对有主观倾向的材料做出一定的判断,使之成为可供电脑采集的准确数据集以及供后人进一步甄别判断的材料。
从一定意义上说,人工智能也是在延续人类的思想。从今天对比ChatGPT和人类对于唐朝诗人的理解,无疑人工智能还无法理解唐诗,更不能真正地“认识”唐朝诗人的人生。
本文首发于微信公号“中华书局1912”(微信号:zhonghuashuju1912),原题为《ChatGPT“认识”唐朝诗人吗?》。