二、攻克难关
●陈堃銶已被学校指派参加调研,恢复了正常工作,她便自告奋勇,向数学系作了汇报,没想到引起很大反响,系领导决定尽快将报告呈送北大领导。
●王选毅然决定跳过第二代、第三代排版系统,直接跨入国外还没有商品化的第四代系统,用激光扫描的方法来还原输出。
●全国各地的多家单位带着自己的研究方案和成果相聚北京,跃跃欲试,都想从中脱颖而出。
攻克最大技术难关
激光照排系统中的汉字信息处理有两个重大的根本性难题,一是汉字的储存,一是汉字字形信息的还原输出。而第一个难题显得尤为突出。
汉字的基本笔画不如字母文字多,“点、横、撇、捺、竖、弯、钩、折、提”而已,但汉字的构成却比字母文字复杂得多。字母文字的单词由字母简单排列而成,而每一个单个汉字的构成,都是笔画之间互相交错重叠,你中有我,我中有你,不可拆分。因此,汉字的一个单字实际上相当于字母文字的一个字母了。
西文只有26个字母,所以存贮量问题并不尖锐,而汉字字数繁多,《康熙字典》收入的汉字多达47000多个,常用字就有五六千个,印刷用的汉字更存在多种字体,有宋体、黑体、仿宋、楷体等10余种,而且还有10多种大小不同的字号。
汉字字形信息量太大,是中文信息处理系统最大的难题。要把汉字信息存储进计算机,就要把汉字变成点阵来表示。
一个5号字的正文字,至少需要100×100点阵,大号字体甚至需要1000×1000以上点阵。
汉字的常用字在3000字以上,印刷用的汉字多达2万多,加上每个字都有50多种不同风格的字体和50多种大小不一的字号,如果都用点阵来表示,信息量高达上千亿字节。
Digiset采用的是黑白段的描述方案,压缩率很低,对付26个英文字母还可以,对付海量的汉字点阵信息就行不通了。
汉字字形信息量大的问题,一下子成为摆在王选面前的主要难关。
日本京都大学倒是发明了一种字根组合方案,压缩率高,但质量不好。
从1946年西方发明第一代照排机开始,到1975年已经过去了30年,美国报界在1970年前后已全部采用电子排版,但中国仍然在拣铅字。
铅字印刷的痛苦深深地印在每个排版工人的心中!他们迫切地希望,有一种比较先进的技术能替代这种原始的劳作。
但是,汉字照排系统的问题却一直没有得到圆满解决。
20世纪70年代,王选有条件使用的国产计算机的磁心存贮器,最大容量只有64KB;没有磁盘,只有一个512KB的磁鼓和一条磁带,相当于美国20世纪50年代末的水平。
在这样简陋的条件下,王选不得不另辟蹊径,开始设法压缩汉字信息。
在接下来的日子,王选满脑子的汉字横竖弯勾,连做梦也尽是笔画。他的数学背景显示出意想不到的功效,王选很快想到了用轮廓加参数的数学方法描述汉字字形,这样做可以大大地压缩汉字信息。
这时,他发现,汉字虽然繁多,但是有规律可循,每个汉字都可以细分成横、竖、折等规则笔画,和撇、捺、点等不规则笔画。
对于规则笔画,可以用一系列参数精确表示;对于不规则笔划,可以用轮廓表示。他统计了一下,汉字中规则笔画的比例占了近一半,所以压缩的空间很大。
王选不停地统计和计算着,遇到问题就与陈堃銶讨论,两个人完全沉浸在汉字的一笔一画里。
1975年5月,“全电子照排系统”的初步设计方案终于完成。王选决定尽快向系里介绍这份方案,争取学校的支持。
但连续数月的劳累,使他虚弱得作不了报告。另外,他也有一点担心,担心自己“人微言轻”。
此时,陈堃銶已被学校指派参加调研,恢复了正常工作,她便自告奋勇,向数学系作了汇报,没想到引起很大反响。系领导决定尽快将报告呈送北大领导。
王选的手稿被拿到北大印刷厂打印。一些印刷工人得知他们正在研究用“电脑代替铅字”,非常兴奋,有的说:“这事真要成了,咱就不用天天跟黑乎乎的铅字打交道了。”
有的说:“每天手托着沉甸甸的铅字盘,来回拣字排版,相当于走几十里路,排好了再印刷,又脏又累,有了电脑,轻轻松松坐在那里一敲键盘就齐了。”
大家的话,给了王选很大的鼓舞,他没想到自己一个微不足道的病号只是提出了一个初步方案,就得到了工人们如此强烈的反应,说明他的研究与印刷工人们是休戚相关的,这更坚定了王选的信心。
很快,北大有关部门拿到了打印好的报告。他感到事情重大,决定立即召集有关单位开会研究。
1975年5月的一个晚上,北大数学系、无线电系、图书馆和印刷厂的联合会议在魏银秋主持下举行。陈堃銶参加了会议。
会上作出了两项重要决定:一是把汉字精密照排系统列为北大自选项目,确定了“数字存贮、信息压缩和小键盘输入”的总体方案,争取列入国家“748”工程的计划;二是从各单位抽调人员成立会战组,协作攻关。
开完会,夜已深了,陈堃銶一回到家里,就立即向王选细述了会议的情况,两人心中的感受难以言表。从1966年开始,近10年来,王选一直是个边缘人物,很多时候都有一种永世不得翻身的绝望。
直到此时,他才重新感觉到了学校、科研对他的需要,甚至感到了祖国和人民的重托。
5月的北大正是槐花盛开的季节,空气中暗香浮动,王选有些热血澎湃,他兴奋地对妻子说:“咱们又要大干一场了!”生活对于这对患难中走过来的夫妻,又掀开了崭新的一页。
万事开头难,会战组的组建是很不顺利的。数学系比较积极,派了陈堃銶、丁霭丽参加软件研制;中文系派出李一华、陈竹梅、石新春参加字模和输入方案的工作。其他系却不积极。
会战组从1975年5月筹建,直到1977年4月,始终缺乏计算机方面的教师。
王选的编制在无线电系,但他是“吃劳保”的病号,没人约束他,这也恰恰给了他进行独立思考的自由空间,可以集中全部精力来完善总体方案。
实际上,在这些人中,真正懂硬件又懂软件的只有王选,懂软件的也只有陈堃銶。在接下来的几个月里,王选一心一意地投入了工作中。
7月流火,屋里闷热难耐,王选就搬一张破旧的木椅坐在柿子树的荫凉下写写画画,进一步实现和完善总体方案。陈堃銶则把压缩信息拿到计算机上进行各种模拟实验。
数学和汉字,这两种代表不同意义的学科和符号,被王选和谐、紧密地结合起来,一系列世界首创的神奇发明诞生了:用轮廓加参数的描述方法,使汉字字形信息以1比500的比率高倍压缩;设计出一套递推算法,使被压缩的汉字信息高速复原成字形,而且适合通过硬件实现,为进一步设计关键的激光照排控制器铺平了道路。更独特的是,王选想出用参数信息控制字形变大或者变小时敏感部分的质量的高招,从而实现了字形变倍和变形时的高度保真。
印刷用的汉字根据需要有大小不同的字号,1975年,中国报纸的正文字是五号,书刊的正文字一般也是五号。因此王选把五号字看作主体字号,使其字心正好是96×96个点,成为常规计算机字长的整倍数。所以,当他把系统的输出分辨率定为742线/英寸(DPI),刚好满足书报对文字分辨率的要求。
王选后来说: