语言是一个系统,具有层级性,音义结合的双面单位从低级单位到高级单位依次是语素(字)、词、短语、句子、篇章等。高一级单位是由低一级单位按照一定规则组合而成的,如果能够系统地总结出这些规则,就可以提高计算机语言信息处理智能化水平,加快中文信息化的发展,同时对于辞书编纂、语言教学也有积极的推动作用。这些规则实际涉及到语法的、语义的甚至语用的,而且还涉及到读音等。按照以上的认识,近些年我们进行了系统的现代汉语语言资源开发,从字(语素)到构词、到词义网、到新词语、句法语义多信息标注语料库,再到汉语拼音词汇数据库、方言有声资源库等,逐步构建现代汉语综合语言知识库。这样我们开发的大规模语言资源实际包括两大部分:(1)语言知识库,主要是针对语素(字)、词这两级语言单位的,包括《汉字义类信息库》、《汉语语义构词信息库》、《新词语电子词典》、《新编同义词词林》、《汉语拼音词汇数据库》、《方言数据库》等;(2)大型标注语料库,包括短语、句子级的,对真实文本标注词性、句法成分、语义角色、词义等信息的语料库,篇章级的文本蕴含信息库、中小学生语言偏误语料库等。语言知识库是辞书编纂需要的基础知识和资源,选词立目、注音、词性标注等都依靠这些知识。大型标注语料库可以使原始语言资源结构化、数据化,是计算机辞书自动生成的基础,至少也为辞书编纂中的选词、释义、词性标注、配例等提供便捷手段和丰富的资源,提高辞书编纂的速度与质量。