该论文集汇集了实验室最新的一些研究成果,一定程度上反映了该室的研究方向和研究范围,涉及语言处理、语音分析和语言应用三个方面,所以书稿分三大部分编排。作为首次出版的实验室论文集,作者特别编辑了近年发表的主要论文目录作为附录,以方便读者进行学术交流。本书前言回顾起来,语音学与计算语言学重点实验室迄今已走过了整整20个年头。初创当时,机房已经有了一些先进装备,除了一台身躯庞大的国外小型计算机和一大堆打孔卡片之外,还有一套配备台式计算机的语音分析设备(语图仪)。正是在这些设备的支持下,研究室的科研人员同心协力、默默耕耘,历经从小到大、成果积累的漫长阶段,铸就了两个学科的成长,形成了今天中国语言学界颇具影响力的民族学与人类学研究所实验语音学学科和计算语言学学科。在学术发展的道路上,实验室的两个学科都经历了从描写到理论分析乃至社会应用的过程。实验语音学初期的目标是关于中国民族语言的语音基本要素分析,解决民族语言学界对各种民族语言语音的定性描述,包括音高或声调,声母和韵母,如鲍怀翘教授等发表《佤语浊送气声学特征分析》(1990),《蒙古语察哈尔话元音松紧的声学分析》(1992),《藏语元音声学分析》(1995);孔江平教授发表《道孚藏语双擦音声母的声学分析》(1991),《紫云苗语五平调系统的声学及感知研究》(1992),《苗语浊送气的声学研究》(1993);江荻教授的《论藏语声调高低分化的嗓音机制》(1998)等。这些研究不仅积极支持了民族语言学界深入开展描写和语言历史的研究,而且还为本学科的深度发展铺垫了基础。进一步的发展则开辟了两个新的研究领域,一是注重建立各个少数民族语言的声学参数数据库,二是开展嗓音基础理论研究。经过多年积累,研究室已建立了藏语拉萨话的语音声学参数数据库、哈萨克语语音声学参数数据库、蒙古语声学参数数据库,这一系列中国民族语言语音声学参数数据库的建立和研究极大地推动了我国民族语言语音学研究水平,为民族语言语音研究开创了一个崭新的局面。嗓音研究方面,孔江平教授承担了自然科学基金和院重点基金多项嗓音声学课题,录制了多种民族语言的语音数据,发表多篇研究论文,例如《汉语普通话嗓音特征相关分析》,《哈尼语发声类型声学研究及音质概念的讨论》,《汉语普通话嗓音抖动及波动的声学研究》,《汉语双音节调位的矢量量化(VQ)》研究等等。近年,实验室还开展了动态腭位的研究,如鲍怀翘、郑玉玲《普通话动态腭位图数据统计分析初探》,以及普通话塞音、塞擦音成阻持阻时程的统计分析等等。计算语言学方面,实验室从基本语料开始着手,首先构筑学科建设的基础,所谓兵马未动粮草先行。第一步是研制出面向藏语文本处理的大型电子机载词典和一定数量的标注文本语料,这项研究有力地推动了学科的发展。通过对静态和动态藏语语料的统计研究,摸清了藏语文本的基本句法和信息特征,发表了《藏语计算机统计用语料抽样文本的遴选》(1999)、《书面藏语的熵值及相关问题》(1998),以及《藏文的音韵结构及频度现象》(1998)等多篇论文,为下一步工作铺好了前进的道路。其次,开展了藏语文本语料库的特征分析,提出了藏语文本词根归一化方法,设计了第一个藏语分词基本规则以及依据句类自动分句的原则。期间还发表了《语篇索引技术在藏文文本中的应用》(1999)、《藏语拉萨话现在时的标记及功能》(1999)、《藏语计算机自动分词的基本规则》(2000)等论文。近年,计算语言学科开始构筑较全面的藏语信息处理的基本平台和工具,包括藏语的排序、检索,句法属性标注集,组块分词方法以及最迫切的面向机器处理的句法本体系统研究。这个时期所发表的论文体现出学科开始走向成熟的趋势,研究内容逐步深化。如《现代藏语的句法组块与形式标记》(2003)、《现代藏语谓语动词的识别与信息提取》(2003)、《书面藏语排序的数学模型及算法》(2004)等等。这些研究无论从国外研究状况还是从国内研究进展来看,都处在藏语文研究的前沿,也标志着当代藏语计算语言学和语料库语言学的发展趋势。而最近我们开始构建的面向文本处理以及机器翻译的藏汉双语语法信息词典则表现出本学科未来的进程和发展方向。除了以上两个主要学科之外,实验室研究人员利用信息技术手段积极参与民族语言的应用研究。如郑玉玲副教授主持开展了“藏缅语语料库与比较研究的计量描写”课题,发表《计算机进行藏缅语相关分析尝试》等多篇论文。而在民族语言类型学研究方面,江荻教授协助语言类型学课题组采用语料库语言学的方法进行文本处理,完成了机器抽取词语单位、自动生成文本词表、以及对文本进行词法、句法、语义属性标注,有力地配合了该项目的顺利进行。另一项颇具影响的应用是我所与香港科技大学合作研制出的“汉藏语同源词研究计算机检索系统”(2002),该系统共收集国内外最重要的语言或方言130余个。其中包括汉语方言、中上古汉语以及南岛语构拟以及藏缅语、苗瑶语、壮侗语、南亚语、南岛语等多种代表性语言或方言。除此之外,系统中还装入了汉语与民族语言对照词典十余部。至于检索方法更是多种多样,汉语检索、英语检索、民族语言检索,还可以采用语义类别检索、组合检索等等。其他应用方面,实验室近年还初步开发了“语言地理信息系统”(2003)、“藏文文本扫描识别系统”(2004)以及“中国民族语言研究论文文摘数据库”(2000)和“《元朝秘史》全文检索系统”等多个项目。按照重点实验室的五年计划和十年规划,实验室还将开展一系列可持续发展的研究项目。如中国语言的动态腭位分析和韵律分析,民族语言的声学参数数据库,建立部分民族语言的语音图谱档案。计算语言学方面,将在已有研究基础上迈进更深层次的研究项目,包括面向机器处理的现代藏语句法规则研究,藏语机器自动处理研究的平台和工具研制。现代藏一汉一英多语机器自动翻译系统,以及更基础性的机载藏语语法信息电子词典和现代藏语本体知识体系研究。而在语言应用研究方面,实验室希望通过中国民族语言资源联盟的建设项目,联合国内研究机构和高校对我国民族语言资源进行全面汇总,建立技术开发和支持平台,该项目的实施将使我国形成最具完整性、系统性、规范性和权威性的中国民族语言国际性资源基地。并可与国际“语言资源联盟”以及国内“汉语资源联盟”全面链接。在20年的创业发展过程中,实验室相继培养了一批批出色的科研人才。曹雨生教授积极为年轻人创造研究机遇,争取项目,开展学术交流,使实验室呈现朝气蓬勃的发展局面。现任国际语音学会理事的鲍怀翘教授退休后仍一直活跃在语音学界,有力地带动了实验室的语音研究工作。沈米遐工程师严谨的工作作风和宽厚的为人理念可以说是实验室团队前进的粘合剂。陈嘉猷副教授是实验室资源和设备的总管,多年来不曾出过毫厘差迟,而这股韧劲在研究上也表现出特有的认真,保证了实验数据的准确和可靠。郑玉玲副教授可以说是科研上的多面手,她开发研制的藏缅语数据库曾荣获国家科技优秀成果奖,而今她进一步在语音韵律和腭位分析方面努力,始终保持学术研究的进取精神。孔江平教授长期致力于研究我国语言的嗓音声学分析项目,他用高速摄影技术采集的动态声带振动影像令学界叹为观止,而他所构建的中国语音嗓音分析方法将深刻影响未来中国语音研究的方向。江荻教授特别执著于藏语的计算处理,从最基础项目做起,逐步构建出藏语自然语言处理的基本平台、操作框架和理论。这本论文集汇集了实验室最新的一些研究成果,一定程度上反映了我们的科研动向和研究范围。其中还有我院研究生院研究生或高校交流研究生的创作。论文涉及的范围正如实验室的科研方向,包括了计算、语音和应用三个方面,因此分三个部分编排。作为首次出版的实验室论文集,我们特别编辑了近年来我们发表的主要论文目录作为附录,以方便今后的学术交流。在这本论文集出版之际,我们要感谢中国社会科学院科研局的支持和资助,感谢研究所领导的帮助,郝时远所长自始至终关心和督促论文的汇集和编辑,亲自帮助联系出版事宜,撰写序言。黄行副所长不仅参与课题研究,还帮助协调实验室科研计划、积极推动研究室的工作。当然我们还要感谢关心和帮助发展民族语言自然语言处理的各界专家、朋友,以及国家相关机构的政府官员,特别是国家自然科学基金委的资助,正是在他们的支持下,我们的学科才能健康发展。这本论文集可以看作我们对社会、对学界的回报。我们真心希望大家继续支持我们,在中国民族语言文字研究领域,大家的支持永远是我们可以倚重和信赖的力量。2004年于北京金秋十月