18年的缘份,妙不可言
回想起来,我与语音合成这个研究方向已经结缘十多年了。这缘分源自于硕士入学之初的一次选择。
当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,信号处理专业有两个方向供我们选择,图象处理和语音处理,当时图象处理很热,好几个同学想选,我就决定不凑热闹了,选了语音处理。后来发现这个方向还蛮有意思的,就开始投入其中。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。就这样,我的硕士、博士论文工作奠定了我之后长达十多年的研究兴趣。
大家都说爱一行,干一行。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。我一直觉得自己是个很专注的人,但是仍不敢想象这种执着竟坚持了这么久。
语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。
而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室,在那里,我们进行了各式各样的录音实验,这也是木兰会有很好的音质的一个重要保障。
期盼再做一次“妈妈”
到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。
有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?
是呀,随着互联网技术的发展,我们可以接触、收集的数据量迅速增长,面对这样大规模增长的数据,我们能做什么呢?应该怎么做呢?如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题,对我也产生了强烈的吸引力。于是,就在2007年,我做了一个重要决定,扩展一下自己的研究领域,从语音组转到了以数据为中心的计算组,开始了一段新的研究历程。
将来会怎样,我无法预期,但我充满信心的期待着下一个硕果累累的十年,希望自己能孕育出另一个木兰,再做一次妈妈。
作者介绍:
初敏,2000年3月加入微软亚洲研究院,从事语音分析与合成、韵律模型和文语转换等方面的研究,她主持研究的木兰中英文双语文语转换技术成功的应用于微软的新一代操作系统Vista之中。2007年开始,初敏致力于将各种机器学习和数据挖掘技术用于大规模数据的分布式计算。工作之余,她最大兴趣是游山玩水,希望有生之年能走遍祖国的山山水水和世界的角角落落。