正文

第77节:找到属于自己的关键词(1)

揭秘微软亚洲研究院:微软的梦工场 作者:微软亚洲研究院


找到属于自己的关键词

作者:刘铁岩

在研究院工作快5年了,没想到电子工程出身的我会和SIGIR ,这一信息检索领域的顶级会议,结下如此的不解之缘。

从2004年到2008年,自己在信息检索这个方向上走过的道路,也是自己在微软亚洲研究院不断成长的过程:从熟悉信息检索这个领域,量身定做地投出第一篇SIGIR论文,到提高研究能力和写作技巧,到确定自己的主攻方向,到为引领一个研究学派而努力。

期间的收获和感悟颇多,写下来愿与大家分享。

第一年:“发表第一篇SIGIR论文”

我毕业于清华大学电子工程系,博士论文工作是关于视频信号处理的,如视频切割、关键帧抽取、视频总结等。2003年加入微软亚洲研究院,2004年转入互联网搜索与挖掘组,从此开始了对信息检索这一全新领域的探索。

这次转行没有想象的那么艰难,因为微软亚洲研究院在信息检索领域已经有了很多的成果,在SIGIR上也发表了不少论文。有这么好的一个平台,可以通过和同事们的交流很快进入状态。

但是过程并不轻松,毕竟信息检索领域几十年的历史沉淀了很多的知识和经验,需要一点点去体会和掌握。为了更快更好地掌握这些知识,我和我的实习生们一起,在组内开展了一系列的讲座,包括《现代信息检索》、《最优化方法》、《统计机器学习》等等。经验证明,这种方法十分有效:自己看书学习是一种感觉,要能够在众人面前把东西透彻地讲出来,是另外一种境界。虽然不得不花很多的功夫,但是这个过程为我和我的实习生日后在信息检索领域的研究打下了坚实的理论基础。

在提高基础知识的同时,我们也开始通过阅读论文,以及和同事的交流来了解SIGIR这个会议。当时的愿望很朴素:能够尽快地像其他同事一样,在SIGIR这个顶级学术会议上有论文发表。通过阅读论文,我逐渐发现SIGIR其实是个很传统,很重视经验结果的会议。SIGIR的论文通常都有很翔实的实验结果,因为只有这样才能验证所提出的算法在海量信息处理中是否有上佳的表现。作为进入这个领域的第一个尝试,我决定“投其所好”,为SIGIR“量身定做”一篇有关经验比较的论文。

当时研究院正在参加TREC 比赛。这个比赛中有一个任务叫做Topic Distillation,其目的是找到与所查询主题最相关的子网站入口,也就是说即便有的时候子页面比父页面更加相关,我们还是希望返回父页面。为了解决这个问题,我们提出把网页里的关键词按照网站结构向父页面进行传播。经过实验验证,这个方法非常有效。于是我就想,是不是还有其他类似的做法呢?除了关键词以外,我们是否可以把网页的相关性得分(relevance score)进行传播?除了沿着网站结构以外,我们是否还可以沿着超级链接结构进行传播?有了这个想法以后,我们对以往的相关文献进行了调研,发现确实有人做过把相关性得分沿着超级链接进行传播的尝试。这就启发我对以上提及的各种传播方式进行系统的对比研究。于是我把所有相关的方法进行列举、分类,并对其进行了大量的实验比较,并最终得到了很多有意思的结果。我按照自己总结的SIGIR的“范式文本”,把这些比较结果写成了一篇论文,提交给了SIGIR 2005。最终这篇文章被录用了。虽然有些幸运的成分,但是不管怎么样,通过“模仿”,我的SIGIR之旅正式启航了。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号