揭秘微软亚洲研究院：微软的梦工场 - 第89节：“掌上”视频拉近你我的距离(1)

“掌上”视频拉近你我的距离

作者：李江

2004年6月，美国知名的学术杂志麻省理工学院《技术评论》在当月的封面赫然放上了“微软肖像”的巨幅图片，并且把微软亚洲研究院誉为“世界上最火的计算机实验室”。作为被编辑有幸挑选出来成为最能代表研究院创新成果的技术，“微软肖像”随着杂志的甫一付梓，越来越多地受到了全世界计算机学术界和工业界的关注。它也让更多的读者相信在科幻作品中虚构出来的那些移动视频通信技术终于可以在现实生活中看到端倪了。

(2004年6月，麻省理工学院《技术评论》以“掌上视频”为封面照片，用六页的篇幅全方位报道了微软亚洲研究院的历史和成果)

N多双眼睛的集合

如今，随着手机功能的日益强大，通过手机拍照或者录制一段视频已经屡见不鲜了，可是，通过手机进行实时视频通信却仍然没有普及。早在2001年，由微软亚洲研究院多媒体通信组研发出的“微软肖像”软件，就已经较为逼真地实现了双向交流的实时视频通信。这一技术不仅可以支持个人电脑、掌上电脑、手持电脑等设备，而且可以运行于局域网、拨号网络，甚至带宽为9.6千比特/秒的无线网络。特别值得一提的是，这项技术还具有自适应性。如果用户只有低带宽网络，微软肖像就会传送黑白视频；而如果用户拥有较高的宽带的话，则可以传送真彩色的视频。在低带宽时，相比传统的视频技术而言，肖像视频能够提供更清晰的轮廓、更流畅的运动，并且具有更短的延时以及更低的计算消耗。“微软肖像”是我在微软亚洲研究院参与过的第一个重要项目，也是持续时间最长的项目之一。

从2001年8月18日“微软肖像”第一个版本的诞生，我们组就把这个技术上传在微软研究院网站上供用户自由下载。令我们感到意外的是，虽然这还是比较稚嫩的第一个版本，但是用户对它的反响还是很不错的。因为随着掌上电脑在当时的问世，很多用户也很想在上面看看通话状态的对方是什么样子，而之前从来没有这样一种软件出现过，所以，有段时间，大概有几万用户下载试用了我们的软件，使得“微软肖像”成为了微软研究院网站上下载量最大的软件之一。

很多用户在下载了我们的产品后，非常巧妙地将这项技术应用在了日常生活或者工作环境中，给他们的生活与工作带来了很大的便利，于是他们也纷纷通过网上留言的形式把这些新奇的用法分享给了我们团队。

我印象比较深的是两个外国朋友对这项技术独具匠心的使用故事。John是一位新生儿的父亲，当周末妻子出去购物，留下他和孩子两个人在家的时候，他时常为寸步不能离开孩子而烦恼。当他从网上下载了“微软肖像”之后，他在婴儿床前按了一台摄像头。于是他可以带着掌上电脑随心所欲地在房子的每个角落活动，通过视频观察孩子的一举一动，他甚至还能放心地在院子里除草，而这往往是周末最占用他时间的一项劳动了。

Peter是一家医院的见习医生，经常会轮到晚上值班巡视病房的差事。可是因为住院病人多，医生少的缘故，很多发生突发情况的病人往往无法得到及时的救护。于是，当他拥有了“微软肖像”技术之后，他在巡视某一个病房的时候，也可以通过掌上电脑看到安在其他病人床前的摄像镜头做提供的情况。他可以在移动中实时“观察”每个病人，一有紧急情况便可以跑过去处理或者通知其他医护人员。Peter说有了“微软肖像”，就像有了N多双眼睛同时在帮他巡视病房。

上面的主人公只是很多用户中的两位。他们对这项技术的认可和别出心裁的应用也极大鼓舞了我们对“微软肖像”不断改进的信心。直到2007年5月20日，我们组推出了最近也是最新一款试用版本为止，细数下来，“微软肖像”前前后后经历了20个版本的更新和改进。在这八年中，“微软肖像”项目也经历了一段曲折的发展历程。

难题迎刃而解

退回去想想，也许你很难想象2000年时9.6千比特/秒的手机网络的带宽能做些什么？可是，就在当时网络带宽较低的情况下，我们便在捉摸：如何实现移动设备的可视通信呢？显然用传统的彩色视频技术是实现不了的，因为彩色视频对传输速度和网络带宽的要求都比较高。9.6千比特/秒的带宽就把这个可能给否决了。另外，既然是手机，CPU的处理能力就不如台式计算机那样强大，所以本来在台式计算机上运用的视频压缩和解码技术就不能被照搬到手机上。我们就要对压缩和解码算法进行一些简化，才能最终运用到手机上。在综合考虑上述两种条件的基础上，我们开始了“微软肖像”的研究。

当时，在跟我们的研究主管、视觉计算领域的专家沈向洋博士讨论中，我们认识到：既然，视频压缩技术已经相当成熟，想要从这方面寻求突破几乎不大可能，那么是否可以结合视觉技术从数据本身来寻求解决呢？要进行实时通讯，使得你讲话的意思能够被对方了解，除了语音之外，表情也很重要。那么表情怎么来传递，我们就想到了用线条的方法来传递，想着用线条的方式带宽是不是就可以占用得少一些。

当时我们注意到，在实时视频通信中，人们对图像的要求，并不像在定睛观看一幅图画时那么高。人们不太注意形象，而更注重表情；不太注意细节纹理，而更注意整体轮廓。从这个意义上而言，在视频通信中，通话者大脑真正感兴趣的有效信息并不多，所以通过提取通话者的表情轮廓和线条等简单信息，就可以有效表达一帧视频的绝大部分内容。如果只压缩和传输这部分用线条表示的信息，将会大大降低计算和通信的负荷。

静态“素描”一帧的线条虽然看上去依稀可辨，但是如果要实现由静至动，让多帧静态“素描”连续动起来，就会出现很多问题。首先，在光线强度常易变化等条件的影响下，两帧之间的过渡非常不平稳、闪烁不定。另外，用线条表示出的通话者头发，因为其发迹覆盖处没有黑色填充而显得非常的不自然。在这种情况下，我们研究组就想到用“二值视频”技术来解决这两个问题：在0-256之间确定一个亮度的阈值，图像像素灰度值高于该值则为白，低于该值则为黑。非黑即白（一般用1和0表示）。这种技术不只区分出了线条，而且内部什么地方是白，什么地方是黑，都可以填充进去，这样头发的问题就解决了。