正文

独步天下的谷歌算法(11)

星球Google 作者:(美)兰德尔·斯特罗斯


但是,Systran建立在规则基础上的技术只是机器翻译的一种形式。另外一种不同的方法――IBM的研究者在20世纪90年代展示出其前景的――被称为统计机器翻译。它代表了告别以规则为基础的方法而转向人工智能研究的大趋势。它不是建立在人工拟定的语言规则基础上,而是建立在由软件自己开发的翻译模式基础上。由于软件接收了数以百万计的由人工完成的译文组成的文件――例如在加拿大议会用英语发表的演讲及其官方法语译文。这个软件注重寻找句型、对比词汇和短语,从A语言的第一段第一句以及它在B语言的相对应的句子开始。仅仅对照一组文件,推导出来的结论当然少得可怜。而一旦对照的文件达到数百万组,那么一种语言中的句型和短语在目标语言中具体用什么方式表达,就可以根据统计材料推导出来。统计机器翻译是谷歌研究人员在2003年初才开始研究的方法。

谷歌采用联合国的多语种文件作为训练材料,向它的算法输入了2000亿个单词并让这个软件算出了每一对语言之间配对的句型。这个结果是显而易见的。谷歌的说英语的程序员虽然不具备阅读汉语或阿拉伯语的能力,也根本不懂汉语或阿拉伯语的语音、语义或语法,但他们却设计出了一个能够自学的算法,它可以提供准确的、有时甚至是相当流利的译文。在2005年的一次会议上,谷歌第一次公开地讨论了它所进行的工作。为了证明统计机器翻译能够处理足够大量的翻译文本资料,特意用阿拉伯语报纸上的一段新闻提要的两种英文译本进行了演示。第一种译文由以规则为基础的Systran软件提供,它将那段阿拉伯文显示为“阿尔卑斯山白色的新出场的磁带注册为咖啡批准拉登”;第二个来自谷歌刚刚问世的程序,它显示了一段完全不同的译文:“白宫证实有新的本?拉登磁带存在。”

谷歌的翻译算法在记者招待会这类有人监控的场合表现似乎令人印象深刻,证明它在独立的测试中也站得住脚。的确,它的表现非常之好。2005年,谷歌第一次参加由国家标准与技术研究所主办的机器翻译软件年度竞赛,这个赛事吸引了来自大学、公司、政府实验室和商业软件制造业的研究人员。谷歌在有11个入选者参加的阿(阿拉伯语)译英比赛中名列第一(IBM名列第三,Systran名列第七),在有16个参赛者的汉译英比赛中也名列第一(IBM名列第六,Systran名列第十二)。这对一个新手来说是个不错的成绩。

在这次比赛中,基本的测量手段是将机器制作的译文同被视为“黄金标准”的人类翻译家提供的参考译文进行比照。从0到1的得分情况表明机器翻译与人工翻译的吻合度――1表示完全吻合。分数是一个最直接的计算问题,它由评估软件自动完成,减少了人工评判的主观性。同样的软件也曾被用在比赛之外。研究人员可以对算法进行微调,将测试文件输进去,马上就可以看到,在翻译质量可测量的改进中,结果是否发生了变化。

谷歌不仅利用双语平行文本建立了一种翻译模式,它还用软件创造了单语种的“语言模式”,对由翻译模式制作的任何译文进行润色,使之更加流畅。“算法”在大量具备专业水准的文献中寻找句型,进而教会自己识别哪些是地道的英语表达方式。恰巧,谷歌已经在它的服务器中使用了一个这种类型的文集――由“谷歌新闻”所检索的报道。即使“谷歌新闻”的用户总是被导向新闻机构的Web网页,但谷歌仍将贮存的新闻副本馈送给它自己的算法。人们偶然发现,这个经专业手法润色的文本宝库――截至2007年4月已经收集了5亿字――是个使用起来极其方便的训练用文集,绝对适合于教会机器流畅地使用英语。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号