Google回帖

4月17日发布:《实验:诗歌是不可以翻译的

4月22日:谷歌翻译负责人:别用来翻译诗歌

Google
谷歌翻译负责人弗朗茨·奥奇(Franz Och)

新浪科技讯 4月20日晚间消息,谷歌翻译负责人弗朗茨·奥奇(Franz Och)今天下午在接受新浪科技独家专访时表示,由于中文资料在网络上相对较少,欢迎中国用户为谷歌翻译提供帮助。

弗朗茨负责谷歌翻译项目,这个于2006年上线的工具如今可以在41种语言之间进行翻译,用户无需学习各种外语就可以阅读全球98%的互联网资料。

不建议用机器翻译诗歌

近几天网上流传着一个名为“诗歌是不可以翻译的”帖子,在这个帖子里,一位用户借助谷歌翻译工具翻译诗歌。在经过数次翻译之后,韦庄的一首《菩萨蛮》已经变得面目全非。

弗朗茨介绍说,机器翻译的结果好坏,往往取决于两种语言之间在词汇、语法甚至文化上的差异。例如英语与荷兰语同为日耳曼语支,这两种语言间的机器翻译结果通常便会比中文与英语间对译的结果要好很多。

弗朗茨认为,诗歌翻译对于人类来说也是很困难的,更不要说机器。“如果请来三个专业人士来做同一首诗歌的翻译,他们会拿出三个不同的版本。”弗朗茨告诉新浪科技,“机器翻译出来的结果有时候的确让人感到意外。一般来说,我们不建议用户用机器来翻译诗歌。”

弗朗茨笑着说,如果可以博得一笑,那也算是一个成就。

机器翻译基于统计学

据弗朗茨介绍,在大多数情况下统计法是性能最好的机器翻译方法。通过整理庞大的数据库,将两种语言进行统计分析,从而构建出一个精妙的模型。通过此模型,机器便可以自己学习,最终实现语言间的自动互译。

早在1949年,美国数学家瓦伦·韦弗(Warren Weaver)提出了统计机器翻译的基本思想。在1993年,IBM研究院的研究人员提出了五种统计模型。但由于当时计算条件的限制和资料库的匮乏,研究人员无法实现如此大规模的运算。

直到1999年,一批研究人员写出了GIZA软件包,才实现了IBM研究院提出的模型。弗朗茨于2003年提出了更加复杂的统计模型并推出了更加高效的GIZA++软件包。直到现在,GIZA++还是绝大多数机器翻译系统的基础。

在谷歌翻译支持的41种语言中,所有与英语有关的翻译都是“直接”翻译的,不需要通过其他语言来中转。中文、日语和韩语这三种东亚语言也是直接翻译,而其他未能直接翻译的语言组合将通过英语来中转。由于翻译速度很快,普通用户无法察觉。

中文翻译需要大家的帮助

谷歌翻译目前支持41种语言,按照排列组合,这将是1640种翻译组合。对于中国用户来说,最常使用的当然是与中文相关的组合。但相对与英语与法语、西班牙语之间互译的质量,英语和中文互译的质量较差。弗朗茨认为这有两个原因:一个是这些语言之间天生有存在着某种联系,他们之间互译较为简单。另外一个原因在于,有大量的网络资料使用了这些语言,而中文互联网信息相对较少。

常见机器翻译的难处在于无法找到适当而且足够庞大的资料库,借助于谷歌搜索引擎,弗朗茨和他的团队却可以得到这样的资源。

尽管中文翻译质量并不能让人完全满意,但已经达到了谷歌内部的翻译质量标准。据弗朗茨介绍,谷歌翻译支持的语种远不只41种,但由于这些语种的资料有限,翻译质量尚未达标,有待于进一步开发。

弗朗茨欢迎大家多写双语博客,为谷歌的机器翻译提供更多资料。此外,不排除推出类似于Facebook Translate的工具,通过用户的力量来获取更多数据源。(龚民)

Google回帖》上有1条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注