失望到胃溃疡

在《越来越敬佩李开复君了》一帖中,我预言谷歌的流量将会因为央视报道而爆增。这个判断是基于对传播的理解和对网民心态的把握,于是今天收到了一封信:

《和菜头你果然说对了!》

6月18日18点 google.cn流量综合排名22名,每百万人访问人数25100,而到了今天也就是6月21晚20点,综合排名已升至20,百万访客26700。

6月18日:
Google

6月21日:
Google

我不想讨论是非曲直,我只懂起码的原理。当年如果手抄本《少女的心》不被禁,后来就没有那么多人把它封若神明,敢冒流放新疆的风险继续手抄。其实,这本书情节简单,描写僵硬,动作缺乏创意,是A书中的劣作。央视把Google和淫秽画等号,结果就是搬起石头砸了自己的脚。看似是拿住了Google的命门,其实是为Google做了免费宣传。就像老笑话里说的那样:您这是来打猎,还是来卖淫的?【注】

其实,游戏规则是这样的:Google可以被批评,但是绝对不敢真的封掉。封杀Google,那是世界新闻的头条,不可能冒这种天下之大不韪。更何况,今年秋天奥巴马还要访华。所以,在这条底线之上,央视无非也就是想让Google不舒服一下,Google也就装作很惶恐的样子一下,大家都表演一下,事情也就过去了。无非是Google向百度学习,上点广告费,于是大家都是好朋友,以前都是误会误会,哈哈哈哈,不打不相识么,不打不识相么。

可惜的是,央视开了N个频道炮轰Google。一周Google也才上升了3位,这就暴露了一个事实:央视的影响力在急剧下降。以前听说央视的许多节目收视率已经在5个点一下,我还不相信,觉得中国笨蛋多,怎么可能一夜之间都喝了脑黄金。从网友提供给我的统计数据看,还真有许多人喝了脑黄金,除了电视剧和天气预报,已经根本不看了。如果影响力巨大,那么这种联播轰炸算是一种威胁。现在看来,一周才上升3位,那就不是威胁,而是诈和。

本以为Google可以因此一跃而起,和百度一较长短。万没有想到,央视已经败落若斯。不由得心若死灰,失望到胃溃疡发作。

【注】有一个猎人到森林打猎,遇到一只熊,猎人与熊经过一翻搏斗后,猎人被熊打败了,熊并不饥饿,它没有吃掉猎人而是把猎人强奸了。一段日子后,猎人又回到森林找熊报仇,一翻搏斗后,猎人第二次被打败,此时熊并不饥饿,没有吃掉而是再一次强奸了猎人。又过了一段时间,猎人又再一次到森林找熊报仇,猎人依然被熊打败又遭了一趟强奸。猎人第四次到森林里找熊报仇,人熊对持时,熊极不耐烦地猎人大吼:“你丫到底是来打猎的还是来卖淫的?!”

Google回帖

4月17日发布:《实验:诗歌是不可以翻译的

4月22日:谷歌翻译负责人:别用来翻译诗歌

Google
谷歌翻译负责人弗朗茨·奥奇(Franz Och)

新浪科技讯 4月20日晚间消息,谷歌翻译负责人弗朗茨·奥奇(Franz Och)今天下午在接受新浪科技独家专访时表示,由于中文资料在网络上相对较少,欢迎中国用户为谷歌翻译提供帮助。

弗朗茨负责谷歌翻译项目,这个于2006年上线的工具如今可以在41种语言之间进行翻译,用户无需学习各种外语就可以阅读全球98%的互联网资料。

不建议用机器翻译诗歌

近几天网上流传着一个名为“诗歌是不可以翻译的”帖子,在这个帖子里,一位用户借助谷歌翻译工具翻译诗歌。在经过数次翻译之后,韦庄的一首《菩萨蛮》已经变得面目全非。

弗朗茨介绍说,机器翻译的结果好坏,往往取决于两种语言之间在词汇、语法甚至文化上的差异。例如英语与荷兰语同为日耳曼语支,这两种语言间的机器翻译结果通常便会比中文与英语间对译的结果要好很多。

弗朗茨认为,诗歌翻译对于人类来说也是很困难的,更不要说机器。“如果请来三个专业人士来做同一首诗歌的翻译,他们会拿出三个不同的版本。”弗朗茨告诉新浪科技,“机器翻译出来的结果有时候的确让人感到意外。一般来说,我们不建议用户用机器来翻译诗歌。”

弗朗茨笑着说,如果可以博得一笑,那也算是一个成就。

机器翻译基于统计学

据弗朗茨介绍,在大多数情况下统计法是性能最好的机器翻译方法。通过整理庞大的数据库,将两种语言进行统计分析,从而构建出一个精妙的模型。通过此模型,机器便可以自己学习,最终实现语言间的自动互译。

早在1949年,美国数学家瓦伦·韦弗(Warren Weaver)提出了统计机器翻译的基本思想。在1993年,IBM研究院的研究人员提出了五种统计模型。但由于当时计算条件的限制和资料库的匮乏,研究人员无法实现如此大规模的运算。

直到1999年,一批研究人员写出了GIZA软件包,才实现了IBM研究院提出的模型。弗朗茨于2003年提出了更加复杂的统计模型并推出了更加高效的GIZA++软件包。直到现在,GIZA++还是绝大多数机器翻译系统的基础。

在谷歌翻译支持的41种语言中,所有与英语有关的翻译都是“直接”翻译的,不需要通过其他语言来中转。中文、日语和韩语这三种东亚语言也是直接翻译,而其他未能直接翻译的语言组合将通过英语来中转。由于翻译速度很快,普通用户无法察觉。

中文翻译需要大家的帮助

谷歌翻译目前支持41种语言,按照排列组合,这将是1640种翻译组合。对于中国用户来说,最常使用的当然是与中文相关的组合。但相对与英语与法语、西班牙语之间互译的质量,英语和中文互译的质量较差。弗朗茨认为这有两个原因:一个是这些语言之间天生有存在着某种联系,他们之间互译较为简单。另外一个原因在于,有大量的网络资料使用了这些语言,而中文互联网信息相对较少。

常见机器翻译的难处在于无法找到适当而且足够庞大的资料库,借助于谷歌搜索引擎,弗朗茨和他的团队却可以得到这样的资源。

尽管中文翻译质量并不能让人完全满意,但已经达到了谷歌内部的翻译质量标准。据弗朗茨介绍,谷歌翻译支持的语种远不只41种,但由于这些语种的资料有限,翻译质量尚未达标,有待于进一步开发。

弗朗茨欢迎大家多写双语博客,为谷歌的机器翻译提供更多资料。此外,不排除推出类似于Facebook Translate的工具,通过用户的力量来获取更多数据源。(龚民)

实验:诗歌是不可以翻译的

一、实验工具:

1、韦庄《菩萨蛮》
人人尽说江南好,游人只合江南老。
春水碧于天,画船听雨眠。
垆边人似月,皓腕凝霜雪。
未老莫还乡,还乡须断肠。

2、Google翻译工具

二、实验A:

1、鉴于中文和日文较为接近,使用Google翻译将中文翻译为日文,得到:

菩萨蛮
江南は、すべてが良い、旧江南すべての訪問者のみ。
ChunshuiのBIは10日、睡眠画船機。
店の人は5月、雪皓腕凝霜。
老莫帰国せず、帰国断肠する。

2、考虑东亚语言,以及为了下一步打算,由日文翻译为越南文,得到:

蛮菩萨
Enami, tất cả đều tốt, tất cả các du khách chỉ Enami thị trấn.
Chunshui của BI trên 10th, vẫn còn ngủ-tàu.
Các cửa hàng trong tháng năm, frost Susugi Akira coagulating cánh tay.
莫không trở lại với tuổi, lại mất肠.

3、越南文为法国殖民时所设,翻译为法文:

蛮菩萨
Enami, tout bien, tous les touristes ne Enami ville.
Chunshui de BI, le 10, toujours le train du sommeil.
Boutiques en Mai, Frost Susugi Akira coagulant bras.
莫pas les vieux, à prendre肠.

4、诺曼征服英国,法文和英文有亲缘关系,由法文翻译为英文:

蛮菩萨
Enami, all good, all the tourists Enami city.
Chunshui IB, 10, always sleep on the train.
Shops in May, Frost Susugi Akira coagulant arm.
莫not old, to take肠.
莫trở không lại với tuổi, lại mất肠.

5、由英文再翻译为中文,得到:

蛮菩萨
江,所有好的,所有的游客江市。
春水B节,第10 ,总是睡在火车上。
商店5月,弗罗斯特Susugi晃混凝剂的胳膊。
莫不老,采取肠。
莫返回孔来沃伊tuổi ,来垫肠。

三、实验B:

1、由中文翻译为英文,得到:

菩萨蛮
Jiangnan do all that good, old Jiangnan All visitors only.
Chunshui Bi in the day, sleep画船Machines.
While people may shop, the snow皓腕凝霜.
老莫did not return home, return home to be断肠.

2、由英文翻译为中文,得到:

菩萨蛮
江南尽一切良好,旧江南所有旅客只。
春水碧于天,睡眠画船机器。
虽然人们可能店,雪皓腕凝霜。
老莫没有返回家园,返回家园是断肠。

四、实验C:

1、翻译为阿拉伯文,再翻译回中文得到:

菩萨蛮
江南尽一切美好的旧江南所有公正的访客。
毕春水休假画船雨。
随着人们店5月,皓腕凝霜雪。
老莫不回家,谁将回国断肠。
老莫没有返回家园,返回他们的家园是断肠。
老莫没有返回家园,返回他们的家园是断肠。

2、翻译为法文,再翻译回中文得到:

菩萨蛮
江南尽一切良好,旧的,所有参观者江南。
春水碧于天,睡眠画船机器。
虽然人民店5月,皓腕凝霜雪。
老莫没有返回家园,返回家园断肠。

3、翻译为日文,再翻译为中文得到:

蛮菩萨
江,一切良好,所有参观者只能江镇。
春水Bi对第十,仍然睡眠船。
店在5月,霜冻Susugi晃混凝胳膊。
莫无法返回旧的,返回损耗肠。
乡莫还旧,但须断还乡肠。

4、翻译为韩文,再翻译回中文得到:

菩萨蛮
江南尽一切良好,旧江南所有旅客只。
极其非画船春水睡眠一天。
然而,人们可以购物,眼睛皓腕凝霜。
回不了家老莫断肠。
未老莫还乡,还乡须断肠。

5、翻译为泰文,再翻译回中文得到:

菩萨蛮。
江南江南好旧所有访问者。
生物春水上画船睡觉。
虽然人们可能存储雪皓腕凝霜。
老莫没有回家回家断肠。

五、结论

在所有的翻译版本中,所有不能翻译的部分都被保留了下来,直接用作译文。而这些无法翻译的部分是:

江南、旅客、皓腕、凝霜、莫、回家和断肠。

这些不能翻译的部分连起来,刚好就是《菩萨蛮》的精华所在。

精华是不可以被翻译的。

证毕。

向山寨致敬---写在谷歌音乐上线之后

谷歌音乐搜索

谷歌音乐搜索在3月30日正式上线,一周过去之后再谈似乎火星了一点。那么,就允许我用一个火星人的眼光来评价一下谷歌的这项新服务:

Google进入中国以后就变成了“谷歌”,股沟会唱歌是Google本地化的第一个尝试。作为一家上市公司,世界互联网的标志企业,伟大的Google来到神秘的东方,也不免晕菜。在中国,Google虽然贵为搜索王道,但是中国人更认同百度。10个人里有7个人用本土的搜索引擎百度,剩下的3个人也不全用Google。即便是这样,Google还是感到很欣慰了。因为同样是亚洲国家,韩国变态到把搜索和门户结合在一起,推出自己怪异的搜索引擎naver和empas,Google连啃剩的骨头都没有半根,在韩国被斩尽杀绝。

接下来,Google又发现了更恐怖的事情---中国人用最简单的上网方式,根本懒得用搜索!N个家庭,N个网吧,都默认www.hao123.com这样的导航网站为起始页面。中国网民想看什么网站或者内容,他们根本不是去打开搜索网站的页面,在输入框里输入相关内容。而是用他们唯一掌握的拼音技巧拼出hao123几个字,然后就用鼠标在页面上点他们想要去的网站。他们不会费心去背诵新浪=www.sina.com.cn,要他们去背谷歌=www.google.com更是做梦。Google悚然而惊,在中国启用了最短的域名www.G.cn,但是一切都太迟了。通过农村包围城市的战略,中国网站主已经让网民用惯了网址导航站。于是,Google低下了头,含着眼泪掏出2亿人民币买下了www.265.com......

Google委屈,Google郁闷,为什么啊为什么?那么山寨的东西会有那么多人去用?我们那么先进,那么NB,为什么中国人不接受?

结论是:只有山寨才能救Google。于是,谷歌脱掉了燕尾服,换上草鞋和蓑衣,开始在中国泥泞的山路上开始狂奔。

谷歌音乐搜索这一新产品就体现了谷歌的山寨化进程和它所有为保存Google伟大之处的尝试。首先看产品的名字:谷歌音乐搜索。在中国,搜索引擎公司都会在音乐搜索的条目上简单地写上“Mp3”三个字符。不要小看这个字眼,对于一千万高端网络用户来说,Mp3和音乐是等价的。但是,对于2亿7千万网民来说,Mp3不是音乐,它的意思是“在网络上免费收听和下载的音乐”。在这个问题上,Google做了一点坚持,没有用“Mp3”,而是冠以“音乐搜索”的标题。所以,这个名字会很损伤用户数,网民只知道Mp3,但是不知道音乐是什么东西。

再来看产品界面,虽然Google竭力保持自己简洁的风格,但是我们还是能看到它拉出了列表。加上了恶俗的排行榜,怒长的歌手列表以及音乐专题。为什么要这样做?请让我们随便打开一个中国本土的音乐站点,例如:一听音乐网。看到没有,内容全部都是罗列式和堆叠式的。这是为了应对标准网民行为习惯而做的设计,看上去很土,很山寨,很繁复,但是极为有效。一个标准网民上网会干什么?头两件大事不是看新闻,读Blog,或者进BBS讨论,而是听音乐和打游戏。50年后可以做个统计,一辈子上网,但是只听音乐打游戏用聊天工具喷口水,一次都没有去过门户网写过Blog在BBS喷过水的网民,估计会是网民的主流。

这位标准兄上网的第一件事情是打开IM,然后点开IE浏览器自动跳转到网址导航站,选一个音乐站。从推荐的专辑或者火热歌手里选一个,毫不犹豫地按下“全选”和“播放”。于是,一个音乐播放器就弹出来,自动播放音乐。标准兄戴上耳机,心满意足地开始游戏、聊天。注意,整个过程里他除了输入IM的密码之外,他几乎只用鼠标,基本不动键盘。所以,Google音乐搜索也按照相同的用户行为逻辑设计了产品,尽量让用户鼠标走天涯。不过,为了满足简介的Google风格要求,并没有如同本土音乐网站一样把所有内容放在一个页面里集中展示,而是分成了N个页卡:首页、排行榜、挑歌、歌手库、专题。让用户可以用鼠标点击,切换不同的内容。同样的,这种设计会让标准用户觉得麻烦,因为居然不是用鼠标一次点击就可以搞定的。即便有这样流失用户的风险,Google的产品经理估计也因为这样的界面而难过得流泪。所以,他选择了一系列很不专业的单词,显得比较专业的样子。可能:

排行榜应该写成:最热歌曲榜,或者劲歌金曲榜
挑歌应该写成:电脑选歌,或者随意选歌
歌手库应该写成:歌手,或者歌手名单,或者是按人名选歌
专题应该写成:人气专辑,或者推荐专辑,或者是劲爆专辑

在网上,中国人一点都不含蓄。他们要知道来这里可以干什么,需要直接明了的指示。把妓院叫做“洗头房”或者“桑拿室”,在网上是行不通的。你哪怕是叫做“炮房”,都好过叫“保健按摩室”。

把音乐搜索引擎页面做成这个样子,忠实的Gfans可能会很伤心。所以,Google还是搞了一点新意思:音乐泡泡。类似美国的潘多拉或者last.fm,采用所谓“音乐DNA”的选歌模式,根据你对节奏、声调、音色、年代的选择,模糊挑选出符合你个人喜好的音乐来。界面使用Flash技术,很炫很Cool。这样一来,可以满足互联网上高端用户的心理---Look!唯有Google才有这样炫的功能,我使用谷歌音乐,岂能是一帮无知网民所能比拟的?Gfans也会很泪下,骄傲地说:Look,这,就是我们家Google的NB之处!

于是,掌握网络话语权的高端用户会赞扬之:毕竟是Google呀......大众则默默地点开页卡,按照他们平素熟悉的方式,继续“全选”、“播放”。Google则可以开动公关机器,宣布:本店全部正版,全部免费。用正版概念对抗网络上的另外一种声音:干!才那么几首歌?!和颜悦色地解释说:因为正版,所以精选。因为精选,所以王道。请耐心等待,我们会有越来越多的歌曲,和越来越好的服务。

Google有钱,也有时间。它可以耐心等待,等待用户慢慢接受。在这个痛苦而漫长的过程里,它要忍受全盗版的音乐网站和它抢掠用户,忍受其它门户网站Mp3搜索的丰富内容。持续改进页面,让更山寨的内容组织模式让普通用户觉得使用方便,拼服务器资源,用稳定高速吸引用户。同时开发出更多炫目但是只针对小众用户的功能,让他们去做免费的宣传和公关。

总体上来说,谷歌音乐搜索吸收了大量山寨元素,并且按照山寨音乐的方式组织实施内容。Google在这个问题上,采取了美国人惯常使用的实用主义,即便谷歌音乐其实并不是那么Google,但是在总部还是受到了极高的褒扬。在进军中国市场的道路上,谷歌换上了草鞋快速奔行,等于是承认了山寨的价值。面对这些巨无霸公司的时候,他们也许会表现出反应迟钝和执行不力,但是谁也不能否认一点:它们都拥有可怕的学习和适应能力。你可以打击它十次,百次,它可能不会做出及时反应,处于守势。但是,它能忍受,并且默默学习和改变策略。下一次,它只挥出一拳,但是这一拳可能会让人骨折筋断,甚至彻底改变格局。

最早发现Google发生问题的Blogger

利用Google Blogsearch,可以发现:

1、在不到1小时时间内,英文世界的Blogger对Google本次故障发布了450篇博客。
2、在相同的时间内,中文世界的Blogger发布了30篇博客。

在英文Blog圈,最早报告Google这一Bug的是:Jason’s Random Thoughts---《Does Google No Longer Trust Us?

在简体中文Blog圈,最早报告Google这一Bug的是:软件音速---《谷歌全球出现技术问题?

在正体字中文Blog圈,最早报告Google这一Bug的是:阿码外传---《爆冲的谷歌恶意程式标签功能