LineBuzz的努力

LineBuzz正在努力致力于网站国际化的尝试,其中很重要的一点就是支持中文抓取。昨天晚上,LineBuzz的CEO兼创始人Mark来信,要求我看一看一个中文网站的标题显示,这个站是一个IT人的网站,标题叫做“禅茶一味”,http://zen-tea.com/。由于任何一个中国网民的电脑都安装了WINDOWS的默认多语言系统,因此它的显示是完全正常的。Mark给我的信中,要求我看一看下面两个地址是否完全一致:

绂朵-涓や釜浜虹瀹
http://www.zen-tea.com/

很明显,第一个地址的标题是完全的乱码,中国人知道每一个字符的含义,但是连起来的话,根本不知道这是什么。而恼火的是,LineBuzz的成员都是美国人,在他们看来,这些东西看起来很中文。

于是,我立即向我的IT届朋友求援。很快,我得到了答案。

我们先看在Firefox下禅茶一味的的源代码:

其中高亮的部分显示:

也就是说,在Head部分里,禅茶一味的BLOG定义了字符为gb2312。

但是,如果我们用Firefox查看它的编码,却显示:

高亮部分说页面编码为UTF-8。

这就是为什么LineBuzz显示的禅茶一味的标题是“绂朵-涓や釜浜虹瀹”的原因---禅茶一味的BLOG本身是用gb2312的简化字字符集编码储存在它的服务器上。但是,当服务器向外输出内容的事情,服务器默认的模式为UTF-8编码。LineBuzz哪里知道那么多,他们直接抓取了禅茶一味的页面源代码,在页面信息里发现了Head中的charset信息,认定网页为gb2312编码,浑然不知服务器已经转换为UTF-8编码,因此显示的标题就出现了错误。如果你有心的话,请把页面编码选择为Utf-8,那么你看到的禅茶一味的标题正是“绂朵-涓や釜浜虹瀹”!

以禅茶一味为例,我们就知道LIneBuzz的国际化道路有多么艰难。幸运的是,他们在努力尝试,不断了解更多关于中文网页的新知。相信在不久的将来,LineBuzz一定能找到解决中文页面显示的办法,让所有中文BLOG用户能自如地使用他们的服务。

0 Response to “LineBuzz的努力”


  • No Comments

Leave a Reply