Archive for the '搜索引擎研究' Category

劣币驱逐良币:Google靠生成垃圾网页赚钱

Saturday, March 24th, 2007

Google的核心一在于其搜索技术,另一则在其上下文匹配按点击付费的模式。而随着时间的发展,这种按文本匹配显示广告并按点击付费的模式正越来越成为其真正的核心。原因也有二:一在于这个直接给google带来了收益,另一则在于yahoo等竞争对手(还包括微软和百度)迟迟没有推出与之对应的竞争产品。
这种互联网时代的新版税系统并非完美无缺,国外媒体最近报道:著名博客Nick Wilson在一段视频中对Google进行了抨击,他认为Google从来没有在其搜索结果中清除垃圾内容,相反Google会在搜索结果中生成大量垃圾网页,以此来赚取不义之财。
日前,微软公布了一份关于SPAM(搜索引擎垃圾技术)的研究报告。关于这个主题,著名博客Nick Wilson在一段视频中表达了自己的看法,他认为Google没有在其搜索结果中清除垃圾内容,原因是Google为了通过那些使用SPAM的网站赚取不义之财。

Nick还表示他曾经很多次听过这样的说法:Google会在搜索结果中自动生成大量网页,这些网页中充满了广告,对用户来说这些网页没有任何意义,除非上面的广告能将你引导到其他一些有用的网站上。Nick认为Google的这种做法是不正当的,“我只想在搜索的时候,能够用最短的时间得到需要的答案。”
这就是互联网上劣币驱逐良币的秘密所在了,好的、原创的内容打不过粗制乱造的、重复的内容。举个例子说:一条过期或明显错误的资讯并不能满足读者的需求,但能和Google Adsense广告很好匹配,并由Adsense展示通往相关有效资讯的链接,很自然就会产生一个有效的点击。在这个过程中网站、google的利益都得到了满足,唯有读者的时间被浪费了。相反一个良好资讯的网页,读者会很快被其内容所吸引,而不会关注在上面显示的广告。

中文搜索引擎发展简史

Wednesday, December 7th, 2005

中文搜索引擎的发展几乎与国外搜索引擎的发展同时起步,但在百度之前几乎没有成功的案例。这一点和美国是很不一样的,美国大多数门户网站都是以搜索引擎为核心构建的。而在中国虽然出于模仿美国互联网商业模式的动机,从很早就有不少人作搜索引擎,但几乎没有成功的,百度是国内第一个搜索概念的成功者。
早期不成功的尝试
国内早期尝试搜索引擎业务的,也可按分类网址、全文搜索分为两类。前者的代表是搜狐,并且搜狐在这方面也是最规范,最持之以恒的,但可惜虽然搜狐在搜索概念上投入了巨大的精力,但分类搜索流量对搜狐的贡献太小,当然现在这部分流量已经归入了搜狗,以最近的Alexa数据看,分类搜索占搜狗总流量的约11%。我们的结论是虽然搜狐是最早在中国打搜索牌的,并且事实上它的分类搜索(效仿Yahoo)是作的最好的,但从流量看远不能说是成功的。
类似搜狐,其他门户网站,如新浪、网易也都有分类搜索,并且各具特点。但其流量就更小了。还有很多更小的分类搜索,如:焦点网也曾经有过,但现在早已停止服务,不知去向了。雅虎中国是个特例,虽然雅虎作为分类搜索作的最成功的网站很早就推出了中文分类,从时间上甚至略早于搜狐,但因为雅虎中国本身在国内发展缓慢,反而竞争不过三大门户(新浪、搜狐、网易),因此分类搜索反而成为雅虎中国的鸡肋。从马云(阿里巴巴)入主雅虎中国后的新主页看,我们已经彻底找不到雅虎分类搜索了,但从以下入口我们还可以找到曾经的雅虎分类。但显然雅虎中国已经放弃该业务了。
1. http://gb.chinese.yahoo.com
2. http://cn.dir.yahoo.com/Regional/Countries_and_Regions/
3. http://www.yahoo.com/,英文雅虎分类仍然在首页有一席之地。
全文搜索在早期也有一些尝试,如悠游(Goyoyo)搜索客(Cseek)等,但现在都已经停止服务。中文搜索领域真正的曙光是Openfind,这是一家台湾专门作全文搜索技术的公司,专门替门户网站提供全文搜索、新闻搜索等技术服务。一度,雅虎、新浪等都是它的客户。这种模式很类似于Inktomi和早期Google的作法,即不与门户网站竞争,通过向门户网站提供技术服务求得生存。
百度的崛起
百度就是在这样的大背景下登场的,早期它是作为Openfind的竞争者形象出现的,并成功地取代Openfind等与新浪等门户网站合作。搜索技术公司与门户网站合作是个微妙的事情,搜索技术公司希望通过与门户网站的合作增加自己产品的知名度,能够卖出更多的全文搜索产品,而门户网站的主要利益是增加网站粘性,增加网络广告。如果仅仅是这样,双方是能够友好合作下去的,但事实上中国全文搜索技术的市场是十分狭小的,除了门户网站,大的新闻网站,大量中、小网站事实上并不需要全文搜索,可能是因为认识的问题,也可能是因为价格的问题。所以全文搜索技术针对的市场是狭小的,并足以养活野心很大的百度,所以百度真正的策略是通过与新浪等门户网站的合作,扩大自己网站的影响力,成为新的门户网站,颠覆新浪等传统门户网站的地位。当然新浪作为当时流量最大的网站对此思想准备不足,其最理想的策略就是在适当的时候,把百度换掉,在其影响力还不足以威胁到自己的时候更换全文搜索的合作伙伴。但当时国内专业的搜索技术公司只有百度,百度在中文搜索领域缺乏有效的竞争,唯一的竞争来自Google。
我们今天总结百度为什么会成功,无非以下几点:
1. 百度的技术还是不错的;
2. 百度最近几年一直缺乏有力的竞争者;
3. 百度利用新浪等门户网站扩大了自己的影响力;
4. 百度利用中国的政治环境,对Google实施了有效的阻击;
后两点一直被业界所诟病,先有“新浪欠费 百度暂停搜索服务(2002.3)”这个恶性炒作。后有“Google被封 疑为百度所为”。当然这两个事件之间又是有联系的,因为在新浪欠费之后,新浪就率先与Google在搜索领域进行合作,百度的手段可谓一石二鸟。自此之后百度的流量就开始迅速上升,并开始大力推广它的MP3搜索。
百度目前的Alexa流量已经超过新浪,成为中文网站的第一,流量按频道分配大致为:
频道 百分比
网页搜索 53%
MP3搜索 16%
图象搜索 12%
百度贴吧 11%
百度知道 1%
百度新闻 1%
百度最近两年流量和新浪的比较:

百度在NASDAQ成功上市后,引发了国内互联网界对搜索引擎的第一次投资热潮。目前在这个领域,已经有不少重量级的竞争者:
1. 百度:http://www.baidu.com
2. Google: http://www.google.com
3. Yahoo/Yisou: http://www.yahoo.com.cn
4. 搜狗: http://www.sogou.com
5. […]

英文搜索引擎发展简史

Wednesday, December 7th, 2005

搜索引擎并不是最近一年才开始火爆的,实际上搜索一直是计算机和互联网重要的基础功能,可以说见证了整个互联网的发展。实际上早在WWW出现之前,就有Gopher Search。但真正爆炸性的发展是在WWW和Netscape出现之后,第一代WWW搜索引擎的代表是AltaVista和Yahoo!
AltaVista和Yahoo!
Yahoo是一个由编辑维护的网址数据库,是两个斯坦福大学生开发的,后来又有职业的图书馆信息分类学者参与修订目录。事实证明Yahoo是第一代搜索引擎中最成功的,部分是因为人工编辑的参与,部分是因为Netscape浏览器默认的搜索就设为了Yahoo。
AltaVista是DEC开发基于程序的搜索引擎,其最初的目的是显示DEC的高档服务器的运算能力。不同于Yahoo,AltaVista的基础是机器人(Robots),自动完成抓取网页,建立索引等工作,因此其数据库远大于编辑维护的数据库。为祢补数据的不足,Yahoo的分类目录实际上是和 AltaVista的全文搜索配合使用的,因此AltaVista的流行部分地是因为Yahoo提供了搜索入口。当然我们也不能说Yahoo完全依靠 AltaVista的技术,实际上大部分的搜索任务是通过搜索Yahoo自己的分类目录满足的。
第一代WWW搜索引擎还有很多很多:

LookSmart:和Yahoo类似的编辑维护的分类网址目录,由读者文摘(Reader’s Digest)创建。

Snap:分类目录,Cnet创建,后被NBCi收购。

WebCrawler:全文搜索,来自华盛顿大学的研究项目,后被AOL、Excite收购。

Excite:全文搜索,六个斯坦福大学生创建,后被@Home收购。

Lycos:全文搜索,来自Carnegie Mellon University的研究项目。

InfoSeek:全文搜索,被Disney/Go收购,百度创始人李彦宏曾在该公司服务。

专业搜索引擎
以上很多搜索引擎后来都发展为所谓门户(Portal),Yahoo是其中最成功的。AltaVista作为最成功的全文搜索引擎,也试图向门户方向发展,但被证明是一次巨大的错误,也给后来很多新生的专业搜索引擎公司提供了机会。

Inktomi:两个伯克利大学生创建于1996年,曾取代AltaVista的地位与Yahoo在全文搜索领域合作,最终被Yahoo收购。

HotBot:1996年创建,被Lycos收购。

Google:源自斯坦福大学的研究项目,1997下半年上线。

Fast(/AlltheWeb):1998年上线,一度是收录网页最多的搜索引擎。

除此之外,我们还要专门讨论一下Ask.com,这是一个以自然语言搜索为噱头的搜索引擎,于1998- 1999年间迅速崛起,但其实它真正崛起的秘密在于人工对搜索结果的干预,Ask.com当时有大量编辑对最热门的搜索词汇进行监控,并用人工参与的方式不断调整搜索结果。但今天,Ask.com回到了传统的全文搜索方式,搜索技术由Teoma提供。
Google和Overture
2000年网络泡沫破灭之后,大多数搜索引擎及门户都进入了低潮,Yahoo向媒体方向转型。这个时候,Google和Goto(Overture)逐渐崛起。
初看起来Google和Goto的策略是截然相反的。Google提倡技术至上,不断改进其算法;Goto自己不开发算法,他花钱用其他公司的技术。
Google完全依靠算法决定搜索页面的排序,花钱也别想买到好位置;Goto所有的位置都明码标价,位置是可以竞拍买来的。
Google几乎不作广告,完全依靠口碑;Goto的广告在网上到处都是,重点是拉站长们加入他们的搜索联盟。
Google逐渐成为用户使用频率最高同时也是最好的搜索引擎,而Goto(Overture )则通过营销创新赚来了大把钞票,并最终收购了第一代搜索引擎的象征AltaVista。
Google和Yahoo!
2003年,Yahoo收购Overture,并大举收购各种搜索技术,打造YST(Yahoo Search Technology)
2004年,成为最大搜索引擎的Google上市(IPO),并令人眼花缭乱地推出各种各样以促进网络广告销售为目的的多种服务,如网络图书馆、Gmail、GBase等。
2005年8月,雅虎宣布其搜索数据库已超Google成为全球最大的搜索引擎,但随即就有测试表明Google在绝大多数情况下仍会获得最多的有效查询结果。
相关网址
Yahoo!
AltaVista
Ask Jeeves
Google
Yahoo Search