笔者还在网上找到一个笑话:“李_彦_宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李_彦_宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多。
Larry Page和Sergey Brin著名的论文,《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。“
我有点喷饭了.
2,百度的搜索技术到底如何先进?
其实从上面的介绍我们就可以看到。
Google是按照网页级别(PageRank)来收录的,网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则采用的是来者不拒的原则,百度则不管三七二十一上来就抓整个站,对于网站内容不做分析就快速收录,公认的其爬虫数量非常庞大,如果你的ISP服务商对你有流量限制.那么,你就倒大霉了,你的流量全部被占掉了.
说白了,百度的搜索方法就是大量派出爬虫,大量收集尽可能快和尽可能多的搜集页面,这样一来大家就会发现,百度好像更新特别快,可是这样是以牺牲有效性为代价.大家可以做一个测试,随机抽取若干词语分别在google和百度里面搜索看看,还是那句老话:不怕不识货,就怕货比货.特别是在搜索专业性的资料的时候,百度的搜索基本上是胡扯.
百度甚至不遵守robots规则,笔者曾经有一个网站,这个网站内容有些敏感,主要是跟朋友们一起交流的,所以就不想被搜索引擎收录,按照惯例在根目录下放了robots文件,明确规定拒绝收录全站,可是过了一过多月居然还在百度搜索里面发现了这个网站的全部内容,更搞笑的是这个网站只有100多页,百度居然显示收录2万多页.
网上有评论指出:"中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。"
我们来看看百度是如何吹嘘的:
“自从2000年公司成立以来的六年中,百度一直专注于互联网搜索引擎技术的研发,在高性能搜索引擎网络系统架构、搜索引擎相关算法(网页抓取、内容索引、查询检索、超链分析、相关性评估以及作弊网页识别)、中文信息处理(分词、命名实体识别、拼音转换和查询纠错等)、网页文本挖掘、基于社区的搜索引擎、以及搜索引擎商业应用等方面,勇于创新实践,积累形成了一系列具有自主知识产权的核心技术,确保了百度在中文搜索领域的激烈竞争中一直处于领先地位。 ”
不明白一点,“处于领先地位”的百度准确率怎么会那么低呢,这里随便举两个词:“猫”“鸟”,大家搜索一下,看看百度与google有什么不同。
■■■■■■■■■■■■■■■■■■■■■■■■■■■
四,强盗的市场营销
1,不掏钱就封你没商量
网上有这么一条消息:"2005年年中,百度官方宣布对许多作弊站点进行集中整顿,清除了一批通过技术手段或软件恶意欺骗搜索引擎、欺骗用户,把本身无内容或内容含量不高的垃圾网站排除在自身搜索结果之外,给予封杀,随后网友“踏雪无痕”成立“反百度联盟”,通过签名、揭发的方式,收集百度对待站长和网友不公正的证据,促进监督百度公司走向公正,如今该站点签名总数已有6675条,基本上都是遭遇封杀的个人站长在控诉。反百度联盟的观点是:百度借清理作弊之名封杀个人站点是虚,借机威胁个人站点买单竞关键字广告才是真。"
这一点笔者以及周围的朋友都有亲身体验,好好的从百度搜索过来的访问全都没有了,过不了几天,百度的代理商电话就打过来了.如果不做"搜索关键字服务",这些搜索过来的访问全都没有了,更为恶劣的是居然在搜索拒绝购买"搜索关键字服务"的网站时,把竞争对手的网站结果列出来.
有网友这样反映:“由于我的小站在GOOGLE、BAIDU、等几个搜索引擎上同时推广,看不到每个搜索引擎的效果到底怎么样,所以想到先把BAIDU停掉几天试试,礼拜5联系BAIDU客服,让她从后台把我的全部关键字停掉,当时BAIDU客服设定是下午 4点开始停止推广,但到晚上我下班回家搜索几个常见的关键字时,发现找遍了前10页都没看到我的站,以前这几个关键字我的站自然排名都在第一页。更为糟糕的是搜索我自己网站的名字都搜不到了,只能通过搜索我的玉米 才能搜出我的站。”
2,收多少钱宰你没商量
百度自2006年6月1日起,大幅提高竞价排名的底价,升幅由几倍到十几倍,完全不是根据客户竞价了,百度美其名说根据商业价值来定,而没有任何标准、根据,就将竞价底价随意提高十几倍,这就是明火执仗对已预付了钱的客户无异于抢钱的行为,也是没有信用的表现。以前一个关键词的起价统一是0.3元,但调整后,关键词分了档次,有的起价达到了几元钱,有的价格保持在0.3元左右,还有部分关键词的价格有所下降,但总体来看,涨的多降的少,所谓商业价值,是指市场的需求大小,有的关键字只有一家使用,也被涨价6、7倍以上,而且是强加的。有的关键字的起价远远超过了第三名第二名的现有价格,请问这样的价格是如何制定的?既然是竞价,应该是使用者之间的竞价,百度这样做说的好听点叫店大欺客,骗子说的难听点实在是太毒辣,太无耻。
■■■■■■■■■■■■■■■■■■■■■■■■■■■
五,百度的危机
1)百度冒充民族企业
在对外宣传上,百度张口闭口都说自己是所谓的“民族企业”,比Google等国外公司“更懂中文”,并打着所谓“爱国”的旗号,说反百度就是反对中国的民族产业,支持Google就是卖国云云。然而事实是:
百度公司注册于英属开曼群岛,
百度的创始人李_彦_宏持有美国绿卡,
百度启动的资金是美国的风险投资,
现在美资在百度中占有51%以上的份额,
百度在中国注册全资子公司的目的是为了规避中国关于外资不能进入新闻广告等领域法规。
因此,百度准确的说应该是一家由华人创办的、专注于在华业务的美资搜索引擎技术公司。
明白吧,这是一家美国的公司,跟google没有什么区别。
百度这一回没有理由为自己辩护了吧
2)在搜索违法内容上面,百度远远超过google.
据我所知,百度目前对色情违法信息进行了过滤技术当服务器接收到用户提交的搜索词后,先将搜索词和“过滤词汇表”进行匹配对比;一旦匹配成功,服务器即返回“您输入的关键词可能涉及不符合相关法律法规的内容”,然后结束搜索。从技术上讲,这种“过滤词汇表”实际上有很大缺陷和漏洞,例如在百度搜索“**”确不让搜索,但是搜索“"**”(带引号)即可返回搜索记录,通常会远远多于Google搜索出的记录。推而广之,所有百度通过“过滤词汇表”屏蔽的词汇,大部分只要加上个引号就全都可以搜索,另外,将多个屏蔽关键字组合在一起也可以搜索出结果,更可笑的是,在百度不可以搜索“色情”,但却可以搜索出“色情图片”70万条记录,“色情电影”51万条记录,“色情小说”23万条记录,“色情网站”79万条记录,可见这种屏蔽的方法实在是用来忽悠媒体的,实际作用非常有限。
现在最大的提供“有害信息”的就是百度了。
3,百度以违法为赢利点
众所周知,在国外法律健全的国家,一个网站如果搞免费音乐下载,肯定会因为版权纠纷而面临法律的制裁,最终不得不关闭。
根据ALEXA的统计显示,百度的MP3搜索流量巨大,成为仅次于常规网页搜索的第二大搜索,占其中流量的16%。因此也不难理解,百度宁可打官司也不能不做这种侵犯版权的搜索。
然而,百度还是害怕被国外的唱片公司指控。因为百度是在美国上市的的企业,百度知道如果陷入这种法律纠纷会给自己带来什么后果,因此,百度就自作聪明地在MP3搜索上做了一个小伎俩,使得只有中国地用户才能正常使用百度的音乐搜索。你的IP地址变成国外的IP地址,这时候再上百度搜索一下,你会发现搜索不到任何歌曲。百度就是这样干的。
国内国外两种面孔。这就是百度。
一个提供违法内容的网站,您觉得他有前途吗?
我是不相信的。 |