- 不详 2008-1-26 13:34:17 点击率:
-
许多人以为Google索引了互联网上的一切。不过,Google或许是我们所拥有的最好的搜索引擎,但是, Google所索引的互联网上的资源远比我们想象的要少得很多。根据Google首页面提供的数据,目前,它索引了3,083,324,652个页面,而据估计,实际上在互联网上有达100亿只夺得页面存在。我们不仅要问, 那些被Google省却的页面都是什么呢?
现在,我们遇到了一个难以提出的问题。如果我们想真实的知道Google到底遗漏了些什么,那我们必须要有一个比Google公司的能力更为强大的索引能力。在我们的此项研究中,作为理解Google索引了什么和遗漏了什么的开端,我们选取了"googlology"这样一个词来追踪, ’Goolology’是Webmaster World在2002年10月第十二期第一次提出来的,续而作为一个词在Microdoc News的前身站点Google Village上被使用,到2003年5月10日,通过Google的查询,该词意共出现在655个页面。然后,我们开始在互联网上到处搜索所有包含有 "googlology"的页面,作为我们首次探究Google究竟遗漏了那些的实例,我们发现,"googlology"这个词在当前实际所出现的页面数目要比Google列出的要多。
Google从它的数据库中的总共655个页面中列出了624个页面的索引。我们抓取了那些链接的screen-scraped,把它们放入我们的文本数据库中。我们的研究人员设置了WebWolf?,让这个桌面“爬虫”在互联网上工作了两个星期来猎取那些包含有"googlology"的页面。我们将网络上多达220,000个链接的Blogging新闻标题作为出发点;我们的爬虫从那里开始,跟随着一个又一个链接,直到它能在互联网上寻遍 "googlology"这个词。
在两个礼拜的搜索之后,我们找到了2,199个页面包含"googlology"这个词。这也就意味着Google只索引了所有包含有 "googlology"这个词的页面的29%。我们发现,另外的1,544包含有"googlology"的页面在Google的数据库中不存在。我们不尽要问,那些抡有被Google索引的页面都是哪些?它们都来自那种类型的站点?
Microdoc News使用了一个mapping工具来分析我们在搜索中创建的数据库。所有包含有"googlology" (2,199个)的页面用最外圈的犗黑线椭圆被标绘在我们的映射图上。这个大的椭圆里面的整个区域代表那些包含有"googlology"的所有页面。我们对这些页面按照下面的七类进行归类:
Blog页面
教育类页面
主流媒体站点的页面
新闻,信息和目录页面
Junk
Other database by Google
Other not-databased by Google
结果显示在下面这种映射图中。它为我们提供了一个包含有"googlology",但抡有被Google索引的页面的可视化图景。图中红艊区域标绘了哪些包含有"googlology",并且所有被Google索引的624个页面。
>>如有疑问,欢迎进入SEO俱乐部论坛参与讨论。 - 上一篇:SEO关键字和谷歌排名
下一篇:为什么Google上搜不到我的网页?
Google遗漏了什么
- 相关文章
为什么Google上搜不到我的网页?[01-26]
关于动态映射静态--GOOGLE搜索引擎完全解惑[01-26]
Google官方提供的关于Google优化的信息[01-26]
Google排名内部优化攻略[01-26]
写给新人 Google排名知识[01-26]
Google是我亲戚(如何与google拉近距离)[01-26]
- 推荐文章
- SEO俱乐部推荐
- 本月排行
- 赞助商链接