在Google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。本节就简要探讨链接在搜索引擎排名中的应用原理。
在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和视频的内容从而排名。
不同文字的页面排名也成为可能。比如在百度或google.cn搜索“SEO”,都可以看到英文和其他文字的SEO网站。甚至搜索“搜索引擎优化”,也可以看到非中文页面,原因就在于有的链接可能使用“搜索引擎优化”为锚文字指向英文页面。
链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象。页面上的因素对排名的影响能看得到,容易直观理解。举个简单的例子,搜索一个特定关键词,SEO人员只要观察前几页结果,就能看到:关键词在标题标签中出现有什么影响,出现在最前面又有什么影响,有技术资源的还可以大规模地统计,计算出关键词出现在标题标签中不同位置与排名之间的关系。虽然这种关系不一定是因果关系,但至少是统计上的联系,使SEO人员大致了解如何优化。
链接对排名的影响就无法直观了解,也很难进行统计,因为没有人能获得搜索引擎的链接数据库。我们能做的最多只是定性观察和分析。
下面介绍的一些关于链接的专利,多少透露了链接在搜索引擎排名中的使用方法和地位。
2.5.1 李彦宏超链分析专利
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。
这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比Google创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂得多。