正文

《永无止境:Google传》第3章 没有规则的世界(1)

永无止境:Google传 作者:(美)道格拉斯·爱德华兹


在全面掌握搜索技术的基础知识之前,我一直都没能真正理解这个全新的世界。克雷格·西尔弗斯坦利用午餐闲谈时间,自愿为我和几个不懂技术的员工“开班授课”,他把这种交谈叫作“Google7A 面向非专业人员的搜索”。克雷格毕业于斯坦福大学,脸上挂着孩童般的笑容,很有幽默感。他喜欢说自己是Google的第1.5名员工,因为公司正式成立时,他的名字在花名册上的位置位于拉里和谢尔盖之间。克雷格平时也给我们开小灶,不定哪个下午,他会面带笑容,在走廊里假声假气地拖着长音问道:“吃小灶吗?”这时,我们这些人就会从各自的格子间中走出来,去吃他刚从Google的面包机中拿出来的没有营养的无形面包。

我们集中在乒乓球室中上课,里面是以前放在苏珊车库里的深绿色乒乓球桌。桌上的球网放倒了,也许是前一天开董事会的时候,哪一位风险投资人为了找地方放笔记本电脑而把它放倒的吧。克雷格开始讲课,我们则大快朵颐。

“一个搜索引擎有3个组成部分。”他开口说道。白板上的题目是“一个查询的来龙去脉”,他在题目下面不断写着要讲的内容。

“首先,我们得收集网络上的页面信息,可以通过一种称为 爬取 的进程实现。我们的蜘蛛程序叫作Googlebot,它从一个链接跳到另一个链接,把每个网址及其内容数据汇集起来。爬取过程通常需要一个月左右的时间,一旦完成,我们就有大量资料需要存储到合用的列表中。这个过程叫作建索引。”

我在笔记本上记下“爬取”和“建索引”两个词,分别框起来,然后用线把两个框连起来,随即变成了一副眼镜的模样,一个蜘蛛从上面吊下,那里应该就是鼻子了。

克雷格继续说:“我们一旦有了索引,就会利用我们的PageRank算法,根据每个页面的重要性,分配一个页面次序。PageRank算法是Google的秘密调料。”

“秘密调料?”我们能比其他所有搜索引擎做得好,看来公司创始人很快就要透露底细了,我向前倾了倾身子,准备好好学习。

“PageRank查看网络上的所有网页,根据指向每个网页的其他链接衡量该网页的价值。来自可靠网站的链接越多,这个网页的PageRank值就越大。这是秘诀的前一半。”

我在“眼镜”下方记下“PageRank”,在它周围画了个椭圆,看起来有点像是一个滑稽的嘴巴,于是又在上面画了人头,还在旁边加了些头发。

“另一半就是要断定哪些结果跟我们收到的特定查询的关联程度最高。我们的大多数竞争对手看的都是基本信息,比如某个词在一个页面上出现了多少次。我们看的是查询条目在页面上是怎么使用的。紧接着这个词出现的是什么词?用的是黑体还是其他不同的字体?在指向那些页面的链接中,这个词是怎样出现的?这种链接分析非常重要。在指向一个页面的链接中出现的词叫作链接锚文本。”

在笔记本上,从那个滑稽嘴巴的一角长出一个链条,直到页面底部,在底下突然出现了一个锚,周围是露着牙齿的游鱼。

克雷格继续说:“查询匹配的好坏决定我们的搜索质量,由于评价查询是否匹配得很好多少有些主观,因而这不是一个确切的科学问题。如果你搜索输入的是 jaguar (美洲豹),你指的是汽车、豹子,还是足球队呢?对类似这样的查询,有时候很难消除歧义。”

我记下“消除歧义”这个词,自己默念了3遍,以便把它变成我自己的词汇。然后又画了个有点像斑斑点点的狸猫的东西,它正追捕那个铁锚边上的鱼。由于是在水里,我又加了几个水泡。

“一旦确定了有用网页的显示顺序,就需要把搜索结果反馈给提交查询的用户。这就是 gwiss 干的事。”克雷格说到“gwiss”的时候,在白板上写下“GWS”,下面注明是“Google Web Sever”(Google网络服务器)。


上一章目录下一章

Copyright © 读书网 www.dushu.com 2005-2020, All Rights Reserved.
鄂ICP备15019699号 鄂公网安备 42010302001612号