您正在使用版本过时的浏览器!


过旧的浏览器无法支持全新的功能与特效,若希望获得完整浏览体验请升级浏览器

谷歌搜索引擎背后的秘密:搜索算法的平衡艺术

发布时间:2007-12-25 点击:2063
  搜索是重中之重

  随着企业规模不断扩大,谷歌开始向多个领域进军,包括网络地图、数字图书馆、视频共享以及桌面软件等等。但是,谷歌的重中之重仍然是搜索引擎。通过谷歌搜索引擎,用户可以在浩如烟海的大量信息中找到自己需要的内容。正因为有了出色的搜索引擎,谷歌才成为了访问量最大、利润最为丰厚、甚至最为强大的互联网公司。

  不过,搜索引擎给谷歌招致的抱怨也最多。每天都有数百万用户在使用谷歌搜索引擎之后感到失望,因为他们无法找到自己需要的旅馆、医药处方、或者人物背景。谷歌经常能帮助用户找到想要的东西,但并非总能做到这一点。基于这一原因,阿米特·辛格哈尔(Amit Singhal)和其它数百名工程师一直致力于改进谷歌搜索引擎,希望能缩小“经常”和“总是”之间的差距。

  互联网的生命之源

  辛格哈尔是谷歌搜索引擎排名算法的大师。这一算法主要用于确定哪些网页是用户问题的最佳答案,它是谷歌核心团队——搜索质量部门的重要组成部分。长期以来,该部门一直是个谜,谷歌很少允许团队成员抛头露面。谷歌对辛格哈尔及其团队的评价非常高,将他们视为公司最为根本的竞争优势。谷歌认为,要想抵御来自雅虎和微软的强势入侵,就必须降低让用户失望的频度。而在这一过程中,搜索质量部门发挥着不可替代的作用。

  Federated Media首席执行官约翰·巴特勒(John Battelle)表示:“谷歌创建的核心价值就是排名算法。”数据显示,网络商店有四分之一到二分之一的访问者来自于搜索引擎;很多用户都无视媒体网站的网页,而是通过谷歌直接访问所需的特定页面。他说:“从上述事实可以看出,谷歌已经成为了互联网的‘生命之源’,谁也离不开它。”

  用户无法看到搜索引擎背后的算法和艺术,但事实上,谷歌搜索质量团队每周都要对搜索引擎算法做数次改进。在他们的努力下,谷歌搜索引擎可以更加有效地理解用户的真实意图。例如,有些人搜索“苹果”是为了了解同水果相关的信息,有些人则在研究苹果公司的Mac或iPod。尽管搜索内容相同,但用户的意图却有着天壤之别。辛格哈尔表示:“过去几年里,搜索已经由‘给我输入的东西’转变为‘给我想要的东西’。”

  不为人知的内幕

  辛格哈尔今年39岁,是一名印度人,于2000年加盟谷歌。他目前是一名谷歌研究员,这是谷歌专门为精英工程师设立的职位。不久前,一名《纽约时报》的记者获准采访了辛格哈尔和其它搜索质量团队成员。尽管谷歌对很多问题都讳莫如深,但这名记者仍然获得了很多以前不为人知的内幕。

  在谷歌不断改进搜索引擎的过程中,面临的最大挑战是日渐庞大的规模。目前,谷歌已经成为全球访问量最大的网站,支持112种语言,将数百亿个网页纳入索引,每天处理数亿次搜索请求。更为糟糕的是,很多网页创建的目的就是吸引眼球,里面充斥了大量的广告、色情内容和财务欺骗信息。因此,用户希望谷歌能在搜索结果中排除这些无用网页,帮助他们找到最相关的信息。

  谷歌搜索质量团队主管尤迪·马恩伯(Udi Manber)表示:“用户的期望值非常高。当我们刚刚推出搜索服务时,如果用户能通过搜索引擎找到想要的东西,就会感到是一个奇迹。现在的情况则完全不同,如果用户在前三个搜索结果页面中找不到想要的东西,就认为搜索引擎存在问题。”

  谷歌搜索业务充分展现了其打破常规的管理模式。谷歌拥有数百名工程师,其中包括来自学术机构的顶级搜索专家,这些人通常被松散地组织在一起,从事自己感兴趣的项目。但在搜索引擎方面,谷歌会仔细、严格地检查工程师的独立成果,以确保新的搜索算法带来的好处多于坏处。大多数情况下,改进和质量控制都涉及平衡的艺术。马恩伯表示:“改进总会同时带来正面和负面的效应,我们必须衡量哪一种影响更大。只有正面效果,没有负面效果的改进不存在。”

  搜索团队大揭秘

  谷歌搜索质量团队在谷歌办公园区的43号楼(Building 43)工作。由于公司联合创始人拉里·佩奇(Larry Page)向往太空旅行,一个与“太空船一号”同样大小的复制品占据了43号楼的休息室。这一复制品也随时提醒参观者,谷歌就像火箭一样迅速升起。辛格哈尔和其它三名顶级工程师的办公室就坐落于43号楼的顶层,在他办公桌附近的黑板上,到处涂满了图表、问题和数学公式,当然还有用户对谷歌引擎提出的各种意见。

  谷歌的所有员工都可以使用“Buganizer”系统报告搜索问题,而辛格哈尔正是负责解决问题的人。辛格哈尔的同事马特·卡兹(Matt Cutts)表示:“辛格哈尔收到他人提出的问题之后,总是视若珍宝,并努力通过修正算法解决问题。”有些时候,用户或其它谷歌员工提出的问题需要立即得到解决。例如,如果不久前通过谷歌搜索“法国大革命”,就会出现大量与法国总统大选相关的信息,而不是打倒法国国王路易十六的那场革命。谷歌搜索质量团队很快改变了网页的权值,从而解决了这一问题。

  当然,有时会出现更为复杂的问题。2005年,谷歌产品经理比尔·布罗格(Bill Brougher)指出,当用户搜索“teak patio Palo Alto”时,并不会返回这家名叫“Teak Patio”的本地商店。辛格哈尔随即启动了一项名为“Debug”的内部计划,检查计算机系统对每一个查询和网页的评价。

  辛格哈尔最终发现,Theteakpatio.com之所以没有在搜索结果中显现,主要因为谷歌搜索算法并没有赋予来自Palo Alto的其它网站足够的权值。收到投诉后的两个月内,辛格哈尔及其团队改进了搜索算法,从而解决了相关问题。不过,辛格哈尔并不能匆忙地解决所有问题,因为搜索引擎的每一次调整都会影响到很多网站。因此,他将很多问题都记在黑板上,如果同样的问题再次出现,他就会调整其优先级。

  人才是成功根本

  为了提高搜索引擎的质量,谷歌一直致力于从研究实验室和大学招募人才。例如,辛格哈尔就来自于AT&T实验室;马恩伯最初曾经在亚利桑那大学担任计算机教员,随后加盟雅虎担任首席科学家,之后还曾运营过亚马逊搜索部门。他去年从亚马逊加盟谷歌,很快就发现谷歌搜索引擎遥遥领先于学术实验室和其它企业竞争对手。他回忆道:“加入谷歌后的前三个月里,我经常会说,‘我有一个想法’。但他们总是告诉我,‘已经有人提出过这个想法,它无法发挥作用’。”

  谷歌搜索质量团队的分工非常明确:辛格哈尔等工程师主要负责用户输入关键字后的系统处理;一部分人主要负责改进搜索结果,例如优化网站描述,让用户更容易了解一个网站的内容;以马恩伯为首的其它成员则主要负责维护庞大的网页索引。在早期阶段,谷歌每六到八周创建一个新索引,而现在该公司每隔几天就要重新核对很多网页。

  在编辑索引的过程中,谷歌主要考虑每一个网页的“PageRank”。PageRank是谷歌联合创始人佩奇和塞吉·布林(Sergey Brin)的重要发明,它主要用于标识其它网站链接到特定网页的次数。网页的PageRank越高,在搜索结果中的排名也就越高。辛格哈尔已经开发出一个更为精确的系统来为网页排名,它涉及了200多种信息,PageRank只是其中之一。

  要完全了解谷歌搜索引擎所采用的技术是一项不可能完成的任务,因为这是谷歌赖以成功的根本,同时也是其它竞争对手梦寐以求的东西。只从搜索结果来看,很多时候并不能看出谷歌搜索引擎与竞争对手的差异。但搜索专家丹尼·沙利文(Danny Sullivan)认为,谷歌仍然领先于竞争对手。巴特勒也表示:“人们仍然认为谷歌是搜索的黄金标准。”(马丁)

列表