本书对信息检索领域的最新进展作了严谨、完整的剖析,内容涉及信息检索的数学模型、评价、查询语言与操作、文本语言与操作、多媒体语言及其特征、标引与检索、并行与分布式检索、用户界面与可视化、多媒体信息检索的模型与语言、多媒体信息检索的标引和检索、Web检索、图书馆与书目系统和数字图书馆等。本书内容广泛、细节丰富、深入浅出,可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书,对从事信息检索及其系统与网络的分析、设计的实际工作者也有较高的参考价值。本书前言前言近年来,随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现,信息检索(informationretrieval,IR)领域已经发生了巨大的变化,这使得传统的信息检索教材变得过时,所以很有必要引进新的信息检索图书。我们坚信,读者非常需要一本从计算机科学的观点(相对于用户中心观点)严谨完整地剖析该领域的书。本书正是致力于填补这一空白,并适合作为信息检索的本科课程和研究生课程的教材。本书由两个既相互补充又相互平衡的部分组成。前九章是核心部分,由本书的设计者编著或合著;第二部分共六章,与第一部分紧密相连,是由本领域的杰出研究者编写的相关学科最新成果。所有章节都使用相同的注释和术语。因此,尽管本书由多人合著,但实际上是一本很好的教材,而不是将各个作者所写的章节简单地编辑在一起。此外,我们还精心设计了本书的内容和结构,力求全面展示现代信息检索各重要部分的观点。从信息检索模型到标引文本、从信息检索可视化工具到Web界面、从信息检索多媒体到数字图书馆,本书内容广泛、细节丰富。鉴于信息检索对现代社会的紧密相关性和重要性,我们希望本书为进一步在全球范围内传播信息科学、计算机科学和图书馆学的学科研究成果做出贡献。译者序RicardoBaeza-Yates和BerthierRibeiro-Neto是国际信息学界人士非常敬重的信息检索方面的专家,他们的作品都是口碑极佳的上乘之作,为他们的作品写译者序,这个念头本身就比较僭越。拜读此书,沉思良久,深感此书确实讨论了信息检索中许多非常重要的问题,而它们又是非常实际的,有些也是我们在工作中经常遇到的。文中的讨论和分析通俗易懂,又寓意深远,读后颇感收获甚丰,不免由此萌生了将这本书介绍给国内同行的想法。几经辗转,了解到机械工业出版社有意出版此书,便自告奋勇地承担起了翻译的工作。信息检索是信息管理领域中的核心部分。面对人类社会不断发展而积累起来的海量知识,如何高效、准确地查找所需要的信息,是每一个人在学习、研究和生活中都无法回避的问题。信息检索最早起源于图书馆的参考咨询工作和书目工作,后来,随着信息的急剧增加,人们对信息的利用也日趋广泛,信息检索也逐渐普及开来。计算机技术、网络技术、通信技术和大容量存储技术的发展和流行,使得信息检索领域也发生了巨大的变化,现代信息检索与计算机科学的联系越来越密切,信息检索进入了全新的发展阶段。目前,环顾国内外,关于信息检索的教材可谓琳琅满目,但大多数都是由图书馆学家、情报学家编写的,侧重于信息检索的基本原理与基本方法,操作性较强。Baeza-Yates和Ribeiro-Neto两人本身是计算机领域的专家,又熟谙信息检索的理论;他们从计算机科学的观点出发,将计算机理论与信息检索结合起来,重点阐述了信息检索的数学模型和实现技术,不啻为一部开历史之先河的佳作,本书的价值也在于此。我们相信,任何从事信息检索领域工作的人们,任何希望能快速、便捷地检索信息的人们,都会从本书的阅读中受益匪浅,这也是我们愿意做这件事的原因所在。受益于此书有余,不揣冒昧地为本书的读者们建议一条高效的阅读途径。本书分为两大部分,第一部分由第1章至第9章组成,以数学理论为基础,深入浅出地分析了信息检索的模型、评价、查询语言与操作、文本语言与操作、多媒体语言及其特征、标引与检索、并行与分布式检索等,内容严谨而又翔实,这部分构成了本书的核心。相比较而言,第4章“查询语言”是读者更合理的起点,第2章“建模”是理解全书的关键所在,任何检索都是在此基础上推广而来的。后一部分由第10章至第15章组成,这是计算机科学应用于信息检索领域的最新成果,主要涉及用户界面与可视化、多媒体信息检索的模型与语言及其标引与检索、Web检索、图书馆与书目系统、数字图书馆等,这部分是前一部分的合乎逻辑的延伸和扩展。从事信息检索研究的人们可以此为开端,了解新形势下的信息检索。此外,每一章都有“发展趋势与研究课题”和“书目讨论”两节,给读者提供了广阔、深入的进一步学习和研究的空间。本书的内容还有很多,在阅读的过程中,你将会发现许多新鲜生动而又非常深刻的东西,会发现许多你本该知道而至今尚未知晓的东西,这也是我们在阅读和翻译这本书过程中的切身体会。一部英文论著在汉语中的旅行,永远是无法捉摸的。对本书的译者来说,全书讨论的正是译者们最为熟知的一个领域。这次翻译的前提是对原文的彻底领会,因此,不会存在任何技术细节会因为译者的生疏而发生扭曲。事实上,译者们所面对的主要是“词汇”方面。同一个词或短语,在不同的领域有不同的理解,鉴于此,我们结合自己多年的信息检索知识和经验,遵从教科书的习惯用法,参考了《英汉计算机词典》、《英汉数学词典》等,并请教了一些该领域的专家,力求做到准确无误。依循学术惯例,或许不无感激,我们要感谢对本书的翻译有所襄助的学人们。本书由王知津、贾福新、郑红军主译,李明珍、孙鑫、蒋伟伟、翟娅、刘建准、王辰君、武丽辉、范志雯、路彩妹、马爱萍、谭周明、张国华、孙美丽、孙立武也对本书部分内容的初译作了很多的工作,在此予以衷心感谢。全书由郑红军进行了一校和部分内容的重译,王知津负责全书的二校和最后审定。译文虽经多次修改和校正,并根据本书官方网站的最新勘误表订正了绝大部分错误,但由于译者的水平有限,加之时间仓促,疏漏及缺点、错误在所难免,我们真诚地希望同行和读者不吝赐教,不胜感激之至。致谢我们向在过去几个月中给予我们无私帮助的那些人致以诚挚的谢意。如果没有他们的大力支持,本书可能无法得以出版。首先,我们要感谢所有章节的作者以及他们所做的贡献。ElisaBertino、EricBrown、BarbaraCatania、ChristosFaloutsos、ElenaFerrari、EdFox、MartiHearst、GonzaloNavarro、EdieRasmussen、OhmSornil、NivioZiviani,他们文章中的专业知识是我们所不具备的。在整个编辑和反复审核的过程中,他们表现出了极大的耐心,在此我们表示感谢。其次,我们要感谢对本书的出版有着很大兴趣的所有人,尤其是ScottDelman和DougSery。再次,我们要感谢AddisonWesleyLongman出版公司在整个过程中所做的工作以及KeithMansfield、KarenSutherland、BridgetAllen、DavidHarison、SheilaChatten、HelenHodge和LisaTalbot的兴趣和鼓励。他们联系的评论人阅读了本书的一些早期方案,并给我们提供了好的反馈和非常宝贵的意见。“并行和分布式信息检索”一章从“信息检索应用”(在书中并不适用)部分移至“文本信息检索”部分,这是因为一个不知姓名的推荐人对此进行了客观的论证。“检索评价”这一章也是另一个热情的推荐人强调了这一主题的重要性后才添加进去的。第四,我们要感谢与我们讨论这个方案的所有的人。DougOard对草案做了初期的评论。GaryMarchionini是早期的支持者,并与我们保持着紧密的联系。BruceCroft从一开始就鼓励我们尽力地做好。AlbertoMendelzon提出了初始的建议,并在检索了Web后汇编了各章的参考文献。EdFox在百忙中抽出时间对“绪论”这一章做了非常有见解的评论(使得这章有很大的改善),并对“建模”这一章做了详尽的评述。MartiHearst对我们早期的草案表现出了很大的兴趣,并在整个编辑过程了给予了帮助,是一位热情的支持者和参与者。第五,我们要感谢我们单位的支持,智利大学计算机科学系和FederalUniversityofMinasGerais对我们无私的支援。国家研究局(巴西研究委员会(CNPq)和智利国家科学技术研究委员会(CONICYT))、国际合作项目尤其是西班牙的美洲西班牙语区发展科学技术部(CYTED)项目ⅤⅡ.13AMYRI(万维网中的信息管理和检索环境)、Pronex计划下的巴西科技部科研项目信贷局(Finep)项目SIAM(移动计算机信息系统)给我们提供了资金支持。最为重要的是,感谢Helena、Rosa和孩子们,为了本书我们做了许多旅行调查、错过了许多周末而且工作时间没有规律,而她们默默忍受了这一切。