现代信息检索

内容简介

　　本书对信息检索领域的最新进展作了严谨、完整的剖析，内容涉及信息检索的数学模型、评价、查询语言与操作、文本语言与操作、多媒体语言及其特征、标引与检索、并行与分布式检索、用户界面与可视化、多媒体信息检索的模型与语言、多媒体信息检索的标引和检索、Web检索、图书馆与书目系统和数字图书馆等。本书内容广泛、细节丰富、深入浅出，可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书，对从事信息检索及其系统与网络的分析、设计的实际工作者也有较高的参考价值。本书前言前言近年来，随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现，信息检索（informationretrieval，IR）领域已经发生了巨大的变化，这使得传统的信息检索教材变得过时，所以很有必要引进新的信息检索图书。我们坚信，读者非常需要一本从计算机科学的观点（相对于用户中心观点）严谨完整地剖析该领域的书。本书正是致力于填补这一空白，并适合作为信息检索的本科课程和研究生课程的教材。本书由两个既相互补充又相互平衡的部分组成。前九章是核心部分，由本书的设计者编著或合著；第二部分共六章，与第一部分紧密相连，是由本领域的杰出研究者编写的相关学科最新成果。所有章节都使用相同的注释和术语。因此，尽管本书由多人合著，但实际上是一本很好的教材，而不是将各个作者所写的章节简单地编辑在一起。此外，我们还精心设计了本书的内容和结构，力求全面展示现代信息检索各重要部分的观点。从信息检索模型到标引文本、从信息检索可视化工具到Web界面、从信息检索多媒体到数字图书馆，本书内容广泛、细节丰富。鉴于信息检索对现代社会的紧密相关性和重要性，我们希望本书为进一步在全球范围内传播信息科学、计算机科学和图书馆学的学科研究成果做出贡献。译者序RicardoBaeza-Yates和BerthierRibeiro-Neto是国际信息学界人士非常敬重的信息检索方面的专家，他们的作品都是口碑极佳的上乘之作，为他们的作品写译者序，这个念头本身就比较僭越。拜读此书，沉思良久，深感此书确实讨论了信息检索中许多非常重要的问题，而它们又是非常实际的，有些也是我们在工作中经常遇到的。文中的讨论和分析通俗易懂，又寓意深远，读后颇感收获甚丰，不免由此萌生了将这本书介绍给国内同行的想法。几经辗转，了解到机械工业出版社有意出版此书，便自告奋勇地承担起了翻译的工作。信息检索是信息管理领域中的核心部分。面对人类社会不断发展而积累起来的海量知识，如何高效、准确地查找所需要的信息，是每一个人在学习、研究和生活中都无法回避的问题。信息检索最早起源于图书馆的参考咨询工作和书目工作，后来，随着信息的急剧增加，人们对信息的利用也日趋广泛，信息检索也逐渐普及开来。计算机技术、网络技术、通信技术和大容量存储技术的发展和流行，使得信息检索领域也发生了巨大的变化，现代信息检索与计算机科学的联系越来越密切，信息检索进入了全新的发展阶段。目前，环顾国内外，关于信息检索的教材可谓琳琅满目，但大多数都是由图书馆学家、情报学家编写的，侧重于信息检索的基本原理与基本方法，操作性较强。Baeza-Yates和Ribeiro-Neto两人本身是计算机领域的专家，又熟谙信息检索的理论；他们从计算机科学的观点出发，将计算机理论与信息检索结合起来，重点阐述了信息检索的数学模型和实现技术，不啻为一部开历史之先河的佳作，本书的价值也在于此。我们相信，任何从事信息检索领域工作的人们，任何希望能快速、便捷地检索信息的人们，都会从本书的阅读中受益匪浅，这也是我们愿意做这件事的原因所在。受益于此书有余，不揣冒昧地为本书的读者们建议一条高效的阅读途径。本书分为两大部分，第一部分由第1章至第9章组成，以数学理论为基础，深入浅出地分析了信息检索的模型、评价、查询语言与操作、文本语言与操作、多媒体语言及其特征、标引与检索、并行与分布式检索等，内容严谨而又翔实，这部分构成了本书的核心。相比较而言，第4章“查询语言”是读者更合理的起点，第2章“建模”是理解全书的关键所在，任何检索都是在此基础上推广而来的。后一部分由第10章至第15章组成，这是计算机科学应用于信息检索领域的最新成果，主要涉及用户界面与可视化、多媒体信息检索的模型与语言及其标引与检索、Web检索、图书馆与书目系统、数字图书馆等，这部分是前一部分的合乎逻辑的延伸和扩展。从事信息检索研究的人们可以此为开端，了解新形势下的信息检索。此外，每一章都有“发展趋势与研究课题”和“书目讨论”两节，给读者提供了广阔、深入的进一步学习和研究的空间。本书的内容还有很多，在阅读的过程中，你将会发现许多新鲜生动而又非常深刻的东西，会发现许多你本该知道而至今尚未知晓的东西，这也是我们在阅读和翻译这本书过程中的切身体会。一部英文论著在汉语中的旅行，永远是无法捉摸的。对本书的译者来说，全书讨论的正是译者们最为熟知的一个领域。这次翻译的前提是对原文的彻底领会，因此，不会存在任何技术细节会因为译者的生疏而发生扭曲。事实上，译者们所面对的主要是“词汇”方面。同一个词或短语，在不同的领域有不同的理解，鉴于此，我们结合自己多年的信息检索知识和经验，遵从教科书的习惯用法，参考了《英汉计算机词典》、《英汉数学词典》等，并请教了一些该领域的专家，力求做到准确无误。依循学术惯例，或许不无感激，我们要感谢对本书的翻译有所襄助的学人们。本书由王知津、贾福新、郑红军主译，李明珍、孙鑫、蒋伟伟、翟娅、刘建准、王辰君、武丽辉、范志雯、路彩妹、马爱萍、谭周明、张国华、孙美丽、孙立武也对本书部分内容的初译作了很多的工作，在此予以衷心感谢。全书由郑红军进行了一校和部分内容的重译，王知津负责全书的二校和最后审定。译文虽经多次修改和校正，并根据本书官方网站的最新勘误表订正了绝大部分错误，但由于译者的水平有限，加之时间仓促，疏漏及缺点、错误在所难免，我们真诚地希望同行和读者不吝赐教，不胜感激之至。致谢我们向在过去几个月中给予我们无私帮助的那些人致以诚挚的谢意。如果没有他们的大力支持，本书可能无法得以出版。首先，我们要感谢所有章节的作者以及他们所做的贡献。ElisaBertino、EricBrown、BarbaraCatania、ChristosFaloutsos、ElenaFerrari、EdFox、MartiHearst、GonzaloNavarro、EdieRasmussen、OhmSornil、NivioZiviani，他们文章中的专业知识是我们所不具备的。在整个编辑和反复审核的过程中，他们表现出了极大的耐心，在此我们表示感谢。其次，我们要感谢对本书的出版有着很大兴趣的所有人，尤其是ScottDelman和DougSery。再次，我们要感谢AddisonWesleyLongman出版公司在整个过程中所做的工作以及KeithMansfield、KarenSutherland、BridgetAllen、DavidHarison、SheilaChatten、HelenHodge和LisaTalbot的兴趣和鼓励。他们联系的评论人阅读了本书的一些早期方案，并给我们提供了好的反馈和非常宝贵的意见。“并行和分布式信息检索”一章从“信息检索应用”（在书中并不适用）部分移至“文本信息检索”部分，这是因为一个不知姓名的推荐人对此进行了客观的论证。“检索评价”这一章也是另一个热情的推荐人强调了这一主题的重要性后才添加进去的。第四，我们要感谢与我们讨论这个方案的所有的人。DougOard对草案做了初期的评论。GaryMarchionini是早期的支持者，并与我们保持着紧密的联系。BruceCroft从一开始就鼓励我们尽力地做好。AlbertoMendelzon提出了初始的建议，并在检索了Web后汇编了各章的参考文献。EdFox在百忙中抽出时间对“绪论”这一章做了非常有见解的评论（使得这章有很大的改善），并对“建模”这一章做了详尽的评述。MartiHearst对我们早期的草案表现出了很大的兴趣，并在整个编辑过程了给予了帮助，是一位热情的支持者和参与者。第五，我们要感谢我们单位的支持，智利大学计算机科学系和FederalUniversityofMinasGerais对我们无私的支援。国家研究局（巴西研究委员会（CNPq）和智利国家科学技术研究委员会（CONICYT））、国际合作项目尤其是西班牙的美洲西班牙语区发展科学技术部（CYTED）项目ⅤⅡ.13AMYRI（万维网中的信息管理和检索环境）、Pronex计划下的巴西科技部科研项目信贷局（Finep）项目SIAM（移动计算机信息系统）给我们提供了资金支持。最为重要的是，感谢Helena、Rosa和孩子们，为了本书我们做了许多旅行调查、错过了许多周末而且工作时间没有规律，而她们默默忍受了这一切。

作者简介

　　RicardoBaeza-Yates，于加拿大滑铁卢大学获得计算机科学博士学位。曾担任智利计算机科学学会主席。1993年，他被授予美国组织奖，该奖只颁发给计算机科学领域的杰出年轻研究人员。现任智利大学计算机科学系教授，并在1993-1995年期间担任系主任，同时也是世界上多所大学的客座教授，在多次国际会议上做过演讲，在多个技术期刊上发表过文章。他还是ACM、EATCS、IEEE、SCCC及SIAM会员。他的主要研究主谢为算法和数据结构、文本检索、图形界面以及可视化在数据库的应用。BerthierRibeiro-Neto于加利福尼亚大学洛杉矶分校获得计算机科学博士学位。现任巴西FederalUniversityofMinasGerais计算机科学系副教授，他是1998年南美“字符串处理和信息检索”大会以及1999年“巴西数据库会议”的主席，同时也是ACM、ASIS及IEEE会员。他的主要研究方向是信息检索系统、数字图书馆、WEB界面及视频点播。相关图书数据仓库（原书第3版）神经网络原理（原书第２版）编译原理信息论、编码与密码学软件需求3D游戏卷1实时渲染与软件技术3D游戏卷2动画与高级实时渲染技术数字图像处理疑难解析UNIX系统编程现代操作系统（第2版）计算机网络：自顶向下方法与Internet特色（原书第3版）高级编译器设计与实现计算机网络系统方案（原书第3版）3D计算机图形学（原书第3版）C程序设计语言（第2版·新版）习题解答Java面向对象程序设计教程嵌入式微控制器C++编程思想。第2卷：实用编程技术模式分析的核方法微机接口技术实验教程C++语言的设计和演化并行计算导论（原书第2版）离散数学导学数据库设计教程（第２版）组合数学（原书第4版）JAVA编程思想（第2版）数据库系统导论CAXA数控铣CAD/CAM技术C语言的科学和艺术计算机视觉信息系统原理：原书第6版并行程序设计数据库与事务处理操作系统计算机网络与因特网（原书第4版）计算机科学概论（原书第2版）人工智能：英文可扩展并行计算技术、结构与编程数据库原理、编程与性能

图书目录

第1章  绪论        1
1.1  目的        1
1.1.1  信息检索与数据检索        1
1.1.2  引人注目的信息检索        2
1.1.3  本书的重点        2
1.2  基本概念        3
1.2.1  用户任务        3
1.2.2  文献的逻辑视图        4
1.3  过去、现在和将来        4
1.3.1  早期发展        4
1.3.2  图书馆的信息检索        5
1.3.3  Web与数字图书馆        5
1.3.4  实践问题        6
1.4  检索过程        6
1.5  本书的组织        8
1.5.1  本书的主题        8
1.5.2  本书的章节        9
1.6  如何使用本书        11
1.6.1  教学建议        11
1.6.2  本书的网页        12
1.7  书目讨论        12
第2章  建模        15
2.1  引言        15
2.2  信息检索模型的分类        15
2.3  特别检索和过滤        17
2.4  信息检索模型的形式特征        18
2.5  经典信息检索        18
2.5.1  基本概念        18
2.5.2  布尔模型        19
2.5.3  向量模型        20
2.5.4  概率模型        22
2.5.5  经典模型的简单比较        24
2.6  可供选择的集合理论模型        25
2.6.1  模糊集合模型        25
2.6.2  扩展布尔模型        27
2.7  可供选择的代数模型        29
2.7.1  广义向量空间模型        29
2.7.2  潜语义标引模型        31
2.7.3  神经网络模型        32
2.8  可供选择的概率模型        34
2.8.1  贝叶斯网络        34
2.8.2  推理网络模型        35
2.8.3  信任度网络模型        39
2.8.4  贝叶斯网络模型的比较        41
2.8.5  贝叶斯网络的计算值        42
2.8.6  贝叶斯网络模型的影响        42
2.9  结构化文本检索模型        42
2.9.1  基于非重叠链表的模型        43
2.9.2  基于邻近结点的模型        44
2.10  浏览模型        45
2.10.1  扁平浏览模型        45
2.10.2  结构导向模型        45
2.10.3  超文本模型        46
2.11  发展趋势与研究课题        47
2.12  书目讨论        48
第3章  检索评价        51
3.1  引言        51
3.2  检索性能评价        51
3.2.1  查全率和查准率        52
3.2.2  其他测度方法        57
3.3  参考文献集        58
3.3.1  TREC文献集        58
3.3.2  CACM和ISI测试集        64
3.3.3  Cystic Fibrosis测试集        66
3.4  发展趋势与研究课题        67
3.5  书目讨论        67
第4章  查询语言        69
4.1  引言        69
4.2  基于关键词的查询        70
4.2.1  单一词查询        70
4.2.2  上下文查询        70
4.2.3  布尔查询        71
4.2.4  自然语言        72
4.3  模式匹配        72
4.4  结构性查询        74
4.4.1  固定式结构        74
4.4.2  超文本        75
4.4.3  层次结构        75
4.5  查询协议        78
4.6  发展趋势与研究课题        79
4.7  书目讨论        80
第5章  查询操作        83
5.1  引言        83
5.2  用户相关反馈        83
5.2.1  向量空间模型的查询扩展和语词重新加权        84
5.2.2  概率模型的语词重新加权        84
5.2.3  概率语词加权的一个变形        86
5.2.4  相关反馈策略评价        86
5.3  自动局部分析        87
5.3.1  通过局部聚类的查询扩展        87
5.3.2  通过局部上下文分析的查询扩展        91
5.4  自动全局分析        92
5.4.1  基于相似性叙词表的查询扩展        92
5.4.2  基于统计叙词表的查询扩展        94
5.5  发展趋势与研究课题        96
5.6  书目讨论        96
第6章  文本与多媒体语言特性        99
6.1  引言        99
6.2  元数据        100
6.3  文本        101
6.3.1  格式        101
6.3.2  信息论        101
6.3.3  自然语言建模        102
6.3.4  相似度模型        104
6.4  标记语言        104
6.4.1  SGML        105
6.4.2  HTML        106
6.4.3  XML        108
6.5  多媒体        110
6.5.1  格式        110
6.5.2  文本图像        111
6.5.3  图形和虚拟现实        111
6.5.4  超媒体结构化语言HyTime        112
6.6  发展趋势与研究课题        113
6.7  书目讨论        114
第7章  文本操作        115
7.1  引言        115
7.2  文献预处理        116
7.2.1  文本的词汇分析        117
7.2.2  排除停用词        117
7.2.3  词干提取        118
7.2.4  标引词的选择        119
7.2.5  叙词表        119
7.3  文献聚类        121
7.4  文本压缩        122
7.4.1  目的        122
7.4.2  基本概念        123
7.4.3  统计方法        123
7.4.4  词典方法        128
7.4.5  倒排文档压缩        129
7.5  文本压缩技术的比较        130
7.6  发展趋势与研究课题        131
7.7  书目讨论        132
第8章  标引与检索        135
8.1  引言        135
8.2  倒排文档        136
8.2.1  检索        138
8.2.2  构造        139
8.3  文本的其他索引        141
8.3.1  后缀树和后缀数组        141
8.3.2  签名档        146
8.4  布尔查询        148
8.5  顺序检索        149
8.5.1  布鲁特-福斯算法        149
8.5.2  克鲁什-莫里斯-普拉特算法        150
8.5.3  博叶-摩尔系列算法        151
8.5.4  移位-或算法        152
8.5.5  后缀自动机算法        153
8.5.6  应用比较        153
8.5.7  词组查询和相邻查询        154
8.6  模式匹配        155
8.6.1  字符串容错匹配        155
8.6.2  正则表达式和扩展模式        157
8.6.3  使用索引的模式匹配        157
8.7  结构性查询        159
8.8  压缩        159
8.8.1  顺序检索        160
8.8.2  压缩后的索引        161
8.9  发展趋势与研究课题        162
8.10  书目讨论        163
第9章  并行与分布式信息检索        165
9.1  引言        165
9.1.1  并行计算        165
9.1.2  性能指标        166
9.2  并行信息检索        167
9.2.1  引言        167
9.2.2  MIMD体系结构        167
9.2.3  SIMD体系结构        172
9.3  分布式信息检索        179
9.3.1  引言        179
9.3.2  文献集分割        180
9.3.3  信息源的选取        181
9.3.4  查询处理        182
9.3.5  Web应用        182
9.4  发展趋势与研究课题        183
9.5  书目讨论        184
第10章  用户界面与可视化        185
10.1  引言        185
10.2  人机交互        185
10.2.1  设计原则        186
10.2.2  可视化的作用        186
10.2.3  交互系统评价        188
10.3  信息存取过程        188
10.3.1  交互模型        189
10.3.2  信息存取过程的非检索部分        190
10.3.3  早期的界面研究        191
10.4  检索起点        191
10.4.1  信息集合列表        192
10.4.2  概述        192
10.4.3  实例、对话、向导        198
10.4.4  信息源的自动选择        199
10.5  查询的详细描述        200
10.5.1  布尔查询        200
10.5.2  从命令行到表格和菜单        201
10.5.3  分面查询        202
10.5.4  查询详细描述的图形方式        203
10.5.5  词组和相邻        206
10.5.6  自然语言和自由文本查询        207
10.6  上下文        208
10.6.1  文献替代        208
10.6.2  文献内容中的查询词命中        209
10.6.3  文献之间的查询词命中        211
10.6.4  SuperBook：上下文与目次表        213
10.6.5  结果集合上下文的类目        214
10.6.6  运用超链接组织检索结果        215
10.6.7  表格        218
10.7  运用相关性评价        219
10.7.1  标准的相关反馈界面        220
10.7.2  用户与相关反馈系统交互研究        221
10.7.3  特定背景下相关信息的获取        222
10.7.4  组相关评价        223
10.7.5  伪相关反馈        223
10.8  界面对检索过程的支持        223
10.8.1  字符串匹配界面        223
10.8.2  窗口管理        225
10.8.3  系统举例        226
10.8.4  重叠式窗口使用不当举例        229
10.8.5  保留检索历史        229
10.8.6  浏览、选择与查询的集成        230
10.9  发展趋势与研究课题        233
10.10  书目讨论        233
第11章  多媒体信息检索：模型与语言        235
11.1  引言        235
11.2  数据建模        236
11.2.1  商业数据库管理系统中多媒体数据的支持        238
11.2.2  MULTOS数据模型        239
11.3  查询语言        241
11.3.1  需求描述        241
11.3.2  多媒体数据的条件        242
11.3.3  查询表达中的不确定性、相邻性和权值        243
11.3.4  建议        243
11.4  发展趋势与研究课题        246
11.5  书目讨论        247
第12章  多媒体信息检索：标引与检索        249
12.1  引言        249
12.2  背景知识—空间存取方法        250
12.3  通用的多媒体标引方法        251
12.4  一维时间序列        254
12.4.1  距离函数        254
12.4.2  特征提取和下界        255
12.4.3  实验        256
12.5  二维彩色图像        257
12.5.1  图像特征和距离函数        258
12.5.2  确定下界        258
12.5.3  实验        259
12.6  自动特征提取        260
12.7  发展趋势与研究课题        260
12.8  书目讨论        262
第13章  Web信息检索        265
13.1  引言        265
13.2  挑战        265
13.3  Web特征描述        266
13.3.1  Web测度        266
13.3.2  Web建模        268
13.4  搜索引擎        269
13.4.1  集中式结构        269
13.4.2  分布式结构        271
13.4.3  用户界面        272
13.4.4  排序        275
13.4.5  漫游Web        276
13.4.6  索引        277
13.5  浏览        278
13.5.1  Web目录        278
13.5.2  检索和浏览的结合        279
13.5.3  帮助工具        279
13.6  元搜索引擎        280
13.7  大海捞针        281
13.7.1  用户问题        281
13.7.2  实例        282
13.7.3  用户培训        282
13.8  使用超链接搜索        283
13.8.1  Web查询语言        283
13.8.2  动态搜索和软件代理        283
13.9  发展趋势与研究课题        284
13.10  书目讨论        285
第14章  图书馆与书目系统        287
14.1  引言        287
14.2  联机信息检索系统和文献数据库        287
14.2.1  数据库        288
14.2.2  联机检索系统        291
14.2.3  联机检索系统中的信息检索        292
14.2.4  “自然语言”检索        293
14.3  联机公共检索目录(OPAC)        294
14.3.1  OPAC及其内容        295
14.3.2  OPAC和最终用户        296
14.3.3  OPAC：供应商和产品        296
14.3.4  其他OPAC供应商        296
14.4  图书馆和数字图书馆项目        297
14.5  发展趋势与研究课题        297
14.6  书目讨论        298
第15章  数字图书馆        299
15.1  引言        299
15.2  定义        300
15.3  体系结构        301
15.4  文献模型、表达与存取        303
15.4.1  多语种文献        303
15.4.2  多媒体文献        303
15.4.3  结构化文献        304
15.4.4  分布式文献集        304
15.4.5  联邦式检索        305
15.4.6  存取        306
15.5  原型、项目与接口        306
15.5.1  国际努力        308
15.5.2  可用性        308
15.6  标准        309
15.6.1  协议和联合        309
15.6.2  元数据        310
15.7  发展趋势与研究课题        311
15.8  书目讨论        311
附录  Porter算法        313
术语表        317
参考文献        325
缩略语表        371
索引        375

作　者：	Ricardo Baeza-Yates，Berthier Ribeiro-Neto等著；王知津等译；王知津译
出版社：	机械工业出版社
丛编项：	计算机科学丛书
标　签：	暂缺

ISBN：	9787111158783	出版时间：	2005-03-01	包装：	平装
开本：	26cm	页数：	388	字数：

购买这本书可以去

内容简介

作者简介

图书目录

本目录推荐

基于视觉认知理论的头盔显示界面…

基于原子和人工生态系统的新智能…

高校信息化建设与管理：制度篇

信创产业导论

严肃的密码学：实用现代加密术

信息系统学报第25辑

在线群体创新中的外部信息支持研…

基于工业互联网的工程实践创新：…

基于矩阵分解的信息融合方法及应…

计算机数学基础（第6版）