数据挖掘技术是多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。人们希望通过数据挖掘技术找到蕴藏在数据中的有用信息,进而找到尚未发现的知识,为商业竞争、企业生产和管理、政府部门决策以及科学探索等提供信息与知识,这种所谓隐藏在数据中的信息与知识是人的先验知识和经验无法确定的,对于帮助人们作出适当决策是很有价值的。 数据挖掘技术是在统计学、人工智能(特别是机器学习)和数据库技术等多种技术的基础上发展起来的。数据挖掘强调的是大数据量和算法的可伸缩性,它是一门很接近实用的学科,一出现就被许多部门所应用。由于它的实用性和商业效益,近年来人们研究出许多数据挖掘的新方法,并开发了许多数据挖掘的新产品。 本书从数据库的角度对数据挖掘的基本方法和算法进行了系统的介绍。全书共分三部分: 第1部分包括第1~3章,介绍数据挖掘的发展和基本概念;第2部分包括第4~6章,介绍最基本的数据挖掘方法,这部分也是全书的重点;第3部分包括第7~9章,介绍了近年来出现的较新的数据挖掘方法和领域。每章最后两节均为练习和参考文献注释。一部分练习用于检验学生掌握书中所述概念和知识的情况,另一部分练习提出需要进一步研究和思考的问题。每章的参考文献注释则较详细地说明了该章涉及的方法与算法的发展历程和状况,作者花费了很大精力查阅和收集这方面的资料。 本书适合作为计算机专业研究生及高年级本科生教材。作为教科书,书中的内容有一定的深度和广度,对许多方法和算法都作了引导性的叙述。但作为一本基础性的教科书,它不可能包括太广的内容,对近年来发展较快的一些新方法,如粗糙集、贝叶斯网络和支持向量机等,书中并未深入叙述。要想更深入地掌握一些方法和提出改进建议,还需要查阅书中给出的参考文献和一些方法的最新进展。本书还可作为相关领域科技人员的参考书。 作者在她本人的网页上给出了英文原著的演示文稿和勘误表,有兴趣的读者可查阅http://www.engr.smu.edu/~mhd/。除作者给出的勘误之外,译者也发现一些错误和疑似错误之处,在译文中对一般拼写错误、笔误和明显的小错误均未作说明而直接给出了校正,对较大一些的错误则在相应页中的脚注中给出了说明。 郭崇慧博士翻译了第1、4、5章,田凤占博士翻译了第2、6章,靳晓明博士翻译了第3、8、9章,孙建涛博士生翻译了第7章,沈抖硕士生翻译了附录。丛艳硕士参加了部分翻译和校对工作,鲁明羽博士也参加了部分校对工作。陆玉昌教授统一组织了全书的翻译和校对工作,并审阅定稿。 由于译者知识和水平所限,出现错误及疏漏之处敬请指正 译者 2004年4月