这套书以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有效的数据挖掘知识和数据处理算法。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法,目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 源自斯坦福大学“海量数据挖掘”(CS246: Mining Massive Datasets)课程,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。两本书都提供了大量示例、图表和习题。