全书共由7章组成,其中:第1章主要介绍数据挖掘技术、离群挖掘、集群系统与Spark并行计算模型及大数据的相关概念、理论基础和应用。第2章利用特征分组,针对高维分类数据集,研究了一种基于加权特征分组的离群检测新方法,通过将特征分为多个特征组来发现每个组中特征模式的不同方面。第3章利用Spark计算平台,研究了高维分类数据的并行离群检测算法。第4章通过分析属性间的相关性,研究了一种基于互信息的混合属性离群检测算法。该算法在互信息机制下给出了针对数值型和分类型统一的属性加权方法和离群得分计算方法,而且不同类型属性下的相似性度量也进行了规范化处理。第5章针对互信息计算的复杂性问题,充分利用Spark并行计算框架的强大计算能力,研究了一种并行互信息计算方法,该算法利用列变换和虚拟数据划分技术降低了网络传输和计算代价。第6章以某钢铁企业实际的冷轧辊产品加工数据为背景,设计与实现了冷轧辊制造过程离群检测原型系统,从而为企业开展产品质量控制提供了一种新的技术方法和解决思路。第7章是研究的总结与展望。