本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。