本书基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。 第1篇“准备”,包括认识大数据和Spark、安装与配置Spark集群、第1个Spark程序; 第2篇“入门”,包括读写分布式数据、处理分布式数据; 第3篇“进阶”,包括RDD的高级操作、用SQL语法分析结构化数据、实时处理流式数据; 第4篇“高阶”,包括实时处理流式数据、Spark的相关优化; 第5篇“商业项目实战”,用Spark的各种组件实现一个学生学情分析商业项目。 本书结构清晰、实例丰富、通俗易懂、实用性强,特别适合Spark的初学者和进阶读者作为自学用书。另外,本书也适合社会培训学校作为培训教材,还适合大中专院校的相关专业作为教学参考书。