本书系统讲述Apache Spark大数据计算平台的原理,以及如果将Apache Spark应用于大数据的实时流处理、批处理、图计算等各个场景。通过原理深入学习和实践示例、案例的学习应用,使读者了解并掌握Apache Spark大数据计算平台的基本原理和技能,接近理论与实践的距离。 全书共分为13章,主要内容包括Spark架构原理与集群搭建、开发和部署Spark应用程序、Spark核心编程、Spark SQL、Spark SQL高级分析、Spark Streaming流处理、Spark结构化流、Spark结构化流高级处理、下一代Spark图处理库GraphFrames、下一代大数据技术(Delta Lake数据湖、Iceberg数据湖和Hudi数据湖)、Spark大数据处理综合案例。本书源码全部在Apache Spark 3.1.2上调试成功,所有示例和案例均基于Scala语言。 为降低读者学习大数据技术的门槛,本书除了提供了丰富的上机实践操作和范例程序详细讲解之外,本书作者还为购买和使用本书的读者提供了搭建好的Hadoop、Hive数仓和Spark大数据开发和学习环境。读者既可以参照本书的讲解自行搭建Hadoop和Spark环境,也可直接使用作者提供的开始和学习环境,快速开始大数据和Spark、数据湖的学习。 本书系统讲解了Apache Spark大数据计算平台的原理和流、批处理的开发实践,内容全面、实例丰富、可操作性强,做到了理论与实践相结合。本书适合大数据学习爱好者、想要入门Apache Spark的读者作为入门和提高的技术参考书,也适合用作大中专院校大数据专业相关的学生和老师的教材或教学参考书。