本书系统讲述Apache Spark/PySpark大数据计算平台的原理,以及如果将Apache PySpark应用于大数据的实时流处理、批处理等各个场景。通过原理深入学习和实践示例、案例的学习应用,使读者了解并掌握Apache Spark/PySpark的基本原理和技能,接近理论与实践的距离。 全书共分为8章,主要内容包括:Spark架构原理与集群搭建、开发和部署PySpark应用程序、PySpark核心编程、PySpark SQL、PySpark SQL高级分析、PySpark结构化流、PySpark结构化流高级处理、Spark大数据处理综合案例。本书源码全部在Apache Spark 3.1.2上调试成功,所有示例和案例均基于Python 3.x语言。 为降低读者学习大数据技术的门槛,本书除了提供了丰富的上机实践操作和范例程序详解之外,本书作者还为购买和使用本书的读者提供了搭建好的Hadoop、Hive数仓和PySpark大数据开发和学习环境。读者既可以参照本书的讲解自行搭建Hadoop和PySpark环境,也可直接使用作者提供的开始和学习环境,快速开始大数据和PySpark的学习。 本书系统讲解了Apache Spark/PySpark大数据计算平台的原理和流、批处理的开发实践,内容全面、实例丰富、可操作性强,做到了理论与实践相结合。本书适合大数据学习爱好者、想要入门Apache Spark/PySpark的读者作为入门和提高的技术参考书,也适合用作大中专院校大数据专业相关的学生和老师的教材或教学参考书。