Python大数据处理库PySpark实战

定　价：¥79.00

作　者：	汪明著
出版社：	清华大学出版社
丛编项：
标　签：	暂缺

购买这本书可以去

京东 (¥70.20)

ISBN：	9787302575085	出版时间：	2021-02-01	包装：	平装
开本：	16开	页数：	310	字数：

内容简介

　　我国提出新基建概念，要加快大数据中心、人工智能等新型基础设施的建设进度，这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理，降低大数据学习门槛，本书正是一本PySpark入门教材，适合有一定Python基础的读者学习使用。本书分为7章，第1章介绍大数据的基本概念、常用的大数据分析工具；第2章介绍Spark作为大数据处理的特点和算法；第3章介绍Spark实战环境的搭建，涉及Windows和Linux操作系统；第4章介绍如何灵活应用PySpark对数据进行操作；第5章介绍PySpark ETL处理，涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容；第6章介绍PySpark如何利用MLlib库进行分布式机器学习（Titanic幸存者预测）；第7章介绍一个PySpark和Kafka结合的实时项目。本书内容全面、示例丰富，可作为广大PySpark入门读者必备的参考书，同时能作为大中专院校师生的教学参考书，也可作为高等院校计算机及相关专业的大数据技术教材使用。