本书介绍了大数据处理中的数据采集、数据存储、数据预处理、数据分析与挖掘等内容,还介绍了使用Python语言进行大数据处理的方法。全书共8章。第1章简要介绍大数据的概念、大数据处理的过程和涉及的不同方面,以及使用Python解决大数据问题的优势。第2章介绍如何安装和准备Python编程环境,包括编译器、集成开发环境(IDE)的安装,以及第三方包的管理和安装方法。第3章介绍获取数据的方法,即如何使用爬虫技术从网站获取网页,并通过解析网页获取其中的数据。第4章介绍数据存储和使用的方法,包括操作常见类型文件的方法,以及操作关系型数据库和NoSQL数据库的方法。第5章介绍如何使用NumPy和Pandas操作数组、矩阵以及如何使用其中的随机数功能。第6章介绍数据预处理的概念,并介绍数据清洗、数据集成、数据转换和数据规约的方法。第7章介绍数据挖掘的常见模型,并介绍利用scikit-learn进行有监督分类、回归预测以及聚类分析的方法。第8章介绍数据可视化基础,包括可视化的过程和如何选择合适的图表,并介绍了利用Matplotlib绘制常见的图表。 本书的第1、2章是基础,第3~8章分别介绍了大数据处理的某一环节。这些章节的内容相互独立,读者在自学时可根据兴趣和时间调整学习顺序。