本书将围绕大数据技术的基本原理与实践,介绍了大数据获取、存储、分析、数据挖掘和机器学习。内容涵盖以下主题:Hadoop、Mapreduce、关联规则、大规模监督机器学习、数据流、集群、NoSQL系统(Pig、Hive),以及包括推荐系统、Web和安全性的应用程序。第1章重点阐述了大数据驱动的商业模式、技术生态体系,大数据的类型、特点、获取技术。第2章概要介绍了大数据的软硬件架构,包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理技术平台等,包括MapReduce编程框架原理、Spark结构与原理、基于Storm的大规模数据流的分布式处理技术等。第3章介绍了Python编程基础,包括基本数据类型、基本控制流程、Numpy、Scipy、Pandas等。第4章介绍了大数据分析技术,包括基于MapReduce基础编程、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的推荐系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于SparkMLlib/Mahout的大数据机器学习,包括机器学习基础、典型机器学习问题、机器学习评价方法、并行机器学习算法,并进行了利用MLlib解决大数据并行分类问题、利用Mahout解决大数据推荐优化问题实践。第6章介绍了基于大数据的深度学习技术,包括深度学习基本原理、深度学习典型应用、Keras 基础入门及应用案例。第7章介绍了材料大数据材料热导率预测、旅游大数据分析、交通大数据分析、工业大数据分析、产品创新大数据分析等带代码、数据的案例。本书内容深入浅出,具有很强的理论与实践指导作用,可作为数据科学与技术、人工智能、计算机科学、制造科学、机械工程等学科相关专业的本科生、研究生的教材或课程教学参考书,也是对工程技术人员、科研人员而言非常实用的工具书。