本书根据现有的大数据技术理论,综合介绍了大数据技术的相关基础理论知识,并提供了部分实践操作介绍。本书共8个章节,内容包含大数据的概念和特征,大数据计量,大数据生命周期,大数据与云计算,Hadoop,HDFS,MapReduce,大数据编程语言Python、Spark、R语言,数据预处理,聚类分析,k-邻近分类算法,数据可视化,大数据应用,大数据安全与威胁,爬虫技术,MINIST数字识别技术。本书分别在大数据采集与预处理、数据挖掘与分析等重要章节中安排了入门级的实践操作内容,以便读者 好地学习和掌握大数据关键技术。本书可以作为高等院校数据科学与大数据等相关专业的课程教材,亦可作为大数据爱好者的科普读物。