全书共十个项目,除了项目一介绍大数据基础理论外,其余项目均以实战为主线,内容循序渐进,逐步深入,围绕大数据技术的应用层层展开。内容主要包括大数据的基本概念、Ubuntu及服务安装配置、Hadoop集群部署、MapReduce编程、HBase数据库部署与应用、Hive数据仓库安装与应用、Pig数据分析、Sqoop数据迁移、Spark部署及数据分析等知识,最后以大数据技术的具体应用介绍了MapReduce大数据编程、Mahout的K-Means计算、决策树和随机森林的分类预测、频繁项集运算和关联分析等知识。本书秉承“实践为主、理论够用,注重实用”原则,将实验环节及实操内容融入各个知识点与课程教学中,以便读者能更好地学习和掌握大数据关键技术。