本书主要分析Hadoop 3.2.0的新特性和新功能,共5章。首先简单介绍Hadoop,让刚接触Hadoop的读者对它有个基本了解; 接着介绍目前使用比较多的分布式文件系统HDFS,内容涉及NameNode 的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台YARN;再后讨论如何在YARN平台中运行应用,比如如何将应用迁移到YARN平台,以及非Hadoop的应用是如何兼容YARN模式的。最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的Hadoop 3.0集群;如何将现有Hadoop 2.0集群升级到Hadoop 3.0,及其在升级过程中遇到的问题;如何针对Hadoop进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。