《数据馆员的Hadoop简明手册》旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。本手册力求简单、通俗、易懂,既不泛泛之谈,也不过早深入细节,而是力求把握重点。事实上,唯有实践才能真正理解Hadoop的有趣之处和局限之处,但在实践之前,或者考虑选择架构之前,如果有这么一本手册,会容易理解、沟通及评估。《数据馆员的Hadoop简明手册》包括5个部分。第1章概述分布式大数据的基本概念,以及开源软件Hadoop的历史、生态体系及主要版本的变化。第2章概述核心架构中的计算资源分配、列式计算的工具及索引。第3章概述分布式计算的MapReduce方案,这也是*为通用的一种方案,能满足海量数据的处理。第4章概述如何优化Hadoop的案例。*后,附录介绍Hado叩家族产品。