《数据馆员的Spark简明手册》旨在协助初级数据馆员们能够迅速了解Spark方面的知识、用途及整体概貌,作为进一步实践操作之前的入门基础读物。《数据馆员的Spark简明手册》力求简单、通俗、易懂,以读者能够快速把握重点为主,从而开展项目、课题、实验和研究。本手册旨在知识模块化,有了整体概述,可以方便读者与其他解决方案进行比较,在实践中遇到问题可以尽快发现需要深入钻研的部分。《数据馆员的Spark简明手册》包括8章。第1章概述Spark的发展背景、计算框架及机器学习等。第2章描述Spark的安装与运行。第3章概述Scala编程实现的方式。第4章概述Spark编程模型和解析。第5章进入到Spark数据挖掘的应用。第6章考虑大数据实时计算的问题,进行方案比较,突出Spark的特点。第7章阐明进一步优化Spark的方式。第8章概述Spark SQL来阐明如何在Spark上使用人们比较熟悉的SQL数据库语言的方式。