本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。 在本书中你将发现: * Spark SQL的新接口如何在SQL的RDD数据结构上改善性能 * Core Spark和Spark SQL之间的数据拼接选择 * 充分发挥标准RDD转换功能的技巧 * 如何处理Spark的键/值对范式的相关性能问题 * 编写高性能Spark代码,不使用Scala或JVM * 如何在应用建议的改进措施时测试功能和性能 * 使用Spark MLlib和Spark ML机器学习库 * Spark的流组件和外部社区软件包