在里扎等编著的《Spark高级数据分析(影印版 )(英文版)》这本实用书籍中,4位Cloude阳公司 的数据科学家讲解了一系列自包含模式,用于在 Spark中进行大规模数据分析。本书作者们把Spark、 统计原理和现实世界中的数据集合放到一起,通过实 例教你如何解决数据分析问题。你将从Spark及其生态系统的介绍开始,然后深 入运用标准技巧的模式——归类、聚合过滤及异常检 测等,这些技巧被用于生物基因、安全和金融等行业 。如果你对机器学习和统计学有初步了解,使用Java 、Pytton或者Scala编程,就会发现这些模式对于你 的数据分析应用程序会非常有用。模式包括: 音乐推荐和Audioscrobbler数据集合 用决策树分析森林覆盖 用K均值聚合检测网络流量中的异常 用潜在语义分析理解维基百科 用GraphX分析共生网络 用地理空间和瞬态数据分析纽约市出租车路线的 数据 用蒙地卡罗模拟来估计金融风险 分析基因数据和BDG项目 通过PySpark和Thunder分析神经造影数据