Spark海量数据处理技术详解与平台实战

定　价：¥99.00

作　者：	范东来
出版社：	人民邮电出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787115507006	出版时间：	2019-12-01	包装：
开本：	16开	页数：	388	字数：

内容简介

　　本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，层次分明，循序渐进。全书分为3部分，涵盖了技术理论与实战，读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS（伯克利数据分析栈），不仅介绍了如何开发Spark应用的基础内容，还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题，此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统，比较新颖的是，该系统借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足需求，既是对本书第一部分很好的巩固，又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

作者简介

　　范东来，北京航空航天大学硕士，泛山科技联合创始人，Spark Contributor、SupersetContributor，架构师，技术图书作者和译者，著有《Hadoop海量数据处理》，译有《解读NoSQL》《NoSQL**指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等，另译有畅销小说《巧克力时代：因为这是我的血脉》。

图书目录

第一部分基础篇
第　1章序篇　2
1．1　Spark与BDAS　3
1．2　Databricks　4
1．3　如何通过GitHub向Spark贡献代码　5
1．4　如何选择Spark编程语言　8
1．5　函数式编程思想　9
1．6　小结　12
第　2章 Spark编程　13
2．1　Spark架构　13
2．2　Spark 2．x与Spark 3．x　15
2．2．1　Tungsten项目　16
2．2．2　统一Dataset和DataFrame 接口　20
2．2．3　新一代流处理技术：Structured Streaming与持续型应用　21
2．2．4　Hydrogen项目和Spark 3．x　22
2．3　部署Spark　26
2．3．1　Spark on YARN　27
2．3．2　Spark on Mesos　28
2．3．3　Spark Standalone　29
2．3．4　Spark on Kubernetes　30
2．3．5　安装Spark　31
2．3．6　提交作业　31
2．3．7　Spark Shell　33
2．3．8　初始化SparkSession　34
2．4　RDD与算子　34
2．4．1　RDD　34
2．4．2　创建RDD　36
2．4．3　转换算子　38
2．4．4　行动算子　43
2．4．5　RDD血统与Spark容错　45
2．5　Spark Shuffle　47
2．5．1　Hash Shuffle　47
2．5．2　Sort-based Shuffle　49
2．6　共享变量　50
2．6．1　广播变量　50
2．6．2　累加器　53
2．7　Spark的多语言支持　55
2．7．1　PySpark　55
2．7．2　SparkR　56
2．8　Spark性能调优　56
2．8．1　硬件配置与资源管理平台　57
2．8．2　参数调优与应用调优　57
2．9　使用Jupyter Notebook基于Spark探索数据：蒙特卡罗方法预测股票价格　64
2．9．1　Jupyter Notebook　64
2．9．2　用蒙特卡罗方法预测股票价格　67
2．10　小结　70
第3章　Spark统一编程接口：DataFrame、Dataset和Spark SQL　71
3．1　Catalyst优化器　72
3．1．1　SQL抽象语法树　72
3．1．2　从ULEP到RLEP的过程　73
3．1．3　调优RLEP　73
3．1．4　全阶段代码生成　74
3．2　DataFrame API　75
3．2．1　创建DataFrame　75
3．2．2　查询　77
3．2．3　窗口函数　80
3．2．4　用户自定义函数　83
3．2．5　写入　85
3．3　Dataset API　86
3．3．1　RDD、DataFrame和Dataset　87
3．3．2　安全类型的UDAF　88
3．4　Spark SQL　89
3．4．1　创建临时视图　90
3．4．2　使用Hive元数据　90
3．4．3　查询语句　91
3．4．4　函数　94
3．4．5　用户自定义函数　97
3．5　Google Dremel与列式存储　97
3．5．1　Apache Parquet　99
3．5．2　Apache ORC　100
3．5．3　Apache CarbonData　100
3．5．4　对比测试　101
3．6　使用Spark SQL进行数据探索　102
3．7　小结　107
第4章　Spark流处理：Spark Streaming
与Structured　Streaming　108
4．1　一个Spark Streaming流处理的例子　109
4．2　消息送达保证　110
4．3　Google MillWheel系统和Google Dataflow模型　114
4．3．1　Google MillWheel设计思想　114
4．3．2　Google MillWheel如何实现“恰好一次”消息送达语义　114
4．3．3　Google MillWheel对乱序数据与晚到数据的处理　115
4．3．4　Google Dataflow：流处理和批处理的统一与取舍　117
4．4　Spark Streaming　122
4．4．1　关键抽象与架构　123
4．4．2　无状态的转换算子　125
4．4．3　有状态的转换算子　129
4．4．4　输入与输出　134
4．4．5　Spark Streaming与Spark SQL　138
4．4．6　容错与结果正确性　139
4．4．7　性能调优　141
4．5　Structured Streaming　144
4．5．1　关键抽象与架构　144
4．5．2　操作　147
4．5．3　输入和输出　154
4．5．4　股票交易价格实时分析　157
4．6　流处理技术对比　162
4．7　小结　163
第5章　Spark图计算：GraphX　164
5．1　图模式　164
5．1．1　图结构　164
5．1．2　图存储　165
5．1．3　图数据库　168
5．1．4　图挖掘技术　169
5．1．5　属性图与RDF　170
5．2　生成图　171
5．2．1　从已有数据中生成　172
5．2．2　通过GraphGenerators生成　174
5．3　图算子　175
5．3．1　属性算子　175
5．3．2　结构算子　175
5．3．3　连接算子　175
5．3．4　aggregateMessages　176
5．4　Pregel API　177
5．4．1　图分区　177
5．4．2　像顶点一样思考　180
5．4．3　用户自定义函数　182
5．4．4　PageRank的GraphX实现　183
5．4．5　标签传播算法　186
5．5　SQL on Graph　187
5．5．1　生成图　188
5．5．2　SQL查询　189
5．5．3　模式发现　190
5．5．4　一些GraphX已经有的算法　191
5．5．5　一些GraphX没有的算法　191
5．5．6　AggregateMessages　192
5．6　n度邻居顶点算法　193
5．7　小结　196
第6章　Spark机器学习：MLlib　197
6．1　机器学习　197
6．1．1　典型的机器学习工作流　198
6．1．2　机器学习任务的学习类型　199
6．2　Spark MLlib与Spark ML　201
6．3　数据预处理　205
6．3．1　数据标准化　205
6．3．2　缺失值处理　207
6．3．3　特征抽取　208
6．3．4　特征选择　212
6．4　分类算法应用　214
6．4．1　决策树　214
6．4．2　随机森林　217
6．4．3　人体状态监测器　218
6．4．4　集成学习　223
6．4．5　梯度提升决策树　224
6．5　聚类算法应用　225
6．5．1　物以类聚　225
6．5．2　k均值聚类算法　226
6．5．3　实现　227
6．6　推荐系统应用　230
6．6．1　基于用户的协同过滤　231
6．6．2　基于商品的协同过滤　233
6．6．3　两种协同过滤的对比　235
6．6．4　基于模型的协同过滤　236
6．6．5　Movielens电影推荐系统　237
6．7　训练之后　238
6．7．1　模型评估　239
6．7．2　交叉验证与超参调优　241
6．8　流式机器学习　242
6．8．1　流回归　242
6．8．2　流聚类　244
6．8．3　用流处理应用来监控模型　245
6．9　小结　249
第7章　Spark深度学习：Deeplearning4j　250
7．1　常见的深度学习框架　251
7．2　Deeplearning4j　252
7．3　卷积神经网络　252
7．3．1　理解卷积神经网络　252
7．3．2　用Deeplearning4j训练卷积神经网络　254
7．4　循环神经网络　257
7．4．1　理解循环神经网络　258
7．4．2　用Deeplearning4j训练循环神经网络　262
7．5　自动编码器　264
7．5．1　理解自动编码器　264
7．5．2　用Deeplearning4j训练自动编码器　267
7．6　使用GPU　269
7．7　小结　270
第8章　分布式存储：Alluxio　271
8．1　Alluxio架构　271
8．1．1　Alluxio的组成部分　273
8．1．2　虚拟的Alluxio　273
8．1．3　统一而透明的命名空间　274
8．2　快速上手Alluxio　275
8．2．1　安装Alluxio　275
8．2．2　Alluxio配置　276
8．2．3　Alluxio血统机制　277
8．3　与上层框架集成　277
8．3．1　与Spark集成　278
8．3．2　与Presto集成　279
8．3．3　与HBase集成　280
8．4　与底层存储系统集成　281
8．4．1　与Ceph集成　281
8．4．2　挂载其他文件系统　281
8．5　如何访问Alluxio　282
8．6　Alluxio应用案例　283
8．6．1　携程网　283
8．6．2　滴滴出行　284
8．6．3　陌陌　286
8．7　小结　288
第二部分　应用篇
第9章　企业数据湖与Lambda架构　290
9．1　数据湖　290
9．1．1　数据的湖泊　290
9．1．2　数据湖要解决的问题　291
9．1．3　数据湖与数据仓库对比　292
9．1．4　数据湖如何工作　293
9．2　Lambda架构　293
9．2．1　批处理层　294
9．2．2　服务层　295
9．2．3　速度层　295
9．2．4　Lambda架构　296
9．2．5　Lambda架构的原则　297
9．3　基于Lambda架构的数据湖分层设计　297
9．3．1　数据获取层　298
9．3．2　消息层　299
9．3．3　数据摄取层　300
9．3．4　数据存储层　300
9．3．5　Lambda层　301
9．4　Lambda架构的应用　301
9．4．1　搜索引擎　301
9．4．2　Druid　302
9．5　构建Lambda架构的技术　303
9．6　小结　304
第　10章大数据企业动态背景调查平台　305
10．1　企业背景调查　305
10．2　基于大数据的企业动态背景调查　308
10．2．1　企业行为信息　308
10．2．2　企业关联方分析　311
10．3　数据采集与数据字典　313
10．4　企业背景调查平台需求　317
10．4．1　企业关联图谱展示　317
10．4．2　企业风险指标计算　318
10．5　企业关联图谱的模式　318
10．6　传统数据仓库架构　320
10．7　小结　321
第　11章平台设计　322
11．1　平台架构　322
11．1．1　数据源　323
11．1．2　数据管道　323
11．1．3　速度层　325
11．1．4　批处理层　325
11．1．5　服务层　325
11．1．6　查询层　325
11．1．7　可视化组件　325
11．2　物理拓扑　326
11．3　服务层图数据库设计　326
11．4　项目规划　327
11．5　小结　327
第　12章数据管道层　328
12．1　安装并配置canal　328
12．2　实现Kafka生产者　330
12．3　安装并配置Flume　335
12．4　小结　336
第　13章速度层　337
13．1　速度层输入　337
13．1．1　类型1　338
13．1．2　类型2　338
13．1．3　类型3　339
13．1．4　类型4　340
13．2　Cypher基础　341
13．2．1　写入　342
13．2．2　读取　343
13．2．3　删除　344
13．3　生成Cypher语句　345
13．3．1　类型1　345
13．3．2　类型2　346
13．3．3　类型3　346
13．3．4　类型4　346
13．3．5　实现　347
13．4　整合Structured Streaming　352
13．4．1　Neo4jWriter　353
13．4．2　启动流　354
13．5　小结　355
第　14章批处理层　356
14．1　自融风险监测　356
14．2　生成主数据集　357
14．2．1　全量与增量　358
14．2．2　合并　359
14．2．3　数据治理　361
14．3　用GraphX计算企业自融风险值　363
14．4　导入HBase　364
14．5　调度中心　366
14．5．1　Airflow　366
14．5．2　配置　368
14．6　小结　370
第　15章服务层与查询层　371
15．1　不仅仅是合并　371
15．1．1　NetworkX　372
15．1．2　计算流程　372
15．2　接口开发　372
15．3　小结　376
第三部分　总结篇
第　16章总结和展望　378
16．1　统一的大数据处理接口　378
16．1．1　Unified Spark　378
16．1．2　Apache Beam　379
16．2　Kappa架构　380
16．3　大数据处理技术　382
16．3．1　Apache Flink　382
16．3．2　Apache Apex　383
16．3．3　Ray　384
16．4　Spark未来发展方向　386