Hadoop大数据解决方案

定　价：¥49.80

作　者：	[美] Benoy Antony，Konstantin Boudnik 等著
出版社：	清华大学出版社
丛编项：	大数据应用与技术丛书
标　签：	计算机/网络数据仓库与数据挖掘数据库

购买这本书可以去

ISBN：	9787302466451	出版时间：	2017-03-01	包装：	平装
开本：	16开	页数：	264	字数：

内容简介

　　使用Hadoop构建更优秀的大数据解决方案　Hadoop开源且基于Java、几乎没有入门障碍，它提供了迅速占据市场的实用大数据解决方案。《Hadoop大数据解决方案》由包括已认证Hadoop开发者、Committers和峰会演讲者在内的专家团队编写，可以作为有关该框架流程和功能的自学教程。书中单独介绍了各个组件，*后用实际项目将它们联系起来并构建示例应用。本书跳过数据库开发基础知识，直奔主题，帮助有经验的开发者快速上手，并开始在真实场景中使用Hadoop。主要内容 ◆ 向你展示使用Hadoop Stack配置存储、用户体验和内存计算的方法 ◆ 解释使用Kafka实时消息和Storm数据流将Hadoop与其他系统集成的方法 ◆ 演示关键安全特性与技术，同时给出保证数据安全的专家建议 ◆ 讲授使用Apache BigTop打包、测试和配置的基础知识，以及使用Ignite更快速执行MapReduce的方法 ◆ 带你领略示例应用构建过程，展示核心组件如何协同工作，同时提供了所有示例代码

作者简介

　　Benoy Antony是Apache Hadoop Committer，在eBay公司担任Hadoop架构师。　Konstantin Boudnik是Memcore.io的共同创始人兼CEO，他是Hadoop的早期开发者之一，与他人共同创建了Apache Bigtop。　Cheryl Adams是医疗数据领域的一位资深云数据和基础设施架构师。　Branky Shao是eBay的软件工程师，同时也是Cascading项目的贡献者。　Cazen Lee是三星SDS公司的一位软件架构师。　Kai Sasaki是Treasure Data公司的一位软件工程师。

图书目录

第1章 Hadoop概述 1
1.1 商业分析与大数据 2
1.1.1 Hadoop的组件 3
1.1.2 Hadoop分布式文件系统(HDFS) 3
1.1.3 MapReduce是什么 4
1.1.4 YARN是什么 5
1.2 ZooKeeper是什么 6
1.3 Hive是什么 7
1.4 与其他系统集成 8
1.4.1 Hadoop生态系统 9
1.4.2 数据集成与Hadoop 11
1.5 小结 16
第2章存储 19
2.1 Hadoop HDFS的基础知识 20
2.1.1 概念 21
2.1.2 架构 25
2.1.3 接口 29
2.2 在分布式模式下设置HDFS群集 35
2.3 HDFS的高级特性 40
2.3.1 快照 41
2.3.2 离线查看器 44
2.3.3 分层存储 52
2.3.4 纠删码 55
2.4 文件格式 59
2.5 云存储 63
2.6 小结 64
第3章计算 65
3.1 Hadoop MapReduce的基础 66
3.1.1 概念 66
3.1.2 架构 69
3.2 如何启动MapReduce作业 76
3.2.1 编写Map任务 77
3.2.2 编写reduce任务 79
3.2.3 编写MapReduce作业 80
3.2.4 配置 83
3.3 MapReduce的高级特性 85
3.3.1 分布式缓存 85
3.3.2 计数器 87
3.3.3 作业历史服务器 89
3.4 与Spark作业的区别 91
3.5 小结 92
第4章用户体验 93
4.1 Apache Hive 94
4.1.1 安装Hive 96
4.1.2 HiveQL 97
4.1.3 UDF/SerDe 103
4.1.4 Hive调优 105
4.2 Apache Pig 106
4.2.1 安装Pig 107
4.2.2 Pig Latin 108
4.3 UDF 110
4.4 Hue 111
4.5 Apache Oozie 114
4.5.1 安装Oozie 115
4.5.2 Oozie的工作原理 118
4.5.3 工作流/协调器 119
4.5.4 Oozie CLI 124
4.6 小结 124
第5章与其他系统集成 125
5.1 Apache Sqoop 126
5.2 Apache Flume 130
5.3 Apache Kafka 136
5.3.1 工作原理 138
5.3.2 Kafka Connect 141
5.3.3 流处理 143
5.4 Apache Storm 144
5.4.1 工作原理 145
5.4.2 Trident 148
5.4.3 Kafka集成 149
5.5 小结 152
第6章 Hadoop安全 153
6.1 提升Hadoop群集安全性 154
6.1.1 边界安全 154
6.1.2 Kerberos认证 156
6.1.3 Hadoop中的服务级授权 162
6.1.4 用户模拟 167
6.1.5 提升HTTP信道的安全性 170
6.2 提升数据安全性 174
6.2.1 数据分类 175
6.2.2 将数据传到群集 176
6.2.3 保护群集中的数据 182
6.3 增强应用程序安全性 189
6.3.1 YARN架构 189
6.3.2 YARN中的应用提交 190
6.4 小结 195
第7章自由的生态圈：Hadoop与Apache BigTop 197
7.1 基础概念 198
7.1.1 软件栈 199
7.1.2 测试栈 200
7.1.3 在我的笔记本电脑上工作 201
7.2 开发定制的软件栈 201
7.2.1 Apache Bigtop：历史 201
7.2.2 Apache Bigtop：概念和哲学思想 202
7.2.3 项目结构 204
7.2.4 谈谈构建系统 205
7.2.5 工具链和开发环境 206
7.2.6 BOM定义 207
7.3 部署 208
7.3.1 Bigtop Provisioner 208
7.3.2 群集的无主节点Puppet部署 209
7.3.3 使用Puppet进行配置管理 213
7.4 集成验证 215
7.4.1 iTests和验证应用程序 216
7.4.2 栈集成测试开发 217
7.4.3 栈的验证 220
7.4.4 群集故障测试 221
7.4.5 栈的冒烟测试 222
7.5 将所有工作组合在一起 223
7.6 小结 224
第8章 Hadoop软件栈的In-Memory计算 227
8.1 In-Memory计算简介 229
8.2 Apache Ignite：内存优先 231
8.2.1 Apache Ignite的系统体系架构 232
8.2.2 数据网格 233
8.2.3 高可用性讨论 236
8.2.4 计算网格 237
8.2.5 服务网格 238
8.2.6 内存管理 238
8.2.7 持久化存储 240
8.3 使用Ignite加速旧式Hadoop 240
8.3.1 In-Memory存储的好处 241
8.3.2 内存文件系统：HDFS缓存 242
8.3.3 In-Memory MapReduce 243
8.4 Apache Ignite的高级用法 247
8.4.1 Spark和Ignite 247
8.4.2 共享状态 249
8.4.3 Hadoop上的In-Memory SQL 251
8.4.4 使用Ignite的SQL 252
8.4.5 使用Apache Ignite进行流处理 255
8.5 小结 256
术语表 259