目 录 \t
第 1章 大数据,心中有数 1
1.1 从一场亲子讲座谈起 2
1.2 数据非今日变大,为什么今天火了 3
1.3 大数据带来的改变渐渐发生了 6
1.4 大数据,首先是数据 8
1.5 再议数据规模 10
1.6 大数据概念正解 11
1.6.1 大数据等于数据大吗 11
1.6.2 大数据>数据大 11
1.6.3 大数据内涵——4V属性 12
1.6.4 大数据原理模拟 12
1.7 再谈大数据带来的真正改变 14
第 2章 大数据,顺势而为 15
2.1 大数据发展基础 16
2.1.1 大数据商用的前提 16
2.1.2 大数据发展引擎——云计算 16
2.1.3 大数据发展的ABCT模式 23
2.2 大数据两个关键变化 25
2.3 大数据获取与管理 25
2.3.1 大数据获取 25
2.3.2 大数据管理 26
2.4 大数据存储 27
2.5 大数据分析 28
2.6 大数据创新应用 29
2.7 大数据安全 31
2.8 大数据发展对我们的要求 31
第3章 准备好了吗?——大数据技术及应用 33
3.1 大数据的基石——Hadoop技术和应用 35
3.1.1 源自一位爸爸的爱——Hadoop介绍 35
3.1.2 海量、非结构化数据的存储宝典——Hadoop应用场景 36
3.1.3 “打仗亲兄弟,上阵父子兵”(拼的是团队!)——Hadoop
生态系统 41
3.1.4 如何摆布呢?——Hadoop实施建议 45
3.1.5 Hadoop的“七寸”——技术关键点 53
3.2 近期发展势头最猛的技术——Spark的应用 57
3.2.1 “星星之火,可以燎原”——Spark简介 57
3.2.2 “速度决定一切”——Spark应用场景 58
3.2.3 “另立门户”的节奏——Spark生态系统 60
3.2.4 “火花”的关键点——Spark实施建议 63
3.2.5 “照单抓药”即可——Spark参数配置 69
3.3 “中档价格买中档车的配置”——MPP数据库的应用 72
3.3.1 “不共享”的并行处理架构——MPP数据库简介 72
3.3.2 完全支持SQL--MPP数据库应用场景 72
3.3.3 “这样的配置来两打”——MPP数据库实施建议 74
3.3.4 “对面的女孩看过来”——技术关注点 78
3.4 “速度决定一切!”——流处理技术的应用 80
3.4.1 “流水不腐”——流处理技术简介 80
3.4.2 “最快的奔跑”——流处理技术应用场景 81
3.4.3 看看谁跑得快?——流处理技术典型产品 82
3.4.4 短跑运动员的配置清单——流处理技术实施建议 83
3.5 NoSQL技术的应用 87
3.5.1 NoSQL技术简介 88
3.5.2 “大数据量查询”——适用场景 88
3.5.3 “都有谁?”——典型产品 89
3.5.4 如何租给更多人?——多租户实现方式 92
3.6 在内存里跑数据库——内存数据库的应用 93
3.6.1 传统数据库的“土豪”配置——内存数据库简介 93
3.6.2 提速的奢华方式——适用场景 94
3.6.3 哪些是“土豪”的必备——典型产品 95
3.6.4 “土豪”要关注什么?——技术关注点 96
3.7 如何采集更多的数据——数据采集 97
3.7.1 “没有数据就是无米之炊”——数据采集简介 97
3.7.2 不同的采集方式——适用场景 98
3.7.3 各种工具——技术简介 98
3.8 数据库如何分布?——分布式关系型数据库的应用 106
3.8.1 “分布+传统数据库”——分布式关系型数据库简介 106
3.8.2 数据库的延伸——适用场景 106
3.8.3 支持SQL的分布式数据库——典型产品 107
3.8.4 技术关注点 109
3.9 互联网的“杀手级应用”——搜索引擎 109
3.9.1 搜索引擎简介 109
3.9.2 搜索什么?——适用场景 110
3.9.3 产品简介 110
3.9.4 技术关注点 111
3.10 资源隔离的利器——容器的应用 111
3.10.1 独立的集装箱——容器简介 112
3.10.2 容器与虚拟机的区别 113
3.10.3 集装箱能用在哪里?——容器应用场景 114
3.10.4 如何部署?——Docker实施建议 115
第4章 大数据如何显示分析结果?——数据分析与数据可视化 119
4.1 收集大数据就是为了分析——数据分析 120
4.1.1 分析方法有哪些?——数据分析简介 120
4.1.2 数据分析的过程——适用场景 123
4.1.3 分析工具有哪些?——典型产品 123
4.1.4 什么最火?——深度学习典型产品 125
4.2 大数据也要学习“包装”技术——数据可视化 129
4.2.1 如何让数据更美观?——数据可视化简介 129
4.2.2 什么时候数据需要美化?——适用场景 130
4.2.3 美化数据结果的工具——典型产品 130
第5章 如何构建开放的大数据平台?——大数据开放平台构建 133
5.1 为什么要开放?——概述 134
5.1.1 开放是趋势——大数据开放平台的意义 134
5.1.2 谁在使用开放平台?——大数据开放平台主要角色 135
5.1.3 开放哪些内容?——大数据开放平台开放的内容与范围 135
5.2 看看别人家的平台——大数据开放平台参考架构 137
5.3 开放哪些内容?——基础能力的开放 138
5.3.1 自己采集所需——数据采集能力开放 138
5.3.2 自己存储数据——数据存储能力开放 140
5.3.3 自己决定处理方式——数据处理能力开放 142
5.3.4 自己决定展现形式——展现能力开放 144
5.4 把管理权力也开放出去——数据管理能力的开放 145
5.4.1 自己设计作业任务——任务调度能力开放 145
5.4.2 自己编排数据字典——元数据管理能力开放 148
5.4.3 自己管理自己的数据质量——数据质量管理能力开放 149
5.4.4 自己承担安全员——数据安全管理能力开放 149
5.4.5 能提供哪些服务?——服务目录能力开放 150
5.5 如何管理系统?——平台管理 151
5.5.1 系统有什么料?——资源管理 152
5.5.2 如何调度作业?——负载管理 152
5.5.3 资源如何分配——配额管理 153
5.5.4 能否计费?——计量管理 153
5.6 “众人拾柴火焰高”——开发者门户 154
5.6.1 “你是谁?”——注册认证 154
5.6.2 “来个厨房”——资源申请 155
5.6.3 “再来二斤牛肉、一壶好酒”——数据申请 156
5.6.4 “吃饱喝足”——开发上线 157
第6章 安全无小事——大数据安全 159
6.1 安全很重要——大数据安全概述 160
6.2 非法入侵——数据访问安全 161
6.2.1 你有权限吗?——用户认证 161
6.2.2 谁可以访问?——用户管理 164
6.2.3 我授权给你——用户授权 166
6.3 数据加密?——数据服务安全 169
6.3.1 屏蔽隐私内容——数据脱敏 169
6.3.2 追查泄露者——数字水印 170
6.3.3 有口令吗?——安全令牌管理 171
6.3.4 全程防护——服务攻击检测 171
6.4 数据存在保险箱就安全吗?——数据存储安全 173
6.4.1 看不懂的天书——加密 173
6.4.2 不能接触——数据隔离 174
第7章 建设之后,运维工作更重要——大数据运维管理平台 177
7.1 如何构建运维环境——大数据运维管理平台简介 178
7.2 功能点有哪些——大数据运维管理平台功能介绍 178
7.2.1 用户管理 179
7.2.2 节点管理 179
7.2.3 组件管理 180
7.2.4 监控与告警管理 181
7.2.5 日志管理 181
7.3 运维产品有哪些——典型产品 182
7.3.1 产品列表 182
7.3.2 Ambari产品介绍 183
7.3.3 实施建议 184
第8章 数据质量管理 185
8.1 数据质量信息存储 186
8.2 数据质量监控平台 186
8.2.1 采集管理 187
8.2.2 规则管理 188
8.2.3 告警管理 193
8.2.4 申告处理 195
8.2.5 知识总结 196
8.2.6 质量报告 197
8.2.7 任务调度 197
8.3 数据质量应用功能 198
附录A 某公司大数据系统建设案例 201
附录B SH公司大数据PaaS平台实施经验 215
附录C FJ公司关于大数据高速路况实时监测项目实施经验 221
附录D 其他公司大数据案例 229
附录E D-Docker技术原理 241