第1章 大数据概述 1
1.1 什么是大数据 1
1.1.1 大数据的来源 1
1.1.2 大数据的定义 5
1.1.3 从信息技术(IT)转向数据
技术(DT) 5
1.2 大数据的数据特征及对科学研究的
影响 7
1.2.1 大数据的数据特征 7
1.2.2 大数据对科学研究的影响 8
1.3 大数据的数据类型 11
1.4 大数据的价值及相关技术 13
1.4.1 大数据的可用性及衍生
价值 13
1.4.2 大数据存储及处理技术 14
1.5 大数据的发展趋势 15
习题 16
第2章 大数据与云计算 17
2.1 云计算概述 17
2.1.1 云计算的提出 17
2.1.2 云计算的定义 18
2.1.3 云计算的概念模型 19
2.1.4 云计算的特点 20
2.2 云计算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云计算的主要服务模式 24
2.3.1 基础设施即服务(IaaS) 24
2.3.2 平台即服务(PaaS) 26
2.3.3 软件即服务(SaaS) 26
2.3.4 3种服务模式之间的关系 27
2.4 云计算与大数据体系架构的关系 28
2.4.1 云计算基础设施—
Google平台 28
2.4.2 大数据基础设施—
Hadoop平台 29
2.5 物联网、大数据和云计算之间的
关系 30
2.5.1 认识物联网 31
2.5.2 边缘计算 31
2.5.3 雾计算 33
2.5.4 大数据和云计算之间的
关系 33
习题 34
第3章 从产业结构来探索大数据技术 35
3.1 大数据产业结构概述 35
3.2 大数据的解决方案 37
3.2.1 大数据的产生、采集与处理
方式 37
3.2.2 大数据处理的基本流程及
相应技术 40
3.3 大数据采集技术 43
3.3.1 大数据采集概述 43
3.3.2 日志采集系统—Flume 44
3.3.3 消息采集系统—Kafka 46
3.3.4 Scrapy网络爬虫框架 47
3.4 大数据预处理技术 50
3.4.1 数据预处理 50
3.4.2 数据清洗 51
3.4.3 数据集成 53
3.4.4 数据归约 54
3.5 大数据可视化技术 56
3.5.1 数据可视化的概念 56
3.5.2 数据可视化的分类 57
3.5.3 数据可视化工具 61
3.5.4 大数据可视化技术的
发展方向 63
习题 64
第4章 大数据的硬件架构——集群 65
4.1 集群的来源 65
4.1.1 并行计算机的发展 65
4.1.2 通过计算机食物链理解
集群 68
4.2 集群的产生促进了大数据技术的
发展 70
4.3 集群系统的概念及分类 72
4.3.1 集群的基本概念 72
4.3.2 集群系统的分类 73
4.4 集群的结构模型 75
4.5 集群文件系统 76
习题 79
第5章 大数据开发与计算技术 80
5.1 Hadoop—分布式大数据系统 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架构 81
5.1.3 Hadoop生态系统 87
5.2 Spark—大规模数据实时处理
系统 89
5.2.1 Spark概述 89
5.2.2 弹性分布式数据集 94
5.2.3 Spark扩展功能 96
5.3 Storm—基于拓扑的流数据实时
计算系统 99
5.3.1 Storm概述 99
5.3.2 Storm的组成结构 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark与Storm的比较 103
5.5 大数据开发技术与Web应用
开发技术的比较 105
5.5.1 Web应用开发技术简介 105
5.5.2 大数据开发技术简介 109
5.5.3 大数据开发技术与Web应用
开发技术的应用环境 110
习题 112
第6章 大数据存储技术 113
6.1 数据存储概述 113
6.2 分布式文件系统 115
6.2.1 分布式文件系统的设计
思路 116
6.2.2 最早的分布式文件系统 118
6.2.3 大数据环境下分布式文件
系统的优化思路 119
6.3 结构化大数据的存储—Hive 120
6.3.1 Hive简介 120
6.3.2 Hive架构 121
6.3.3 Hive数据模型与存储 122
6.4 半结构化大数据的存储—HBase 124
6.4.1 HBase简介 124
6.4.2 HBase数据模型 125
6.4.3 存储架构 127
6.5 云存储技术 134
6.5.1 云存储的概念及特性 134
6.5.2 云存储系统的结构模型 136
6.5.3 云存储的应用 138
习题 139
第7章 大数据分析 141
7.1 大数据分析与数据分析的关系 141
7.1.1 对数据分析师的要求 142
7.1.2 对大数据分析师的要求 142
7.2 大数据分析的重要性及认识数据 143
7.2.1 大数据分析的重要性 143
7.2.2 认识数据 145
7.3 统计数据分析 147
7.4 基于机器学习的数据分析 151
7.4.1 机器学习简介 151
7.4.2 机器学习的主要用途 153
7.4.3 有监督学习、无监督学习和
强化学习 154
7.5 经典的机器学习算法 157
7.5.1 分类算法原理 157
7.5.2 决策树分类算法 157
7.5.3 K-均值聚类算法 158
7.5.4 Apriori关联规则算法 159
7.5.5 朴素贝叶斯分类算法 159
7.6 基于图的数据分析 161
7.7 基于自然语言的数据分析 162
习题 163
第8章 大数据与人工智能 164
8.1 人工智能的概念及分类 164
8.2 人工智能的发展史 168
8.3 限制人工智能发展的因素 170
8.4 大数据与人工智能的关系 172
8.5 人工智能核心技术概述 173
8.5.1 深度学习 174
8.5.2 卷积神经网络 175
8.5.3 图像处理 176
8.6 人工智能技术应用 177
习题 179
参考文献 180