目录
章大数据基础1
1.1什么是大数据1
1.1.1大数据的发展历程1
1.1.2大数据的定义2
1.2大数据的特征2
1.2.1Volume(数量)3
1.2.2Variety(种类)3
1.2.3Velocity(速度)3
1.2.4Value(价值)4
1.2.5Veracity(真实性)4
1.3大数据的关键技术4
1.3.1大数据采集技术4
1.3.2大数据预处理技术7
1.3.3大数据存储及管理技术7
1.3.4大数据分析及挖掘技术8
1.3.5大数据展现和应用技术9
1.4大数据与云计算9
1.4.1云计算定义9
1.4.2云计算的特征9
1.4.3云计算和大数据的关系10
1.4.4云计算对大数据的影响10
1.5大数据的应用11
1.5.1电商行业11
1.5.2金融行业11
1.5.3医疗行业12
1.5.4农牧渔行业12
1.5.5生物技术13
1.5.6智慧城市13
1.5.7电信行业13
1.5.8社交媒体分析14
本章小结14
实验114
第2章大数据软件架构17
2.1Hadoop架构17
2.1.1Hadoop简介17
2.1.2Hadoop家族成员18
2.1.3Hadoop 2.0生态系统的集群架构20
2.1.4Hadoop运行环境20
2.1.5Hadoop集群的安装与部署22
2.2Spark架构29
2.2.1Spark简介29
2.2.2Spark集群模式31
2.2.3Spark核心组件33
2.2.4Spark运行环境35
2.2.5Spark的安装35
2.3实时流处理架构36
2.3.1实时计算的概念36
2.3.2实时计算的相关技术36
2.3.3Apache Storm38
2.3.4Apache Samza38
2.3.5Lambda架构39
2.4框架的选择41
2.4.1框架的种类41
2.4.2框架的选择43
本章小结43
实验244
第3章大数据存储45
3.1大数据存储概述45
3.1.1传统存储系统时代45
3.1.2大数据时代的新挑战46
3.2大数据存储方式47
3.2.1分布式存储47
3.2.2云存储48
3.2.3大数据存储的其他需求49
3.3大数据的存储技术50
3.3.1分布式文件存储50
3.3.2NoSQL数据库53
3.3.3NewSQL数据库56
3.3.4云存储技术57
3.4大数据存储的可靠性59
3.4.1大数据可靠性的风险60
3.4.2提高大数据可靠性的方法60
本章小结61
实验361
第4章大数据计算63
4.1大数据计算基本框架63
4.2批处理计算64
4.2.1Hadoop64
4.2.2DAG模型66
4.3流计算69
4.3.1流计算概述69
4.3.2Storm及Trident70
4.4交互式分析计算72
4.4.1概述72
4.4.2Hive73
4.4.3SQL引擎Calcite74
本章小结75
实验475
第5章大数据分析77
5.1大数据分析概述77
5.2大数据分析基础78
5.2.1大数据分析基本分类78
5.2.2大数据分析步骤79
5.2.3异步分析80
5.3大数据预测分析80
5.3.1什么是预测分析80
5.3.2预测分析的作用80
5.3.3数据具有内在预测性82
5.4大数据分析应用83
5.4.1大数据分析的主要应用行业83
5.4.2大数据分析应用应注意的问题85
5.5大数据分析平台与工具87
5.5.1HPCC系统87
5.5.2Apache Drill91
5.5.3RapidMiner93
本章小结94
实验594
第6章大数据可视化96
6.1大数据可视化概述96
6.1.1大数据可视化的概念96
6.1.2大数据可视化的基本思想和手段97
6.1.3大数据可视化的基本模型97
6.1.4可视化设计组件98
6.2科学可视化105
6.2.1科学可视化的概念105
6.2.2科学可视化方面的主题105
6.2.3科学可视化的应用106
6.3信息可视化107
6.3.1信息可视化的概念107
6.3.2信息可视化的应用108
6.3.3信息实时可视化108
6.3.4信息可视化与科学可视化的关系109
6.4数据可视化的应用109
6.4.1数据可视化的运用109
6.4.2信息可视化的挑战114
6.5大数据可视化分析116
6.5.1数据类型116
6.5.2基本任务117
6.5.3大数据可视化分析方法118
6.5.4大数据可视化技术120
6.5.5大数据可视化分析工具127
本章小结130
实验6130
第7章大数据安全135
7.1大数据安全的定义136
7.1.1大数据安全的定义136
7.1.2大数据安全面临的挑战136
7.2安全措施的实施138
7.2.1国外数据安全的法律法规138
7.2.2我国数据安全的法律法规139
7.2.3主要标准化组织的大数据安全工作情况140
7.2.4大数据安全标准化规范143
7.2.5大数据安全标准体系框架144
7.2.6大数据安全策略145
7.3大数据安全保障技术147
7.3.1数据溯源技术147
7.3.2数字水印技术149
7.3.3身份认证技术152
7.3.4数据发布匿名保护技术157
7.3.5社交网络匿名保护技术159
7.4云安全162
7.4.1云安全的概念162
7.4.2云安全的应对方式163
7.4.3云安全技术164
本章小结169
实验7169
第8章大数据机器学习172
8.1大数据机器学习概述172
8.1.1人工智能概述172
8.1.2机器学习概述174
8.2机器学习类型176
8.2.1基于学习策略的分类176
8.2.2基于获取知识的表示形式分类177
8.2.3按应用领域分类178
8.2.4按学习形式分类178
8.3大数据机器学习算法179
8.3.1大数据分治策略与抽样179
8.3.2大数据特征选择180
8.3.3大数据分类183
8.3.4大数据聚类189
8.3.5大数据关联分析195
8.3.6大数据并行计算197
8.4大数据机器学习的应用199
8.4.1机器学习在金融领域的应用200
8.4.2机器学习在生物信息学中的应用202
8.4.3机器学习在电商文本大数据挖掘中的应用203
本章小结204
实验8 205