第1章 大数据概述\t1
1.1 大数据是什么\t1
1.1.1 大数据是怎么来的\t1
1.1.2 大数据的定义与特征\t4
1.1.3 大数据与云计算、物联网、互联网之间的关系\t5
1.2 大数据的意义及挑战\t7
1.2.1 研究大数据的意义\t7
1.2.2 大数据的异构性和不完备性\t10
1.2.3 数据处理的时效性\t10
1.2.4 数据安全与隐私保护\t11
1.2.5 大数据的能耗\t12
1.2.6 大数据管理易用性\t12
1.3 大数据技术及应用\t13
1.3.1 大数据技术框架\t13
1.3.2 大数据处理工具和技术发展趋势\t17
1.3.3 大数据的应用\t19
【思考题】\t25
第2章 大数据的架构\t26
2.1 大数据平台架构简介\t26
2.1.1 传统计算方式的数据瓶颈\t26
2.1.2 大数据处理平台的技术架构\t27
2.1.3 主流大数据架构\t32
2.2 Hadoop体系架构\t37
2.2.1 Hadoop体系架构简介\t37
2.2.2 Hadoop的应用\t48
2.2.3 Hadoop MapReduce的应用\t50
2.2.4 Hadoop MapReduce应用实例\t58
【思考题】\t74
第3章 大数据的采集及预处理\t75
3.1 大数据采集\t75
3.1.1 大数据采集简介\t75
3.1.2 常用大数据采集工具\t81
3.1.3 常用的数据采集方法\t88
3.1.4 Kafka概述\t91
3.1.5 Kafka安装及使用\t94
3.2 数据预处理\t100
3.2.1 数据清洗\t100
3.2.2 数据集成\t104
3.2.3 数据变换\t106
3.3 ETL技术及其工具\t108
3.3.1 数据仓库技术ETL\t108
3.3.2 常用ETL工具\t111
3.3.3 Kettle\t113
【思考题】\t120
第4章 大数据的存储\t121
4.1 大数据的存储方式\t121
4.1.1 大数据存储综述\t121
4.1.2 数据的存储方法\t125
4.1.3 大数据的基础设施\t128
4.1.4 大数据文件存储方式\t136
4.1.5 大数据存储的特点及技术路线\t142
4.2 数据仓库及开发模型\t144
4.2.1 数据仓库简介\t144
4.2.2 数据仓库模型设计\t149
【思考题】\t161
第5章 大数据分析\t163
5.1 大数据分析概述\t163
5.1.1 数据分析的概念和分类\t164
5.1.2 大数据存在模式与结构大数据\t167
5.1.3 大数据分析与数据分析的区别\t169
5.1.4 大数据分析的背景及挑战\t170
5.2 大数据分析工具及方法\t170
5.2.1 大数据分析工具及手段\t170
5.2.2 大数据分析方法\t175
5.3 数据挖掘\t192
5.3.1 数据挖掘概述\t192
5.3.2 数据挖掘工具\t194
【思考题】\t199
第6章 大数据可视化\t200
6.1 数据可视化概述\t200
6.2 大数据可视化的实现\t204
6.2.1 数据可视化方式\t204
6.2.2 大数据可视化模式及应用\t210
6.2.3 大数据可视化方法\t210
6.2.4 大数据可视化的设计\t217
6.3 主流大数据可视化工具及应用\t220
6.3.1 Excel及应用\t220
6.3.2 Processing及应用\t221
6.3.3 NodeXL及应用\t235
【思考题】\t240
参考文献\t241