第1章 大数据概述
1.1 基本概念
1.1.1 信息与数据
1.1.2 数据库
1.1.3 数据库管理系统
1.1.4 数据库系统
1.1.5 大数据
1.2 数据处理
1.2.1 人工管理阶段
1.2.2 文件系统阶段
1.2.3 数据库系统阶段
1.2.4 分布式文件系统阶段
1.3 大数据的特征
1.3.1 体量大
1.3.2 类型多
1.3.3 速度快
1.3.4 价值高
1.4 大数据的关键技术
1.4.1 大数据采集
1.4.2 大数据存储与管理
1.4.3 大数据分析
1.4.4 大数据可视化
1.5 大数据的应用
1.5.1 政务大数据
1.5.2 医疗大数据
1.5.3 教育大数据
1.5.4 商业大数据
1,5.5 金融大数据
1.5.6 旅游大数据
1.5.7 娱乐大数据
本章小结
习题
第2章 Hadoop基础
2.1 Hadoop概述
2.1.1 Hadoop的特点
2.1.2 Hadoop的组件
2.2 Hadoop的生态系统
2.2.1 Hadoop 1.0生态系统
2.2.2 Hadoop 2.0生态系统
2.3 Hadoop系统架构
2.3.1 HDFS分布式文件系统架构
2.3.2 MapReduce的计算架构
2.3.3 Spark的计算架构
2.4 Hadoop应用系统的体系架构
本章小结
习题
第3章 HDFS分布式文件系统
3.1 HDFS概述
3.2 HDFS基本组成
3.2.1 HDFS体系结构
3.2.2 HDFS核心功能
3.2.3 块
3.2.4 节点
3.3 HDFS数据流
3.3.1 HDFS写数据流
3.3.2 HDFS读数据流
3.4 HDFS应用实例
3.4.1 HDFS常用命令及实例
3.4.2 HDFS读/写数据
本章小结
习题
第4章 HBase分布式数据库
4.1 HBase概述
4.1.1 HBase的特点
4.1.2 HBase的系统架构
4.1.3 HBase在Hadoop生态系统中的作用
4.1.4 HBase与传统的关系数据库的区别
4.2 HBase数据模型
4.2.1 HBase逻辑模型
4.2.2 HBase物理模型
4.3 HBase的应用实例
4.3.1 HBase Shell及实例
4.3.2 交互接口及实例
本章小结
习题
第5章 Hive数据仓库工具
5.1 Hive概述
5.1.1 Hive的特点
5.1.2 Hive的系统架构
5.1.3 Hive与数据库两者之间的差异
5.2 Hive与MySQL配置
5.3 Hive数据仓库基本操作
5.3.1 创建外部表
5.3.2 创建分区表
5.3.3 向分区表导入数据
5.3.4 MySQL基本操作
5.4 Hive应用实例
5.4.1 Hive数据统计
5.4.2 Hive数据查询
本章小结
习题
第6章 MapReduce编程框架
6.1 MapReduce概述
6.1.1 MapReduce的特点
6.1.2 MapReduce基本架构
6.2 MapReduce的工作流程
6.2.1 Map任务执行过程
6.2.2 Reduce任务执行过程
6.3 大数据分析的数据准备
6.3.1 多形态的大数据
6.3.2 大数据预处理方法
6.4 常用的大数据分析方法
6.4.1 统计分析方法
6.4.2 高级建模方法
6.4.3 数据挖掘方法
6.5 常用算法及实例
6.5.1 排序
6.5.2 求平均
6.5.3 分类统计
本章小结
习题
第7章 Spark计算引擎
7.1 Spark概述
7.1.1 Spark特点
7.1.2 Spark技术框架
7.1.3 Spark工作流程
7.1.4 Spark与Hadoop
7.2 RDD
7.2.1 RDD的特性i6i
7.2.2 RDD的创建
7.2.3 RDD的操作
7.3 Spark编程及实例
7.3.1 Transformation算子应用
7.3.2 Action算子应用
7.3.3 Spark统计分析
本章小结
习题
……
第8章 大数据可视化
第9章 MOOC学习行为大数据分析实例
第10章 “大数据技术及应用”虚拟实验概述
参考文献