第1章 大数据概述
1.1 大数据概念
1.2 大数据发展历程
1.3 大数据特征
1.4 大数据技术
1.4.1 大数据采集与预处理
1.4.2 大数据存储与管理
1.4.3 大数据计算模式
1.4.4 大数据分析与挖掘
1.4.5 大数据可视化
1.4.6 大数据隐私与安全保护
1.5 大数据应用场景
1.6 大数据职业
第2章 虚拟化集群环境
2.1 虚拟机的安装
2.2 安装CentOS系统
2.3 克隆CentOS系统
2.4 CentOS系统网络配置
2.5 常用的Linux连接终端与文件上传T具
第3章 Hadoop集群
3.1 Hadoop概述
3.1.1 Hadoop是什么
3.1.2 Hadoop发展进程
3.1.3 HDES
3.2 Linux时钟同步
3.3 服务器配置
3.3.1 配置主机名
3.3.2 关闭防火墙
3.3.3 配置Hosts列表
3.4 JDK环境安装
3.4.1 准备工作
3.4.2 安装JDK
3.5 SSH免密码登录
3.6 搭建Hadoop集群
3.6.1 准备工作
3.6.2 安装
3.6.3 配置
3.7 Hadoop Shell
3.7.1 Hadoop Shell概述
3.7.2 用户命令
3.7.3 管理命令
3.7.4 FS Shell
第4章 Hadoop生态
4.1 Apache HBase
4.1.1 Apathe HBase概述
4.1.2 准备工作
4.1.3 Apache HBase安装与配置
4.2 Apache-Pig
4.2.1 Apache Pig概述
4.2.2 准备工作
4.2.3 安装与配置
4.2.4 Pig运行模式
4.3 Apache-Hive
4.3.1 准备工作
4.3.2 安装与配置
4.4 Apache Mahout
4.4.1 准备工作
4.4.2 安装与配置
4.5 Apache Sqoop
4.5.1 准备工作
4.5.2 安装与配置
4.6 Apache Z00Keeper
4.6.1 准备工作
4.6.2 安装与配置
第5章 MapReduce编程
5.1 MapReduce编程模型
5.1.1 Hadoop基本数据类型封装
5.1.2 Mapper
5.1.3 Reducer
5.1.4 控制类
5.2 MapReduce开发环境搭建
5.2.1 JDK安装
5.2.2 STS安装
5.3 编写MapReduee程序
5.3.1 英文单词计数
5.3.2 最高气温计算
第6章 MapReduce数据分析实战
6.1 网站PV分析
6.1.1 任务描述
6.1.2 数据来源
6.1.3 数据分析思路
6.1.4 数据分析
6.2 浏览器分析
6.2.1 任务描述
6.2.2 数据来源
6.2.3 数据分析思路
6.2.4 编写MapReduce程序
6.2.5 数据可视化
6.3 招聘数据分析
6.3.1 任务描述
6.3.2 数据来源
6.3.3 数据分析思路
6.3.4 数据导入
6.3.5 数据分析
6.4 Online Judge数据分析
6.4.1 任务描述
6.4.2 数据来源
6.4.3 数据分析思路
6.4.4 HBase数据导入方式
6.4.5 导入数据到HBase
6.4.6 编写MapRecluee程序分析数据
第7章 MapReduce推荐应用实战
7.1 好友推荐
7.1.1 任务描述
7.1.2 数据来源
7.1.3 数据计算思路
7.1.4 计算好友列表
7.1.5 计算共同好友
7.1.6 打包执行
7.2 电影推荐
7.2.1 任务描述
7.2.2 数据来源
7.2.3 数据计算思路
7.2.4 Join操作
7.2.5 推荐电影
7.3 新书推荐
7.3.1 任务描述
7.3.2 数据来源
7.3.3 Slope One算法
7.3.4 推荐思路
7.3.5 单机运行Mahout推荐算法
7.3.6 Hadoop集群模式运行Mahout推荐算法
第8章 MapReduce数据挖掘实战
8.1 关联规则挖掘
8.1.1 任务描述
8.1.2 数据来源
8.1.3 关联规则挖掘概述
8.1.4 FP—Growth算法
8.1.5 数据挖掘过程
8.2 聚类分析
8.2.1 任务描述
8.2.2 数据来源
8.2.3 聚类概述
8.2.4 K-Means算法
8.2.5 Mabout聚类
8.3 数据分类
8.3.1 任务描述
8.3.2 数据来源
8.3.3 分类概述
8.3.4 朴素贝叶斯分类算法
8.3.5 Mabout分类
参考文献