目录第1章 统计分析与并行计算1.1 并行计算与并行计算机1.2 统计计算的并行原理||以矩阵乘法为例1.3 基于R 的单机并行计算 1.4 基于Python 的单机并行计算 1.5 大数据背景下的数据采集和存储 1.6 参考文献 第2章 Hadoop 基础 2.1 Hadoop 历史、生态系统 2.2 Hadoop 的分布式文件系统(HDFS) 2.3 MapReduce 工作原理 2.4 Hadoop 上运行MapReduce 2.5 MapReduce 实例: 分层随机抽样 2.6 MapReduce 实例: 聚类分析 2.7 参考文献 第3章 基于Hadoop 的分布式算法和模型实现 3.1 R 中实现Hadoop 分布式计算 3.2 Mahout 与大数据机器学习 3.3 利用Mahout 进行数据挖掘 3.4 Mahout 实例: Logistics 回归和随机森林分类算法 3.5 Mahout 实例: 随机森林的分布式实现 3.6 参考文献 第4章 统计模型的MapReduce 实现详解 4.1 泊松回归模型: 付费搜索广告分析 4.2 判别分析: 气象因素对雾霾影响分析 4.3 分块Logistics 回归 4.4 文本分类 4.5 朴素贝叶斯模型 4.6 岭回归模型 4.7 推荐系统 4.8 参考文献 第5章 分布式文件访问与计算 5.1 Hive 基础 5.2 HiveQL 数据定义(DDL) 5.3 HBase 5.4 Hive 实例: FoodMart 案例 5.5 Hive 实例: Hive Streaming 交互计算 5.6 参考文献 第6章 Spark 与统计模型 6.1 Spark 简介 6.2 Spark 工作原理介绍 6.3 Pyspark 命令介绍 6.4 Spark 实例: 通过Word Count 了解Spark 工作流程 6.5 Spark 实例: 二分类学习 6.6 Spark 实例: 决策树模型 6.7 参考文献 附录A Hadoop 安装运行 A.1 单机伪分布式安装 A.2 全分布式集群 附录B Mahout 安装与运行 附录C Hive 安装运行 C.1 准备 C.2 安装Hive C.3 配置Hive 附录D HBase 安装运行 D.1 安装配置HBase D.2 启动HBase