总序
前言
1 引言——如何成为数据分析师
1.1 数据分析的未来
1.2 欲善其事必先利其器
1.2.1 四大分析利器简介
1.2.2 四大分析利器的比较
1.2.3 数据分析工具的选择
1.3 数据统计分析语言R简介
1.3.1 什么是R语言
1.3.2 为什么要用R语言
1.3.3 R语言的优劣势
1.3.4 如何发挥R的优势
2 数据收集过程
2.1 统计数据
2.1.1 基本概念
2.1.2 数据的分析
2.2 收集数据
2.2.1 数据格式
2.2.2 数据收集
2.3 数据管理
2.3.1 保存数据
2.3.2 输入数据
2.3.3 R语言中数据形式
3 数据处理步骤
3.1 基本方法
3.1.1 基本函数
3.1.2 自定义函数
3.1.3 控制语句
3.2 数据选择
3.2.1 选取观测
3.2.2 选取变量
3.2.3 选取观测与变量
3.2.4 剔除观测与变量
3.3 数据转换
3.3.1 修改变量名
3.3.2 创建变量
3.3.3 变量转换
3.3.4 删除变量
3.3.5 重新编码
3.4 数据整理
3.4.1 数据集排序
3.4.2 数据集合并
3.4.3 缺失数据的处理
4 基本统计描述
4.1 基本图形显示函数
4.1.1 R语言中的高级绘图函数
4.1.2 R语言中的低级绘图函数
4.1.3 R语言中的绘图函数参数
4.2 单变量(向量)数据分析
4.2.1 计数数据分析
4.2.2 计量数据分析
4.2.3 构建自己的分析函数
4.3 多变量(数据框)数据分析
4.3.1 计数类数据分析
4.3.2 计量类数据分析
4.3.3 计数对计量数据分析
4.3.4 应用类函数的应用
5 随机变量及其分布
5.1 随机变量及其分布
5.1.1 离散型随机变量
5.1.2 连续型随机变量
5.1.3 R语言分布函数列表
5.2 随机抽样与随机数
5.2.1 离散变量随机数
5.2.2 连续变量随机数
5.3 统计量及其抽样分布
5.3.1 样本与统计量
5.3.2 常用的抽样分布
5.3.3 抽样分布的临界值
6 基本统计推断方法
6.1 正态总体的参数估计
6.1.1 参数估计的方法
6.1.2 均值的区间估计
6.2 正态总体的假设检验
6.2.1 假设检验的概念
6.2.2 单样本均值比较的t检验
6.2.3 两样本均值比较的t检验
6.3 分布自由的非参数统计
6.3.1 非参数统计简介
6.3.2 单样本非参数检验
6.3.3 两样本非参数检验
6.3.4 计数数据的卡方(x2)检验
7 常用统计分析模型
7.1 相关分析模型
7.1.1 线性相关系数的计算
7.1.2 相关系数的假设检验
7.1.3 相关系数的注意事项
7.1.4 分组数据的相关分析
7.2 回归分析模型
7.2.1 一元线性回归模型
7.2.2 多元线性回归模型
7.2.3 多元回归模型的统计诊断
7.2.4 分组多元回归模型
7.3 数据分类与模型选择
7.3.1 数据域模型
7.3.2 方差分析模型
7.3.3 Logistic模型
8 R语言的高级应用
8.1 R语言的编程概述
8.1.1 R语言编程基本知识
8.1.2 R语言数据对象说明
8.1.3 R程序中的数学运算
8.1.4 R中的字符与时间函数
8.2 R语言高级编程举例
8.2.1 自定义函数的技巧
8.2.2 自定义统计量函数
8.2.3 自定义频数表函数
8.2.4 自定义置信区间函数
8.2.5 自定义t检验函数
8.3 R语言高级绘图功能
8.3.1 特殊的统计图
8.3.2 lattice绘图
8.3.3 ggplot2绘图
8.4 R语言统计模拟实验
8.4.1 MonteCarl0模拟方法
8.4.2 模拟函数的建立方法
8.4.3 对模拟的进一步认识
9 数据库与调查分析
9.1 R语言中数据库的使用
9.1.1 为何要使用数据库
9.1.2 关系型数据库简介
9.1.3 R语言中的数据库接口包
9.2 调查数据的设计与分析
9.2.1 调查表的设计
9.2.2 调查数据的管理
9.2.3 调查数据的分析
9.3 生成统计分析报告
9.3.1 脚本文件的输入和输出
9.3.2 使用Markdown生成网页报告
附录 RStudio简介
参考文献