定 价:¥48.00
作 者: | 薛薇 |
出版社: | 电子工业出版社 |
丛编项: | |
标 签: | 暂缺 |
ISBN: | 9787121339158 | 出版时间: | 2018-07-01 | 包装: | |
开本: | 16开 | 页数: | 240 | 字数: |
第1章 R语言与统计分析概述 1
1.1 写在前面的话 1
1.1.1 大数据的广义概念 1
1.1.2 目标定位 2
1.1.3 初识R 3
1.2 R语言入门 3
1.2.1 R中的基本概念 3
1.2.2 R的下载安装 5
1.2.3 R程序的运行 6
1.2.4 R使用的其他方面 10
1.3 Rstudio简介 12
1.4 从大数据分析案例看统计分析的基本框架 13
1.4.1 数据集 14
1.4.2 分析目标和数据预处理 16
1.4.3 数据的基本分析 17
1.4.4 总体特征的推断 17
1.4.5 推断多个变量间的总体相关性 18
1.4.6 数据的聚类 19
1.5 本章涉及的R函数 19
第2章 R的数据组织 20
2.1 R的数据对象 20
2.1.1 R对象的类型划分 20
2.1.2 创建和管理R对象 21
2.2 R数据组织的基本方式 22
2.2.1 R向量及其创建与访问 22
2.2.2 R矩阵和数组及其创建与访问 27
2.2.3 R数据框及其创建与访问 32
2.2.4 R列表及其创建与访问 36
2.3 R数据组织的其他问题 37
2.3.1 R对象数据的保存 37
2.3.2 通过键盘读入数据 38
2.3.3 共享R自带的数据包 39
2.4 大数据案例的数据结构和R组织 39
2.4.1 读文本文件数据到R数据框 39
2.4.2 大数据分析案例:北京市空气质量监测数据 40
2.4.3 大数据分析案例:美食餐馆食客点评数据 41
2.4.3 大数据分析案例:超市顾客购买行为数据 42
2.5 本章涉及的R函数 43
第3章 R的数据整理和编程基础 45
3.1 从大数据分析案例看数据整理 45
3.1.1 美食餐馆食客点评数据的整理问题 45
3.1.2 超市顾客购买行为数据的整理问题 45
3.1.3 北京市空气质量监测数据的整理问题 46
3.2 数据的初步整理 46
3.2.1 数据整合 46
3.2.2 数据筛选 46
3.2.3 大数据分析案例:美食餐馆食客点评数据的初步整理 47
3.3 数据质量评估 49
3.3.1 缺失数据报告 49
3.3.2 异常值排查 50
3.3.3 大数据分析案例:美食餐馆食客点评数据的质量评估 50
3.4 数据加工 52
3.4.1 数据加工管理中的常用函数 53
3.4.2 数据分组和重编码 59
3.4.3 大数据分析案例:利用数据加工寻找“人气”餐馆 60
3.5 数据管理中的R编程基础 61
3.5.1 分支结构的流程控制及示例――促销折扣的计算 61
3.5.2 循环结构的流程控制及示例:等差数列的求和 63
3.5.3 用户自定义函数及示例:汇总数据还原为原始数据 65
3.5.4 R编程大数据分析案例:超市顾客购买行为数据的RFM计算 67
3.5.5 R编程大数据分析案例:北京市空气质量监测数据的整理 68
3.6 本章涉及的R函数 70
第4章 R的基本分析和统计图形 71
4.1 从大数据分析案例看数据基本分析 71
4.1.1 美食餐馆食客点评数据的基本分析 71
4.1.2 北京市空气质量监测数据的基本分析 72
4.2 R的绘图基础 73
4.2.1 图形设备和图形文件 73
4.2.2 图形组成和图形参数 74
4.3 分类型单变量的基本分析 78
4.3.1 计算频数分布表 78
4.3.2 分类型变量的基本统计图形 78
4.3.3 大数据分析案例:主打菜的餐馆分布有怎样的特点 79
4.4 数值型单变量的基本分析 80
4.4.1 计算基本描述统计量 80
4.4.2 数值型变量的基本统计图形 81
4.4.3 大数据分析案例:餐馆评分的分布有怎样的特点 83
4.5 大数据分析案例综合:北京市空气质量监测数据的基本分析 85
4.6 本章涉及的R函数 88
第5章 R的变量相关性分析和统计图形 89
5.1 分类型变量相关性的分析 89
5.1.1 分类型变量相关性的描述 89
5.1.2 分类型变量相关性的统计图形 93
5.1.3 大数据分析案例:餐馆的区域分布与主打菜分布是否具有相关性 93
5.2 数值型变量相关性的分析 94
5.2.1 数值型变量相关性的描述 94
5.2.2 数值型变量相关性的统计图形 95
5.2.3 大数据分析案例:餐馆各打分之间、打分与人均消费之间是否具有相关性 96
5.3 大数据分析案例综合:北京市空气质量监测数据的相关性分析 100
5.4 本章涉及的R函数 102
第6章 R的均值检验:单个总体的均值推断及两个总体均值的对比 104
6.1 从大数据分析案例看推断统计 104
6.1.1 美食餐馆食客点评数据分析中的推断统计问题 104
6.1.2 北京市空气质量监测数据分析中的推断统计问题 105
6.2 单个总体的均值推断 106
6.2.1 以PM2.5总体均值推断为例看假设检验基本原理 106
6.2.2 大数据案例分析:估计供暖季北京市PM2.5浓度的总体均值 110
6.3 两个总体均值的对比:基于独立样本的常规t检验 111
6.3.1 两个独立样本均值t检验的原理和R实现 111
6.3.2 深入问题:方差齐性检验和R实现 114
6.3.3 大数据分析案例:两个区域美食餐馆人均消费金额是否存在差异 115
6.4 两个总体均值的对比:置换检验 117
6.4.1 两个独立样本均值差的置换检验原理和R实现 117
6.4.2 大数据分析案例:利用置换检验对比两个区域美食餐馆人均消费金额的总体均值 118
6.5 两个总体的均值对比:自举法检验 118
6.5.1 两个独立样本均值差的自举法检验原理和R实现 118
6.5.2 大数据分析案例:利用自举法对比两个区域美食餐馆人均消费金额的总体均值 120
6.6 两个总体的均值对比:基于配对样本的常规t检验 121
6.6.1 两个配对样本均值t检验的原理和R实现 121
6.6.2 大数据分析案例:两个区域美食餐馆口味评分与就餐环境评分的均值是否存在差异 122
6.7 大数据分析案例综合:北京市空气质量监测数据的均值研究 123
6.8 本章涉及的R函数 125
第7章 R的方差分析:多个总体均值的对比 127
7.1 从大数据分析案例看方差分析 127
7.1.1 美食餐馆食客点评数据分析中的方差分析问题 127
7.1.2 北京市空气质量监测数据分析中的方差分析问题 128
7.2 多个总体均值的对比:单因素方差分析 128
7.2.1 单因素方差分析原理和R实现 128
7.2.2 深入问题:方差齐性检验和多重比较检验 131
7.2.3 大数据分析案例:利用单因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值 131
7.3 多个总体均值的对比:多因素方差分析 135
7.3.1 多因素方差分析原理和R实现 135
7.3.2 大数据分析案例:利用多因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值 137
7.4 大数据分析案例综合:北京市空气质量监测数据的均值研究 140
7.5 本章涉及的R函数 142
第8章 R的线性回归分析:对数值变量影响程度的度量和预测 143
8.1 从数据分析案例看线性回归分析 143
8.1.1 美食餐馆食客点评数据分析中的回归分析问题 143
8.1.2 北京市空气质量监测数据分析中的回归分析问题 143
8.1.3 线性回归分析的一般步骤 143
8.2 建立回归方程 145
8.2.1 线性回归模型和线性回归方程 145
8.2.2 线性回归方程的参数估计和R实现 145
8.2.3 大数据分析案例:建立美食餐馆食客评分的线性回归模型 146
8.3 回归方程的检验 147
8.3.1 回归方程的显著性检验 148
8.3.2 回归系数的显著性检验 149
8.3.3 大数据分析案例:美食餐馆食客评分回归方程的检验 149
8.4 回归方程的应用 152
8.4.1 回归方程拟合效果的度量 152
8.4.2 预测和预测误差 153
8.4.3 大数据分析案例:美食餐馆食客评分回归方程的评价和预测 153
8.5 回归模型的验证 154
8.5.1 回归模型的N折交叉验证法和R实现 155
8.5.2 回归模型的自举法验证和R实现 155
8.5.3 大数据分析案例:美食餐馆食客评分回归模型的验证 156
8.6 虚拟自变量回归和协方差分析 157
8.6.1 虚拟自变量回归 157
8.6.2 协方差分析 159
8.6.3 大数据分析案例:就餐环境对不同区域美食餐馆人均消费的影响 159
8.7 大数据分析案例综合:北京市空气质量监测数据的回归分析研究 162
8.8 本章涉及的R函数 168
第9章 R的Logistic回归分析:对分类变量影响程度的度量和预测 169
9.1 从大数据分析案例看Logistic回归分析 169
9.1.1 人力资源调查数据分析中的Logistic回归分析问题 169
9.1.2 Logistic回归分析的基本建模思路 172
9.2 Logistic回归方程的解读 173
9.2.1 Logistic回归方程的系数 173
9.2.2 Logistic回归方程的检验 174
9.2.3 大数据分析案例:基于人力资源调查数据探讨技术人员离职的原因 176
9.3 Logistic回归方程的应用 179
9.3.1 Logistic回归方程拟合效果的评价 179
9.3.2 大数据分析案例:基于人力资源调查数据预测技术人员离职的可能性 180
9.4 本章涉及的R函数 181
第10章 R的聚类分析:数据分组 182
10.1 从大数据分析案例看聚类分析 182
10.1.1 超市顾客购买行为数据分析中的聚类分析问题 182
10.1.2 北京市空气质量监测数据分析中的聚类分析问题 183
10.1.3 聚类分析的基本思路 183
10.2 K-Means聚类 185
10.2.1 K-Means聚类原理和R实现 185
10.2.2 大数据分析案例:超市顾客购买行为数据分析中的K-Means聚类 187
10.3 分层聚类 191
10.3.1 分层聚类原理和R实现 191
10.3.2 大数据分析案例:超市顾客购买行为数据分析中的分层聚类 192
10.4 大数据分析案例综合:北京市空气质量监测数据的聚类分析研究 195
10.5 本章涉及的R函数 197
第11章 R的线性判别分析:分类预测 198
11.1 从大数据分析案例看判别分析 198
11.1.1 人力资源调查数据分析中的判别分析问题 198
11.1.2 判别分析的数据和基本出发点 199
11.2 距离判别法 199
11.2.1 距离判别的基本思路 199
11.2.2 判别函数的计算和R实现 201
11.2.3 大数据分析案例:利用距离判别预测技术人员离职的可能性 203
11.3 Fisher判别法 205
11.3.1 Fisher判别的基本原理 205
11.3.2 Fisher判别系数的求解和R实现 207
11.3.3 大数据分析案例:利用Fisher判别预测技术人员离职的可能性 209
11.4 本章涉及的R函数 210
第12章 R的因子分析:特征提取 211
12.1 从大数据分析案例看因子分析 211
12.1.1 植物物种分类中的因子分析问题 211
12.1.2 北京市空气质量监测数据分析中的因子分析问题 213
12.2 因子分析基础 213
12.2.1 因子分析的数学模型 213
12.2.2 因子分析的特点和基本步骤 215
12.2.3 因子分析的模型评价 216
12.3 确定因子变量 217
12.3.1 主成分分析法的基本原理 217
12.3.2 基于主成分分析法的因子载荷矩阵求解和R实现 219
12.3.3 计算因子得分和R实现 220
12.3.4 大数据分析案例:利用因子分析实现植物物种分类中的特征提取 221
12.4 因子变量命名 223
12.4.1 从大数据分析案例看因子变量命名的必要性 223
12.4.2 因子旋转的原理和R实现 226
12.4.3 大数据分析案例:利用因子分析实现北京市空气质量的区域综合评价 227
12.5 本章涉及的R函数 229