第1章 分析的过程 1
1.1 分析的定义 1
1.1.1 简单的分析示例 2
1.1.2 典型日常工作 3
1.1.3 适合数据分析师职业的个人特质 3
1.2 分析的演变 4
1.2.1 质量运动 5
1.2.2 第二次世界大战 7
1.2.3 统计的影响和涉及面 7
1.3 商业智能的曙光 8
第2章 了解SAS和R 11
2.1 选择SAS和R的原因 11
2.1.1 市场概况 11
2.1.2 高级分析的定义 12
2.2 SAS和R的历史 13
2.2.1 SAS的历史 14
2.2.2 关于EG 15
2.2.3 获得SAS Enterprise Guide软件的方式 15
2.2.4 R的历史 15
2.2.5 关于R的命名 16
2.2.6 关于R 16
2.2.7 关于RStudio 16
2.2.8 关于CRAN 18
2.2.9 关于R的附加软件包 19
2.2.10 微软公司收购Revolution Analytics的意义 20
2.3 安装SAS和R 20
2.3.1 获得SAS 20
2.3.2 SAS University Edition 21
2.3.3 SAS OnDemand for Academics 26
2.3.4 Education Analytical Suite 29
2.3.5 安装R 29
第3章 使用SAS和R进行数据处理 33
3.1 定义:数据处理之前的阶段 33
3.2 常见业务问题的基本理解 34
3.2.1 数据来源 36
3.2.2 使用基准创建定义陈述 36
3.3 从ERP到业务分析SaaS的数据流 37
3.3.1 主键 38
3.3.2 关系数据库 38
3.4 数据完整性检查 39
3.5 SAS案例研究1 39
3.5.1 问题陈述 40
3.5.2 导入数据 41
3.5.3 查看数据 42
3.5.4 收集和组织数据 44
3.5.5 可视化 47
3.5.6 执行分析 50
3.6 R案例研究1 52
3.6.1 问题陈述 52
3.6.2 导入数据 53
3.6.3 查看数据 53
3.6.4 收集和组织数据 56
3.6.5 可视化 63
3.6.6 执行分析 68
第4章 使用SAS和R发现有关数据的基本信息 73
4.1 关于描述性统计 73
4.1.1 有关推论和描述统计的更多信息 74
4.1.2 表格和描述性统计 75
4.1.3 关于频率分布 76
4.2 SAS案例研究2 78
4.2.1 问题陈述 78
4.2.2 导入数据 79
4.2.3 查看数据 80
4.2.4 关于单变量过程 82
4.2.5 收集和组织数据 85
4.2.6 可视化 90
4.2.7 执行分析 91
4.3 R案例研究2 92
4.3.1 问题陈述 92
4.3.2 导入数据 93
4.3.3 查看数据 93
4.3.4 收集和组织数据 95
4.3.5 可视化 102
4.3.6 执行分析 102
4.4 使用描述性统计 104
4.4.1 集中趋势的度量 104
4.4.2 散布的度量 105
4.4.3 差异分析 106
4.4.4 方差 107
第5章 可视化 111
5.1 可视化的定义 111
5.2 当今世界的数据可视化 113
5.3 进行数据可视化的理由 113
5.4 常见的图形和图表类型 115
5.5 SAS案例研究3 116
5.5.1 关于数据 116
5.5.2 数据内容 116
5.5.3 定义 116
5.5.4 问题陈述 117
5.5.5 SAS解决方案 117
5.6 SAS代码和解决方案 118
5.6.1 导入数据 118
5.6.2 查看内容并了解变量 121
5.6.3 保留所需的变量 121
5.6.4 创建所需的欺诈指标变量 122
5.6.5 组织和整理数据 123
5.6.6 可视化y变量 125
5.7 R案例研究3 129
5.7.1 关于数据 129
5.7.2 数据内容 130
5.7.3 定义 130
5.7.4 问题陈述 130
5.7.5 R中的解决方案 130
5.8 R代码和解决方案 131
5.8.1 导入数据 131
5.8.2 查看内容并了解变量 132
5.8.3 保留所需的变量 134
5.8.4 创建所需的欺诈指标变量 135
5.8.5 组织和整理数据 136
5.8.6 可视化y变量 137
5.9 相关性和协方差 141
5.10 对相关性的解释 142
第6章 概率 143
6.1 概率的定义 143
6.2 独立事件的概率:两个或多个事件的概率 144
6.3 条件事件的概率:两个或多个事件的概率 144
6.4 使用概率的原因 145
6.5 使用贝叶斯定理计算概率 146
6.5.1 贝叶斯定理的似然性 146
6.5.2 从条件概率推导贝叶斯定理 147
6.5.3 决策树:用它来理解贝叶斯定理 148
6.6 计算概率的频率 148
6.6.1 离散变量 148
6.6.2 连续变量 149
6.6.3 正态分布 149
6.6.4 变量不是正态分布的情形 150
6.7 SAS案例研究4 151
6.7.1 问题陈述 151
6.7.2 导入数据 152
6.7.3 查看数据 152
6.7.4 定义业务问题 153
6.7.5 可视化 154
6.7.6 查看变量的基本统计信息 156
6.7.7 组织和整理数据 158
6.7.8 SAS练习1 160
6.7.9 SAS练习2 165
6.8 R案例研究4 165
6.8.1 问题陈述 165
6.8.2 导入数据 166
6.8.3 查看数据 166
6.8.4 定义业务问题 167
6.8.5 可视化 168
6.8.6 查看变量的基本统计信息 169
6.8.7 组织和整理数据 170
6.8.8 执行分析 173
6.8.9 R练习 179
第7章 样本和抽样分布 181
7.1 了解样本 181
7.2 抽样分布 185
7.2.1 离散均匀分布 187
7.2.2 二项分布 188
7.2.3 连续均匀分布 189
7.2.4 泊松分布 190
7.2.5 概率分布的使用 190
7.3 中心极限定理 190
7.4 大数定律 191
7.5 使用统计数据进行业务决策 192
7.6 参数检验 193
7.7 非参数检验 194
7.8 SAS案例研究5 195
7.8.1 问题陈述 195
7.8.2 导入数据 195
7.8.3 查看数据 196
7.8.4 组织和整理数据 197
7.8.5 执行分析 201
7.9 R案例研究5 204
7.9.1 问题陈述 204
7.9.2 导入数据 204
7.9.3 收集和组织数据 204
7.9.4 可视化 205
7.9.5 执行分析 207
第8章 分析的置信区间和正确性 213
8.1 确定统计结果的方式 213
8.2 关于P值 216
8.3 假设检验中的错误 218
8.4 SAS案例研究6 219
8.4.1 问题陈述 219
8.4.2 导入数据 219
8.4.3 查看数据 220
8.4.4 组织和整理数据 221
8.4.5 执行分析 222
8.5 R案例研究6 223
8.5.1 问题陈述 223
8.5.2 导入数据 223
8.5.3 查看数据 223
8.5.4 组织和整理数据 225
8.5.5 执行分析 226
第9章 结论和见解 229
9.1 关于见解 229
9.1.1 描述统计 230
9.1.2 图表 231
9.1.3 推断统计 231
9.1.4 差异统计 232
9.2 SAS案例研究7 232
9.2.1 问题陈述 233
9.2.2 导入数据 233
9.2.3 查看数据 233
9.2.4 组织和整理数据 233
9.2.5 可视化 234
9.2.6 执行分析 239
9.3 R案例研究7 240
9.3.1 问题陈述 240
9.3.2 导入数据 241
9.3.3 查看数据 241
9.3.4 组织和整理数据 241
9.3.5 可视化 242
9.3.6 执行分析 244