第1章R概述\\\\1
1.1概述1
1.1.1R是什么1
1.1.2为什么是R1
1.1.3R相对于其他编程语言的优势3
1.2下载并安装R4
1.2.1下载R4
1.2.2安装R6
1.2.3R的主要文件类型7
1.3集成开发环境和文本编辑器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中软件包的处理10
1.4.1R软件包的安装11
1.4.2准备开始的一些函数12
本章小结17
关键术语18
巩固练习18
单项选择题参考答案19
第2章开始使用R\\\\20
2.1概述20
2.2处理目录20
2.2.1getwd()命令20
2.2.2setwd()命令21
2.2.3dir()函数21
2.3R中的数据类型23
2.3.1强制类型转换26
2.3.2引入变量和ls()函数26
2.4数据探索的一些命令27
2.4.1加载内部数据集27
本章小结38
关键术语38
实战练习38
大数据分析——基于R语言目录
第3章在R中加载及处理数据\\\\40
3.1概述40
3.2分析数据处理的挑战40
3.2.1数据格式41
3.2.2数据质量41
3.2.3项目范围41
3.2.4利益方期望的输出结果的管理41
3.3表达式、变量和函数42
3.3.1表达式42
3.3.2逻辑值42
3.3.3日期43
3.3.4变量45
3.3.5函数45
3.3.6处理数据中的文本48
3.4R中缺失值的处理50
3.5利用as操作符改变数据的结构51
3.6向量53
3.6.1顺序向量54
3.6.2rep()函数54
3.6.3向量访问55
3.6.4向量名56
3.6.5向量的算术运算57
3.6.6向量循环58
3.7矩阵60
3.7.1矩阵访问61
3.8因子65
3.8.1创建因子65
3.9列表67
3.9.1列表标签和值68
3.9.2从列表中添加和删除元素69
3.9.3列表的大小70
3.10一些常见的分析任务72
3.10.1探索数据集72
3.10.2数据集的条件操作72
3.10.3合并数据75
3.11变量的聚合和分组处理76
3.11.1aggregate()函数76
3.11.2tapply()函数76
3.12使用R进行简单分析78
3.12.1输入78
3.12.2描述数据结构78
3.12.3描述变量结构79
3.12.4输出82
3.13读取数据的方法83
3.13.1CSV和电子表格83
3.13.2从包中读取数据86
3.13.3从Web/API中读取数据86
3.13.4读取一个JSON(JavaScript Object Notation)文档88
3.13.5读取XML文件89
3.14数据输入的R GUI的比较92
3.15使用R连接数据库及商务智能系统94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小结101
关键术语103
巩固练习103
单项选择题参考答案106
第4章在R中探索数据\\\\107
4.1概述107
4.2数据框107
4.2.1数据框访问108
4.2.2数据框排序110
4.3用于理解数据框中数据的R函数111
4.3.1dim()函数111
4.3.2str()函数111
4.3.3summary()函数112
4.3.4names()函数112
4.3.5head()函数112
4.3.6tail()函数113
4.3.7edit()函数113
4.4加载数据框114
4.4.1从CSV文件中读取数据114
4.4.2获取数据框子集115
4.4.3从TSV文件中读取数据115
4.4.4从表格读取数据116
4.4.5合并数据框117
4.5探索数据117
4.6数据汇总118
4.7查找缺失值122
4.8无效值和异常值124
4.9描述性统计126
4.9.1数据全距126
4.9.2频数126
4.9.3均值和中值127
4.9.4标准差131
4.9.5众数132
4.10利用可视化发现数据中的问题134
4.10.1对单变量的分布进行可视化检查135
4.10.2直方图136
4.10.3密度图138
4.10.4柱状图140
本章小结144
关键术语145
巩固练习145
单项选择题参考答案147
第5章线性回归——使用R\\\\148
5.1概述148
5.2模型拟合148
5.3线性回归149
5.3.1R中的lm()函数149
5.4线性回归的假设161
5.5验证线性假设162
5.5.1使用散点图162
5.5.2使用残差与拟合图162
5.5.3使用正态QQ图162
5.5.4使用位置尺度图163
5.5.5使用残差与杠杆图164
案例研究: 推荐引擎169
本章小结170
关键术语171
巩固练习171
实战练习172
单项选择题参考答案172
第6章逻辑回归\\\\173
6.1概述173
6.2什么是回归174
6.2.1为什么要使用逻辑回归175
6.2.2为什么不能使用线性回归176
6.2.3逻辑回归的假设176
6.3广义线性模型概述177
6.4什么是逻辑回归179
6.4.1逻辑回归的使用179
6.4.2二项逻辑回归179
6.4.3Logistic函数179
6.4.4Logit函数180
6.4.5似然函数181
6.4.6极大似然估计183
6.5二元逻辑回归185
6.5.1二元逻辑回归概述185
6.5.2具有单分类预测变量的二元逻辑回归186
6.5.3三维列联表和k维列联表的二元逻辑回归191
6.5.4具有连续协变量的二元逻辑回归191
6.6诊断逻辑回归195
6.6.1残差195
6.6.2拟合性能测试196
6.6.3受试者工作特征曲线196
6.7多元逻辑回归模型197
案例研究: 受众/顾客洞察分析204
本章小结206
关键术语207
巩固练习208
单项选择题参考答案210
第7章决策树\\\\211
7.1概述211
7.2什么是决策树211
7.3决策树在R中的表示216
7.3.1使用party包进行表示216
7.3.2使用rpart包进行表示226
7.4决策树学习中的问题解决方案228
7.4.1由属性值对表示的实例228
7.4.2目标函数具有离散输出值229
7.4.3析取描述229
7.4.4训练数据可能包含错误或缺失属性值229
7.5基本决策树学习算法230
7.5.1ID3算法231
7.5.2哪个属性是最好的分类器232
7.6度量特征233
7.6.1熵度量同质性233
7.6.2信息增益——度量熵的期望约简234
7.7决策树学习中的假设空间搜索236
7.8决策树学习中的归纳偏差237
7.8.1优选偏差与限定偏差237
7.9为什么首选短假设238
7.9.1选择短假设的原因238
7.9.2争论的问题238
7.10决策树学习中的问题238
7.10.1过拟合238
7.10.2合并连续值属性241
7.10.3选择属性的其他方法241
7.10.4处理具有缺失属性值的训练样本242
7.10.5处理具有不同成本的属性242
案例研究: 帮助零售商预测店内客流243
本章小结244
关键术语245
巩固练习246
实战练习247
单项选择题参考答案248
第8章R中的时间序列\\\\249
8.1概述249
8.2时间序列数据250
8.2.1数据可视化的基本R函数250
8.2.2用于数据操作的基本R函数259
8.2.3时间序列线性滤波267
8.3读取时间序列数据269
8.3.1scan()函数269
8.3.2ts()函数269
8.4绘制时间序列数据271
8.5分解时间序列数据272
8.5.1分解非季节性数据272
8.5.2分解季节性数据274
8.5.3季节性调整277
8.5.4回归分析278
8.6使用指数平滑进行预测279
8.6.1简单指数平滑279
8.6.2Holts指数平滑279
8.6.3HoltWinters指数平滑280
8.7ARIMA模型281
8.7.1差分时间序列282
8.7.2选择一个候选ARIMA模型282
8.7.3使用ARIMA模型进行预测284
8.7.4自相关性和偏自相关性分析284
8.7.5诊断检验285
实践任务286
案例研究: 保险欺诈检测292
本章小结293
关键术语295
巩固练习295
单项选择题参考答案299
第9章聚类\\\\300
9.1概述300
9.2什么是聚类300
9.3聚类中的基本概念301
9.3.1点、空间和距离302
9.3.2聚类策略305
9.3.3维数灾难306
9.3.4向量之间的夹角307
9.4分层聚类308
9.4.1欧氏空间中的分层聚类308
9.4.2分层聚类的效率312
9.4.3控制分层聚类的其他规则313
9.4.4非欧氏空间的分层聚类314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3选择k的正确值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法处理数据320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2实现CURE算法321
9.7非欧氏空间中的聚类322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚类树323
9.7.3在GRGPF算法中增加点323
9.7.4拆分和合并集群324
9.8流和并行数据的聚类325
9.8.1流计算模型325
9.8.2流聚类算法326
9.8.3并行环境中的聚类328
案例研究: 个性化产品推荐329
本章小结330
关键术语331
巩固练习332
实战练习333
单项选择题参考答案339
第10章关联规则\\\\340
10.1概述340
10.2频繁项集341
10.2.1关联规则341
10.2.2规则评估度量标准342
10.2.3蛮力法344
10.2.4两步法344
10.2.5Apiori算法346
10.3数据结构概述350
10.3.1表示项集的集合351
10.3.2事务数据354
10.3.3关联: 项集和规则项356
10.4挖掘算法接口358
10.4.1apriori()函数358
10.4.2eclat()函数371
10.5辅助函数372
10.5.1计算项集的支持度372
10.5.2规则推导372
10.6事务抽样374
10.7生成人工事务数据375
10.7.1子项集、超项集、最大项集和闭项集375
10.8兴趣度的其他度量378
10.9基于距离聚类事务和关联379
案例研究: 使用户生成的内容变得有价值381
本章小结382
关键术语383
巩固练习384
实战练习386
单项选择题参考答案393
第11章文本挖掘\\\\394
11.1概述394
11.2文本挖掘的定义395
11.2.1文档集395
11.2.2文档395
11.2.3文档特征395
11.2.4领域和背景知识396
11.3文本挖掘中的一些挑战396
11.4文本挖掘和数据挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的总体架构406
11.6.1预处理任务406
11.6.2核心挖掘操作407
11.6.3表示层成分与浏览功能407
11.6.4精简技术407
11.7R中文档的预处理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2频繁概念集410
11.8.3近频繁概念集410
11.8.4关联411
11.9文本挖掘的背景知识413
11.10文本挖掘查询语言413
11.11挖掘频繁模式、关联和相关性的基本概念和方法413
11.11.1基本概念414
11.11.2购物篮分析414
11.11.3关联规则415
11.12频繁项集、闭项集和关联规则416
11.12.1频繁项集416
11.12.2闭项集416
11.12.3关联规则挖掘416
11.13频繁项集的挖掘方法417
11.13.1Apriori算法: 发现频繁项集417
11.13.2从频繁项集生成关联规则419
11.13.3提高Apriori算法的效率421
11.13.4挖掘频繁项集的模式生长方法422
11.13.5使用垂直数据格式挖掘频繁项集422
11.13.6挖掘闭模式和最大模式423
11.14模式评估方法424
11.14.1强规则并不一定有趣425
11.14.2从关联分析到相关性分析425
11.14.3模式评估度量的比较426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知识427
11.15.3情感分析的输入428
11.15.4情感分析的工作方式428
案例研究: 客户群体的信用卡消费可以通过商业需求进行识别428
本章小结429
关键术语431
巩固练习432
实战练习434
单项选择题参考答案436
第12章使用R实现并行计算\\\\437
12.1概述437
12.2R工具库概述438
12.2.1在R中使用高性能计算的动机438
12.3HPC中使用R的时机439
12.3.1单节点中的并行计算440
12.3.2多节点的并行化支持440
12.4R对并行化的支持443
12.4.1R中对单节点并行化执行的支持443
12.4.2使用消息传递接口对多个节点上的并行执行提供支持450
12.4.3使用其他分布式系统的包454
12.5R中并行包的比较461
案例研究: 销售预测462
本章小节464
关键术语465
巩固练习466
实战练习468
单项选择题参考答案471