第 1章 简单直接的策略—
减少数据占用空间 1
1.1 保留必要的数据 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 设置合适的数据类型 13
1.3 本章小结 15
第 2章 简单直接的策略—
减少数据占用空间 1
1.1 保留必要的数据 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 设置合适的数据类型 13
1.3 本章小结 15
第3章 基于内存的“快工具”—
data.table 16
2.1 数据读入操作 17
2.1.1 读入单个数据 17
2.1.2 读入多个数据 20
2.2 数据基本行列操作 23
2.3 数据合并、分组汇总操作 32
2.4 dtplyr:data.table和dplyr的结合 39
2.5 本章小结 46
第4章 逐块击破—数据分块处理 47
3.1 使用iotools库实现分块处理 47
3.2 使用readr库实现分块处理 57
3.3 本章小结 60
第4章 突破内存限制—
利用硬盘资源 61
4.1 实现R与关系型数据库管理
系统协作 61
4.2 使用bigmemory体系处理大型矩阵 66
4.3 使用ff体系处理大型数据框 73
4.3.1 ff体系基本数据操作 73
4.3.2 ff体系与关系型数据库
系统协作 81
4.4 新一代工具disk.frame 83
4.5 本章小结 93
第5章 友好的可视化工具—
trelliscope 94
5.1 实现交互式大型分面可视化 94
5.2 本章小结 100
第6章 让R更快—并行编程 101
6.1 R并行编程技术概览 101
6.2 并行计算第三方库 103
6.2.1 snow库 104
6.2.2 multicore库 104
6.2.3 parallel库 105
6.2.4 future库 106
6.2.5 foreach库 107
6.3 网络数据爬取案例 108
6.3.1 利用foreach并行循环
进行爬取 109
6.3.2 利用tidyverse和future相结合
进行爬取 119
6.3.3 文本分词及整洁化处理 125
6.4 本章小结 132
第7章 提升机器学习效能—
R的基础策略 134
7.1 使用foreach实现并行循环 136
7.2 使用更优化的第三方库 140
7.3 使用caret框架结合并行计算 145
7.4 本章小结 157
第8章 整洁流畅的框架—
tidymodels 158
8.1 建立简单工作流 159
8.2 工作流比较 166
8.3 工作流超参数调优 169
8.4 多工作流同时调优 176
8.5 本章小结 180
第9章 灵活强大的框架—mlr3 181
9.1 数据及模型的创建 182
9.2 利用future支持mlr3计算任务 190
9.3 嵌套重抽样过程 201
9.4 以图管理机器学习工作流 204
9.5 本章小结 213
第 10章 强强联合—利用
reticulate库借力Python 214
10.1 配置Python环境 215
10.2 在R中用Python代码编程 217
10.3 以R编程方式使用Python 223
10.4 本章小结 227
第 11章 简单高效的自动机器学习
工具—H2O 228
11.1 H2O基本使用方法 229
11.2 H2O自动机器学习 242
11.3 本章小结 247
第 12章 善其事,利其器—
其他策略和工具 248
12.1 内存及硬盘资源管理类策略 248
12.1.1 读取压缩文件 248
12.1.2 以rds格式保存中间结果 250
12.1.3 垃圾回收机制 251
12.1.4 R的内存管理工具 251
12.1.5 使用pryr库 252
12.2 计算效能提升类策略 254
12.2.1 函数编译 255
12.2.2 使用benchmarkme库 256
12.3 使用R的增强发行版本 258
12.3.1 Microsoft R Open 258
12.3.2 Microsoft R Client 260
12.4 其他数据科学工具 261
12.4.1 SAS(Statistical Analysis
System) 261
12.4.2 Python 262
12.5 本章小结 264