第Ⅰ部分 数据科学引论
第1章 数据科学处理过程
1.1 数据科学项目中的角色
1.2 数据科学项目的阶段
1.2.1 制定目标
1.2.2 收集和管理数据
1.2.3 建立模型
1.2.4 评价和评判模型
1.2.5 展现结果和编制文档
1.2.6 部署模型
1.3 设定预期
1.4 小结
第2章 从R和数据入门
2.1 R入门
2.1.1 安装R、工具和示例
2.1.2 R编程
2.2 处理文件中的数据
2.2.1 使用来自文件或URL的结构良好的数据
2.2.2 使用R处理非结构化的数据
2.3 使用关系数据库
2.4 小结
第3章 探索数据
3.1 使用概要统计方法发现问题
3.2 使用图形和可视化方法发现问题
3.2.1 采用可视化的方法检查单变量的分布
3.2.2 采用可视化的方法检查两个变量之间的关系
3.3 小结
第4章 管理数据
4.1 清洗数据
4.1.1 特定领域的数据清洗
4.1.2 处理缺失值
4.1.3 自动处理缺失值变量的vtreat程序包
4.2 数据转换
4.2.1 归一化处理
4.2.2 中心化和定标
4.2.3 针对偏态分布和广泛分布的对数转换
4.3 用于建模和验证的抽样处理
4.3.1 用于测试和训练的分组数据集
4.3.2 创建一个样本分组列
4.3.3 记录分组
4.3.4 数据来源
4.4 小结
第5章 数据工程与数据整理
5.1 数据选取
5.1.1 设置行子集和列子集
……
第Ⅱ部分 建模方法
第6章 选择和评价模型
第7章 线性和逻辑回归
第8章 高级数据准备
第9章 无监督方法
第10章 高级方法探索
第Ⅲ部分 结果交付
第11章 文档编制和部署
第12章 有效的结果展现
附录A 使用R和其他工具
附录B 重要的统计学概念
附录C 参考文献