1 认识本书的数据集
1.1 引言
1.2 涉及数据清洗的基本函数
1.2.1 进行缺失值判断-is.na函数
1.2.2 进行频次统计-table函数
1.2.3 进行数据定位-which函数
1.2.4 进行数据概览-summar函数
1.2.5 输出选定部分-head函数
1.3 读入数据
1.4 数据的结构与基本信息
1.4.1 该数据集的结构
1.4.2 该数据集的基本信息
1.5 业务目标与数据清洗工作
2 识别与清洗数值型数据中的异常值
2.1 引言
2.2 梳理业务目标
2.3 快速清洗异常数据
2.3.1 快速识别与删除缺失值
2.3.2 快速识别离群值
2.4 清洗离群值
2.4.1 利用经验清洗离群值
2.4.2 利用均值与标准差检测离群值
2.4.3 截去部分离群值
2.4.4 利用四分位差检测离群值
2.5 其他数值数据清洗技术
2.5.1 最大值与最小值
2.5.2 排序
2.5.3 数值变量的分位数
2.5.4 自定义函数:数据截断
2.6 小结
……
3 利用正则表达式检测字符型数据
4 处理时间与日期类型的数据
5 重复数据及其异常值
6 多数据集处理
7 用户分析与数据清洗工作
8 清洗字符型数据
参考文献
后记