1 数据读取 1 1.1 数据读取常见问题 2 1.2 核心代码 4 1.2.1 读取Excel、csv、txt、json数据 4 1.2.2 读取docx文件和查询关键词 5 1.2.3 读取日志、图像、声音、视频 7 1.2.4 Oracle、MySQL数据读取 13 1.2.5 读取Hive数据 18 1.2.6 数据导出到本地 19 2 数据探索性分析 20 2.1 数据查看 21 2.2 数据统计 22 2.3 数据分组分析 23 2.4 相关性分析 24 2.5 典型案例 25 3 数据预处理 28 3.1 注意问题 30 3.2 核心代码 31 3.2.1 缺失值检测和处理 31 3.2.2 异常值检测和处理 34 3.2.3 数据标准化规范化正则化 38 3.2.4 数据平滑处理 41 3.2.5 样本类别分布不均衡处理 47 3.2.6 数据降维 51 3.2.7 训练集验证集切分 56 3.3 典型案例 66 3.3.1 原理 66 3.3.2 代码 68 4 特征选择 69 4.1 过滤式特征提取 70 4.2 递归特征消除 73 4.3 嵌入式特征提取 74 4.4 典型案例 76 5 算法建模 79 5.1 主流数据挖掘算法 82 5.1.1 有监督学习 82 5.1.2 无监督学习 193 5.2 自动化调参 212 5.2.1 暴力搜索寻优 213 5.2.2 随机搜索寻优 217 5.3 组合分类模型器 221 5.3.1 原理 221 5.3.2 函数及代码 221 5.4 典型案例 226 5.4.1 人脸识别 227 5.4.2 多方程模型预测 232 6 可视化 237 6.1 基本图形 239 6.1.1 折线图 239 6.1.2 面积图 248 6.1.3 柱形图 253 6.1.4 散点图 268 6.1.5 饼图 279 6.2 分析图形 280 6.2.1 词云图 280 6.2.2 相似度热力图 285 6.2.3 箱式分布图 291 6.2.4 对应分析图 306