第1章 监督学习简介
1.1 什么是机器学习
1.1.1 数据分析、数据挖掘、机器学习和人工智能之间的关系
1.1.2 数据、数据类型和数据源
1.2 机器学习与软件工程的差异
1.3 机器学习的统计和数学概念
1.4 监督学习算法
1.4.1 回归与分类问题
1.4.2 监督学习算法步骤
1.5 无监督学习算法
1.5.1 聚类分析
1.5.2 PCA
1.6 半监督学习算法
1.7 技术栈
1.8 机器学习的普及性
1.9 机器学习使用案例
1.10 小结
第2章 回归分析监督学习
2.1 所需技术工具包
2.2 回归分析及案例
2.3 什么是线性回归
2.4 度量回归问题的有效性
2.4.1 案例1:创建简单线性回归
2.4.2 案例2:住宅数据集简单线性回归
2.4.3 案例3:住宅数据集多元线性回归
2.5 非线性回归分析
2.6 识别非线性关系
2.7 回归模型面临的挑战
2.8 回归的基于树方法
2.9 案例分析:使用决策树解决油耗问题
2.10 回归的集成方法
2.11 案例分析:使用随机森林解决油耗问题
2.12 基于树方法的特征选择
2.13 小结
第3章 分类问题监督学习
3.1 所需技术工具包
3.2 假设检验及p值
3.3 分类算法
3.4 评估解决方案准确度
3.5 案例分析:信用风险
3.6 分类的朴素贝叶斯方法
3.7 案例分析:人口普查数据的收入预测
3.8 分类的k最近邻方法
3.9 案例分析:k最近邻
3.9.1 数据集
3.9.2 业务目标
3.10 分类的基于树算法
3.11 决策树算法类型
3.12 小结
第4章 监督学习高级算法
4.1 所需技术工具
4.2 提升算法
4.3 支持向量机(SVM)
4.3.1 二维空间的SVM
4.3.2 KSVM
4.3.3 使用SVM的案例分析
4.4 非结构化数据的监督学习算法
4.5 文本数据
4.5.1 文本数据案例
4.5.2 文本数据面临的挑战
4.5.3 文本分析建模过程
4.5.4 文本数据提取及管理
4.5.5 文本数据预处理
4.5.6 从文本数据提取特征
4.6 案例分析:采用自然语言处理的客户投诉分析
4.7 案例分析:采用词嵌入的客户投诉分析
4.8 图像数据
4.8.1 图像数据案例
4.8.2 图像数据面临的挑战
4.8.3 图像数据管理过程
4.8.4 图像数据建模过程
4.9 深度学习基础
4.9.1 人工神经网络
4.9.2 激活函数
4.9.3 神经网络的损失函数
4.9.4 神经网络优化
4.9.5 神经网络训练过程
4.10 案例分析1:在结构化数据上建立分类模型
4.11 案例分析2:图像分类模型
4.12 小结
第5章 端到端模型开发
5.1 所需技术工具
5.2 机器学习模型开发
5.3 步骤1:定义业务问题
5.4 步骤2:数据发现阶段
5.5 步骤3:数据清理和准备
5.5.1 数据集中的重复值
5.5.2 数据集的分类变量处理
5.5.3 数据集中存在的缺失值
5.6 数据集中的不平衡
5.7 数据集中的离群值
5.8 数据集中其他常见问题
5.9 步骤4:EDA
5.10 步骤5:机器学习模型构建
5.10.1 数据训练/测试集分割
5.10.2 为分类算法找到最佳阈值
5.10.3 过拟合与欠拟合问题
5.10.4 关键利益相关人讨论并迭代
5.10.5 提交最终模型
5.11 步骤6:模型部署
5.12 步骤7:文档化
5.13 步骤8:模型更新和维护
5.14 小结