第1章机器学习概述
资源下载
1.1机器学习的组成
1.2分类问题及回归问题
1.3监督学习、半监督学习和无监督学习
1.4生成模型及判别模型
1.5模型评估
1.5.1训练误差及泛化误差
1.5.2过拟合及欠拟合
1.6正则化
1.7Scikitlearn模块
1.7.1数据集
1.7.2模型选择
第2章逻辑回归及熵模型
2.1线性回归
2.1.1一元线性回归
2.1.2多元线性回归
2.2广义线性回归
2.2.1逻辑回归
2.2.2多分类逻辑回归
2.2.3交叉熵损失函数
2.3熵模型
2.3.1熵模型的导出
2.3.2熵模型与逻辑回归之间的关系
2.4评价指标
2.4.1混淆矩阵
2.4.2准确率
2.4.3精确率与召回率
2.4.4PR曲线
2.4.5ROC曲线与AUC曲线
2.5实例: 基于逻辑回归实现乳腺癌预测
第3章k近邻算法
3.1k值的选取
3.2距离的度量
3.3快速检索
3.4实例: 基于k近邻算法实现鸢尾花分类
第4章决策树
4.1特征选择
4.1.1信息增益
4.1.2信息增益比
4.2决策树生成算法CART
4.3决策树剪枝
4.3.1预剪枝
4.3.2后剪枝
4.4实例: 基于决策树实现葡萄酒分类
第5章朴素贝叶斯分类器
5.1极大似然估计
5.2朴素贝叶斯分类
5.3拉普拉斯平滑
5.4朴素贝叶斯分类器的极大似然估计解释
5.5实例: 基于朴素贝叶斯实现垃圾短信分类
第6章支持向量机
6.1间隔及超平面
6.2线性可分支持向量机
6.3线性支持向量机
6.4合页损失函数
6.5核技巧
6.6二分类问题与多分类问题
6.6.1一对一
6.6.2一对多
6.6.3多对多
6.7实例: 基于支持向量机实现葡萄酒分类
第7章集成学习
7.1偏差与方差
7.2Bagging及随机森林
7.2.1Bagging
7.2.2随机森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升树
7.4.1残差提升树
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6实例: 基于梯度下降树实现波士顿房价预测
第8章EM算法及其应用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型GMM
8.4隐马尔可夫模型
8.4.1计算观测概率的输出
8.4.2估计隐马尔可夫模型的参数
8.4.3隐变量序列预测
8.5实例: 基于高斯混合模型实现鸢尾花分类
第9章降维
9.1主成分分析
9.1.1方差即协方差的无偏估计
9.1.2实例: 基于主成分分析实现鸢尾花数据降维
9.2奇异值分解
9.2.1奇异值分解的构造
9.2.2奇异值分解用于数据压缩
9.2.3SVD与PCA的关系
9.2.4奇异值分解的几何解释
9.2.5实例: 基于奇异值分解实现图片压缩
第10章聚类
10.1距离度量
10.1.1闵可夫斯基距离
10.1.2余弦相似度
10.1.3马氏距离
10.1.4汉明距离
10.2层次聚类
10.3KMeans聚类
10.4KMedoids聚类
10.5DBSCAN
10.6实例: 基于KMeans实现鸢花聚类
第11章神经网络与深度学习
11.1神经元模型
11.2多层感知机
11.3损失函数
11.4反向传播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷积神经网络
11.5.1卷积
11.5.2池化
11.5.3网络架构
11.6循环神经网络
11.7生成对抗网络
11.8图卷积神经网络
11.9深度学习发展
11.10实例: 基于卷积神经网络实现手写数字识别
11.10.1MNIST数据集
11.10.2基于卷积神经网络的手写数字识别
第12章实战: 基于KMeans算法的汽车行驶运动学片段的分类
12.1样本聚类
12.1.1SSE
12.1.2轮廓分析
12.2汽车行驶运动学片段的提取
12.3基于KMeans的汽车行驶运动学片段分类
第13章实战: 从零实现朴素贝叶斯分类器用于垃圾信息识别
13.1算法流程
13.2数据集载入
13.3朴素贝叶斯模型
13.3.1构造函数设计
13.3.2数据预处理
13.3.3模型训练
13.3.4测试集预测
13.3.5主函数实现
第14章实战: 基于逻辑回归算法进行乳腺癌的识别
14.1数据集加载
14.2Logistic模块
14.3模型评价
第15章实战: 基于线性回归、决策树和SVM进行鸢尾花分类
15.1使用Logistic实现鸢尾花分类
15.2使用决策树实现鸢尾花分类
15.3使用SVM实现鸢尾花分类
第16章实战: 基于多层感知机模型和随机森林模型的波士顿房价预测
16.1使用MLP实现波士顿房价预测
16.2使用随机森林模型实现波士顿房价预测
第17章实战: 基于生成式对抗网络生成动漫人物
17.1生成动漫人物任务概述
17.2反卷积网络
17.3DCGAN
17.4基于DCGAN的动漫人物生成
第18章实战: 基于主成分分析法、随机森林算法和SVM算法的人脸识别问题
18.1数据集介绍与分析
18.2LBP算子
18.3提取图片特征
18.4基于随机森林算法的人脸识别问题
18.5基于SVM算法的人脸识别问题
第19章实战: 使用多种机器学习算法实现基于用户行为数据的用户分类器
19.1基于机器学习的分类器的技术概述
19.2工程数据的提取聚合和存储
19.2.1数据整合的逻辑流程
19.2.2Sqoop数据同步
19.2.3基于Hive的数据仓库
19.2.4基于Azkaban的数据仓库的调度任务
19.2.5数据仓库的数据集成和数据清洗
19.2.6整合后的数据表
19.3数据展示和分析
19.3.1数据集的选取和业务背景的描述
19.3.2各维度信息详细说明
19.3.3各维度数据的描述性统计
19.3.4各维度数据的可视化
19.4特征工程
19.4.1标准化
19.4.2区间缩放
19.4.3归一化
19.4.4对定性特征进行onehot编码
19.4.5缺失值填补
19.4.6数据倾斜
19.5模型训练和结果评价
19.5.1构造模型思路
19.5.2模型训练的流程
19.5.3KFold交叉验证
19.6各分类器模型的训练和结果评价
19.6.1利用Python的sklearn包进行模型训练的过程梳理
19.6.2逻辑斯谛分类模型的训练和结果评价
19.6.3小近邻算法模型的训练和结果评价
19.6.4线性判别分析模型的训练和结果评价
19.6.5朴素贝叶斯算法的模型的训练和结果评价
19.6.6决策树模型的训练和结果评价
19.6.7支持向量机模型的训练和结果评价
19.7模型提升——集成分类器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost实现过程及实验结果
附录A用户历史充值情况数据表
附录B用户各类订单余额情况
附录C各省用户收到公示消息后的充值情况
参考文献