目 录
第1章 机器学习概述 1
1.1 机器学习定义 1
1.2 机器学习的发展 2
1.3 机器学习的分类 3
1.4 机器学习的研究领域 6
1.5 本章小结 8
第2章 机器学习数据特征 9
2.1 数据分布性 9
2.1.1 数据分布集中趋势的测定 9
2.1.2 数据分布离散程度的测定 14
2.1.3 数据分布偏态与峰度的测定 17
2.2 数据相关性 19
2.2.1 相关关系 19
2.2.2 相关分析 22
2.3 数据聚类性 24
2.4 数据主成分分析 27
2.4.1 主成分分析的原理及模型 27
2.4.2 主成分分析的几何解释 29
2.4.3 主成分的导出 30
2.4.4 证明主成分的方差是依次递减 31
2.4.5 主成分分析的计算 32
2.5 数据动态性 34
2.6 数据可视化 37
2.7 本章小结 39
第3章 机器学习分类算法 40
3.1 数据清洗和特征选择 40
3.1.1 数据清洗 40
3.1.2 特征选择 42
3.1.3 回归分析 45
3.2 决策树、随机森林 47
3.3 SVM 51
3.3.1 最优分类面和广义最优分类面 52
3.3.2 SVM的非线性映射 55
3.3.3 核函数 56
3.4 聚类算法 56
3.5 EM算法 61
3.6 贝叶斯算法 63
3.7 隐马尔可夫模型 63
3.8 LDA主题模型 66
3.9 人工神经网络 69
3.10 KNN算法 73
3.11 本章小结 76
第4章 Python机器学习项目 77
4.1 SKlearn 78
4.1.1 SKlearn包含的机器学习方式 78
4.1.2 SKlearn的强大数据库 79
4.1.3 鸢尾花数据集举例 80
4.1.4 Boston房价数据集的示例 83
4.2 TensorFlow 85
4.2.1 TensorFlow简介 86
4.2.2 TensorFlow的下载与安装 88
4.2.3 TensorFlow的基本使用 91
4.3 Theano 96
4.4 Caffe 115
4.4.1 Caffe框架与运行环境 115
4.4.2 网络模型 119
4.5 Gensim 125
4.5.1 Gensim特性与核心概念 125
4.5.2 训练语料的预处理 125
4.5.3 主题向量的变换 126
4.5.4 文档相似度的计算 127
4.6 Pylearn2 134
4.7 Shogun 135
4.8 Chainer 136
4.9 NuPIC 143
4.10 Neon 160
4.11 Nilearn 165
4.12 Orange3 168
4.13 PyMC与PyMC3 171
4.14 PyBrain 175
4.15 Fuel 181
4.16 PyMVPA 184
4.17 Annoy 186
4.18 Deap 190
4.19 Pattern 191
4.20 Requests 195
4.21 Seaborn 199
4.22 本章小结 206
第5章 Kaggle平台机器学习实战 207
5.1 Kaggle信用卡欺诈检测 207
5.1.1 Kaggle信用卡欺诈检测准备 207
5.1.2 Kaggle信用卡欺诈检测实例 210
5.2 Kaggle机器学习案例 228
5.2.1 Kaggle机器学习概况 229
5.2.2 自行车租赁数据分析与可视化案例 230
5.3 本章小结 241
第6章 PaddlePaddle平台机器学习实战 242
6.1 PaddlePaddle平台安装 242
6.2 PaddlePaddle平台手写体数字识别 243
6.3 PaddlePaddle平台图像分类 261
6.4 PaddlePaddle平台词向量 277
6.5 PaddlePaddle平台个性化推荐 289
6.6 PaddlePaddle平台情感分析 302
6.7 本章小结 311
参考文献 312