第 1章 走进机器学习1
1.1 机器学习概述1
1.2 机器学习过程2
第 2章 了解Python20
2.1 为什么选择Python20
2.2 下载和安装Python22
2.2.1 在Windows中安装Python22
2.2.2 Anaconda24
2.3 首个Python程序26
2.4 Python基础27
2.5 数据结构与循环36
第3章 特征工程42
3.1 什么是特征42
3.2 为什么执行特征工程43
3.3 特征提取43
3.4 特征选择43
3.5 特征工程方法——通用准则44
3.5.1 处理数值特征44
3.5.2 处理分类特征45
3.5.3 处理基于时间的特征47
3.5.4 处理文本特征47
3.5.5 缺失数据48
3.5.6 降维48
3.6 用Python进行特征工程49
3.6.1 Pandas基本操作49
3.6.2 常见任务57
第4章 数据可视化62
4.1 折线图63
4.2 条形图66
4.3 饼图67
4.4 直方图68
4.5 散点图69
4.6 箱线图70
4.7 采用面向对象的方式绘图71
4.8 Seaborn73
4.8.1 分布图74
4.8.2 双变量分布75
4.8.3 二元分布的核密度估计75
4.8.4 成对双变量分布76
4.8.5 分类散点图76
4.8.6 小提琴图77
4.8.7 点图78
第5章 回归79
5.1 简单回归80
5.2 多元回归92
5.3 模型评价94
5.3.1 训练误差95
5.3.2 泛化误差96
5.3.3 测试误差97
5.3.4 不可约误差98
5.3.5 偏差—方差权衡99
第6章 更多回归105
6.1 概述105
6.2 岭回归112
6.3 套索回归118
6.3.1 全子集算法118
6.3.2 用于特征选择的贪心算法119
6.3.3 特征选择的正则化119
6.4 非参数回归122
6.4.1 K-最近邻回归124
6.4.2 核回归127
第7章 分类128
7.1 线性分类器129
7.2 逻辑回归133
7.3 决策树147
7.3.1 关于树的术语148
7.3.2 决策树学习149
7.3.3 决策边界151
7.4 随机森林158
7.5 朴素贝叶斯164
第8章 无监督学习169
8.1 聚类170
8.2 K-均值聚类170
8.2.1 随机分配聚类质心的问题175
8.2.2 查找K的值175
8.3 分层聚类182
8.3.1 距离矩阵184
8.3.2 连接185
第9章 文本分析189
9.1 使用Python进行基本文本处理189
9.1.1 字符串比较191
9.1.2 字符串转换191
9.1.3 字符串操作192
9.2 正则表达式193
9.3 自然语言处理195
9.3.1 词干提取196
9.3.2 词形还原197
9.3.3 分词197
9.4 文本分类200
9.5 主题建模206
第 10章 神经网络与深度学习209
10.1 矢量化210
10.2 神经网络218
10.2.1 梯度下降220
10.2.2 激活函数221
10.2.3 参数初始化224
10.2.4 优化方法227
10.2.5 损失函数227
10.3 深度学习229
10.4 深度学习架构230
10.4.1 深度信念网络231
10.4.2 卷积神经网络231
10.4.3 循环神经网络231
10.4.4 长短期记忆网络231
10.4.5 深度堆栈网络232
10.5 深度学习框架232
第 11章 推荐系统237
11.1 基于流行度的推荐引擎237
11.2 基于内容的推荐引擎240
11.3 基于分类的推荐引擎243
11.4 协同过滤245
第 12章 时间序列分析249
12.1 处理日期和时间249
12.2 窗口函数254
12.3 相关性258
12.4 时间序列预测261