目录
第1章 绪论 1
1.1 数据挖掘的含义 1
1.2 数据挖掘、机器学习与人工智能 2
1.3 数据挖掘基本任务 4
1.3.1 分类与预测 4
1.3.2 聚类分析 6
1.3.3 关联分析 7
1.3.4 异常检测 7
1.3.5 其他任务 8
1.4 数据挖掘流程 9
1.4.1 明确目标 9
1.4.2 数据收集 9
1.4.3 数据探索 10
1.4.4 数据预处理 10
1.4.5 挖掘建模 10
1.4.6 模型评价 11
1.5 数据挖掘常用工具及其比较 11
1.5.1 Python 11
1.5.2 R 11
1.5.3 Weka 12
1.5.4 SPSS Modeler 12
1.5.5 RapidMiner 12
1.6 Python的安装及使用 13
1.6.1 WinPython 13
1.6.2 Anaconda 14
1.6.3 集成开发环境 15
1.7 本章小结 16
思考题 17
习题 17
本章参考文献 17
第2章 数据预处理 18
2.1 概述 18
2.2 缺失值的处理 18
2.2.1 缺失值的查找 19
2.2.2 缺失值的删除 20
2.2.3 缺失值的填充 22
2.3 异常值的处理 23
2.4 数据的标准化 25
2.4.1 Z-score标准化 25
2.4.2 将特征变量缩放到指定范围 27
2.4.3 考虑异常值的标准化 28
2.5 数据的正则化 28
2.6 自定义转换器 30
2.7 生成多项式和交互特征 30
2.8 本章小结 31
思考题 32
习题 32
第3章 朴素贝叶斯分类器 33
3.1 朴素贝叶斯分类算法相关的统计学知识 33
3.2 极大似然估计 34
3.3 贝叶斯估计 36
3.4 朴素贝叶斯分类算法的Python实现 37
3.5 本章小结 40
思考题 41
习题 41
本章参考文献 41
第4章 决策树 42
4.1 决策树分类算法概述 42
4.2 熵与信息增益 43
4.3 ID3算法 46
4.4 C4.5算法 47
4.5 CART算法 49
4.6 过拟合与决策树剪枝 52
4.6.1 过拟合 52
4.6.2 决策树剪枝 52
4.7 分类模型的评估 54
4.7.1 混淆矩阵 54
4.7.2 ROC曲线 57
4.8 实例:决策树的Python实现 59
4.9 本章小结 62
4.9.1 决策树ID3、C4.5和CART算法比较 62
4.9.2 决策树算法优缺点 63
思考题 63
习题 63
本章参考文献 64
第5章 集成学习 65
5.1 集成学习的思想 65
5.2 集成学习模型:结合策略 67
5.2.1 集成回归模型的结合策略 67
5.2.2 集成分类模型的结合策略 68
5.3 Bagging方法与随机森林 68
5.3.1 Bagging方法 68
5.3.2 随机森林 69
5.4 Boosting方法与Adaboost 70
5.4.1 Boosting方法 70
5.4.2 Adaboost 71
5.5 集成学习模型的Python实现 72
5.6 实例:信用卡还贷情况预测 72
5.7 本章小结 74
思考题 74
习题 75
本章参考文献 75
第6章 k-近邻 76
6.1 数据在不同维度上分布的分类表现 76
6.2 算法原理 78
6.3 相似度与距离 79
6.3.1 二维向量空间的KNN分类 79
6.3.2 多维向量空间的KNN分类 80
6.4 k值的选择 83
6.5 分类决策规则 84
6.6 KNN算法 84
6.7 kd树 85
6.8 实例:鸢尾花分类 88
思考题 89
习题 89
本章参考文献 89
第7章 支持向量机 90
7.1 SVM算法介绍 90
7.2 线性可分支持向量机 91
7.2.1 原始问题 91
7.2.2 对偶问题 95
7.2.3 算法过程 97
7.3 线性不可分支持向量机 97
7.3.1 原始问题 98
7.3.2 对偶问题 98
7.3.3 算法过程 99
7.4 非线性支持向量机 100
7.4.1 对偶问题 100
7.4.2 算法过程 101
7.5 实例:鸢尾花分类 102
思考题 103
习题 103
本章参考文献 103
第8章 人工神经网络 105
8.1 神经网络的基本概念 105
8.2 神经网络的发展过程 107
8.2.1 神经元 107
8.2.2 单层神经网络(感知器) 109
8.2.3 两层神经网络(多层感知器) 110
8.2.4 神经网络训练(反向传播) 113
8.3 实例:mnist手写数字识别 118
思考题 119
习题 119
本章参考文献 120
第9章 聚类分析 121
9.1 聚类问题 121
9.1.1 聚类问题的定义 121
9.1.2 聚类的依据:距离的定义 122
9.2 基于原型的聚类方法:k-均值聚类 123
9.2.1 k-均值聚类的原理和过程 123
9.2.2 k-均值聚类的特点 124
9.3 基于密度的聚类方法:DBSCAN 125
9.3.1 DBSCAN聚类方法的原理 126
9.3.2 DBSCAN 聚类方法的特点 127
9.4 基于层次的聚类方法:AGNES 127
9.4.1 AGNES 聚类方法的原理 128
9.4.2 AGNES聚类方法的特点 130
9.5 聚类结果的评价 130
9.6 使用Python进行聚类分析 132
9.7 实例:城市发展潜力评估 133
9.8 本章小结 134
思考题 135
习题 135
本章参考文献 135
第10章 关联分析 137
10.1 关联分析的基本概念 137
10.1.1 问题定义 137
10.1.2 关联分析的基本步骤 139
10.2 Apriori 关联分析算法 140
10.2.1 寻找频繁项集 140
10.2.2 生成关联规则 141
10.3 FP增长算法 142
10.3.1 生成FP增长树 142
10.3.2 寻找频繁项集 144
10.4 使用Python进行关联分析 145
10.5 实例:电影观看记录信息挖掘 145
10.6 本章小结 146
思考题 147
习题 147
本章参考文献 147
第11章 Web挖掘 148
11.1 Web挖掘概述 148
11.1.1 Web挖掘的概念 148
11.1.2 Web挖掘的特点 148
11.1.3 Web挖掘的分类 149
11.2 Web挖掘技术实现 150
11.2.1 关联规则挖掘技术 150
11.2.2 序列模式挖掘技术 152
11.2.3 分类挖掘技术 154
11.2.4 聚类挖掘技术 155
11.3 Web数据爬取 156
11.3.1 Web数据爬虫简介 157
11.3.2 Web数据处理过程 159
11.3.3 Web爬虫性能及策略 160
11.4 Web挖掘评价标准 161
11.4.1 查准率与查全率 161
11.4.2 F1值 162
11.4.3 其他评价标准 162
11.5 实例:Web日志挖掘 164
11.6 本 章 小 结 172
思考题 172
习题 172
本章参考文献 172
第12章 应用案例一:泰坦尼克号生存数据分析 174
12.1 案例背景及分析思路 174
12.2 数 据 解 读 174
12.3 数据预处理 175
12.3.1 查看数据集 175
12.3.2 缺失值的填充 177
12.4 描述性统计分析 178
12.4.1 性别与生存率之间的关系 178
12.4.2 船舱等级、生存率与性别三者之间的关系 179
12.4.3 年龄与生存率之间的关系 180
12.4.4 登船港口与生存率之间的关系 181
12.4.5 家庭大小与生存率之间的关系 183
12.5 特征工程 186
12.6 模型构建与评估 190
12.6.1 随机森林 191
12.6.2 支持向量机 191
12.6.3 朴素贝叶斯模型 192
12.7 本章小结 193
思考题 193
习题 193
第13章 应用案例二:心脏病预测分析 194
13.1 案例背景及分析思路 194
13.2 数据预处理 194
13.2.1 数据集的含义 195
13.2.2 重复值的删除 196
13.2.3 缺失值处理 197
13.3 数据集的特征分析 198
13.4 构建模型 199
13.4.1 数据整理 199
13.4.2 KNN 202
13.4.3 随机森林 204
13.4.4 logistic回归 205
13.5 模型评估 206
13.5.1 KNN 207
13.5.2 随机森林 209
13.5.3 logistic回归 211
13.6 本章小结 212
思考题 212
习题 213
第14章 应用案例三:旅游评论倾向性分析 214
14.1 案例背景及分析思路 214
14.1.1 案例背景 214
14.1.2 数据分析思路与方法 214
14.2 数据分析准备工作 216
14.2.1 数据爬取 216
14.2.2 数据的预处理 218
14.2.3 描述性分析 222
14.3 特征工程 224
14.3.1 人工特征 224
14.3.2 TF-IDF编码 225
14.3.3 Word2vec编码 227
14.4 基于传统分类器的景区评论倾向性分析 230
14.4.1 基于传统弱分类器的倾向性分析 230
14.4.2 基于随机森林的倾向性分析 231
14.4.3 基于提升树的倾向性分析 232
14.5 基于LSTM和FastText的景区评论倾向性分析 233
14.5.1 基于自建词典的LSTM情感分析模型 233
14.5.2 基于FastText的文本标签分类模型 235
14.5.3 综合FastText和LSTM的情感分析模型 237
14.6 模型评估 238
14.7 本章小结 239
思考题 240
习题 240
本章参考文献 240