第 1 章 数据挖掘概述 1
1.1 数据挖掘发展简述 1
1.1.1 数据时代 1
1.1.2 数据分析的技术发展 2
1.2 数据挖掘概念 5
1.2.1 数据挖掘的定义与OLAP 5
1.2.2 数据挖掘与知识发现KDD 6
1.3 数据挖掘的功能与应用领域 9
1.3.1 电子商务 9
1.3.2 电信行业 10
1.3.3 金融行业 10
1.3.4 医疗行业 10
1.3.5 社会网络 11
1.3.6 数据挖掘应用的问题 11
1.4 数据挖掘的模式类型 11
1.4.1 类/概念描述:特征和区分 12
1.4.2 回归(regression) 13
1.4.3 分类(classification) 14
1.4.4 预测(forecasting) 15
1.4.5 关联分析(association) 15
1.4.6 聚类分析(cluster) 16
1.4.7 异常检测(anomalydetection) 17
1.4.8 小结 17
1.5 数据挖掘的数据类型 18
1.5.1 数据库 18
1.5.2 数据仓库数据 19
1.5.3 其它数据类型 20
1.6 数据挖掘的交叉学科 20
1.6.1 统计学 21
1.6.2 机器学习 21
1.6.3 数据库与数据仓库 22
第 2章 Pandas数据分析 23
2.1 Pandas与数据分析 23
2.1.1 统计学与数据挖掘 23
2.1.2 常用的统计学指标 24
2.1.3 Pandas的简单介绍 26
2.2 Pandas统计案例分析 30
2.2.1 实验实现Pandas自行车数据分析 30
2.2.2 实验实现Pandas服务热线数据分析 36
第3章 数据挖掘与机器学习 41
3.1 数据挖掘中的机器学习 41
3.1.1 什么是机器学习? 41
3.1.2 机器学习处理的问题 42
3.1.3 机器学习的框架 42
3.1.4 数据的加载和分割 43
3.2 机器学习的模型 45
3.2.1 模型的选择 45
3.2.1 学习和预测 46
3.2.3 实验实现机器学习模型 47
3.3 模型的评判和保存 48
3.3.1 分类、回归、聚类不同的评判指标 48
3.3.2 交叉验证 (Cross validation) 49
3.3.3 实验实现分类、回归指标 50
3.3.4 实验实现cross_val_score 51
3.3.5 实验实现模型的保存 52
3.4 支持向量机 53
3.4.1 支持向量机 53
3.4.2 实验实现支持向量机分类 54
3.4.3 实验实现支持向量机回归 55
3.4.4 实验实现支持向量机异常检测 55
3.5 过拟合问题 58
3.5.1 过拟合 58
3.5.2 实验实现学习曲线和验证曲线 59
第4章 分类分析方法与应用 62
4.1 数据挖掘分类问题 62
4.2 概率模型 63
4.2.1 原理 63
4.2.2 应用场景 66
4.3 朴素贝叶斯分类 66
4.3.1 原理与应用场景 66
4.3.2 实验实现朴素贝叶斯算法 67
4.4 向量空间模型 68
4.4.1 原理与应用场景 68
4.4.2 实验实现空间向量模型 69
4.5 KNN算法 72
4.5.1 原理与应用场景 72
4.5.2 实验实现KNN算法 74
4.6 多类问题 76
4.6.1 原理与应用场景 76
4.6.2 实验实现多类问题 77
第5章 回归模型算法与应用 79
5.1 回归预测问题 80
5.2 线性回归 81
5.2.1 原理与应用场景 81
5.2.2 实验实现线性回归 82
5.3 岭回归和LASSO 84
5.3.1 原理与应用场景 84
5.3.2 实验实现岭回归 87
5.4 逻辑回归 89
5.4.1 原理与应用场景 89
5.4.2 实验实现逻辑回归 91
第6章 无监督学习 94
6.1 无监督学习问题 94
6.1.1 无监督学习 94
6.1.2 聚类分析的基本概念与原理 95
6.2 划分聚类 96
6.2.1 划分聚类 96
6.2.2 K-Means算法 97
6.2.3 实验实现K-Means算法 100
6.3 层次聚类 103
6.3.1 层次聚类算法 103
6.3.2 实验实现层次聚类算法实现 105
6.4 聚类效果评测 106
6.4.1 聚类效果的评测 106
6.4.2 实验实现聚类效果评测 107
6.5 降维 108
6.5.1 降维方法 108
6.5.2 实验实现降维 108
第7章 关联规则 110
7.1 关联规则的概念 111
7.1.1 什么是关联规则? 111
7.2 Apriori算法 112
7.2.1 Apriori算法概念 112
7.2.2 Apriori算法实现原理 113
7.2.3 实验实现Apriori算法 115
7.3 协同过滤 119
7.3.1 协同过滤算法的概念 119
7.3.2 协同过滤(基于用户) 120
7.3.3 协同过滤(基于用户) 122
7.3.4 实验实现协同过滤算法 124
第8章 图像数据分析 129
8.1 图像数据 129
8.2 图像数据分析方法 131
8.3 图像数据分析案例 133
8.3.1 PIL:Python图像处理类库应用示例 133
8.3.2 Numpy图像数据分析示例 138
8.3.3 Scipy图像数据分析示例 141
8.3.4 scikit-image 145
8.3.5 综合练习 150
第 9 章 自然语言处理与NLTK 151
9.1 自然语言处理概述 151
9.1.1 什么是自然语言处理? 151
9.2 NLTK入门基础 152
9.2.1 Python的第三方模块NLTK 152
9.2.2 实验实现词条化 153
9.2.3 实验实现词干还原 154
9.2.4 实验实现词型归并 155
9.2.5 实验实现文本划分 156
9.2.6 实验实现数值型数据的转换 157
9.3 NLTK文本分析 159
9.3.1 实验实现文本分类器 159
9.3.2 实验实现性别判断 161
9.3.3 实验实现情感分析 162