目 录
第1章 概述 1
1.1 什么是数据 1
1.2 什么是大数据 3
1.3 什么是数据挖掘 6
1.4 能挖掘出什么 8
1.5 会产生什么价值 10
第2章 k-均值 12
2.1 基本算法 13
2.2 k-均值示例 15
2.3 k-均值算法的局限性 21
练习赛 21
第3章 k-近邻 24
3.1 k-近邻基本算法 25
3.2 评价分类效果的常见指标 26
3.3 影响算法精确度的若干问题 28
3.4 k-近邻算法示例 31
练习赛 35
第4章 朴素贝叶斯 36
4.1 贝叶斯定理 36
4.2 贝叶斯基本算法 39
4.3 贝叶斯算法案例 41
4.4 处理连续特征 45
练习赛 46
第5章 回归 47
5.1 线性回归的最简示例 47
5.2 线性回归的一般形式 53
5.3 逻辑回归的最简示例 55
5.4 逻辑回归的一般形式 59
5.5 小结和讨论 60
练习赛 62
第6章 决策树 63
6.1 构建决策树 63
6.2 经典决策树:ID3、C4.5和CART 66
6.3 连续值、缺失值和剪枝 70
6.4 小结和讨论 75
练习赛 77
第7章 关联规则挖掘 78
7.1 基本算法思想 78
7.2 Apriori算法示例 80
7.3 小结和讨论 85
练习赛 86
第8章 数据挖掘应用创新案例 87
8.1 提升生产制造过程的良品率 87
8.2 刻画全球化对碳排放的影响 89
8.3 捕捉电商评论中的用户情感 91
8.4 实时发现微博中的热点事件 94
推荐阅读材料 96