译者序
前言
第1章 绪论 1
1.1 引言 1
1.2 数据科学的历史 2
1.3 现代商业中数据科学的重要性 3
1.4 数据科学家 5
1.5 三维数据科学活动 6
1.5.1 管理数据流 7
1.5.2 处理数据管理 8
1.5.3 数据分析 11
1.6 数据科学与其他领域交叉 11
1.7 数据分析思维 13
1.8 应用领域 13
1.8.1 资源的可持续发展 13
1.8.2 利用社交平台进行各种活动 14
1.8.3 智能Web应用 14
1.8.4 Google自动统计员项目 15
1.9 应用计算智能管理数据科学活动 15
1.10 商业中的数据科学场景 17
1.11 有助于数据科学的工具和技术 17
1.11.1 数据清洗工具 18
1.11.2 数据管理和建模工具 19
1.11.3 数据可视化工具 20
1.12 练习 21
参考文献 22
第2章 数据分析 23
2.1 引言 23
2.2 跨行业标准过程 24
2.3 数据分析生命周期 25
2.4 数据科学项目生命周期 27
2.5 数据分析的复杂性 28
2.6 从数据到洞察力 30
2.7 构建分析能力:银行案例 31
2.8 数据质量 32
2.9 数据准备过程 33
2.10 沟通分析结果 34
2.10.1 沟通分析结果的策略 34
2.10.2 数据可视化 35
2.10.3 可视化技术 36
2.11 练习 37
参考文献 37
第3章 基本学习算法 38
3.1 从数据中学习 38
3.2 监督学习 40
3.2.1 线性回归 40
3.2.2 决策树 41
3.2.3 随机森林 46
3.2.4 k-近邻算法 47
3.2.5 逻辑回归 49
3.2.6 模型组合器 50
3.2.7 朴素贝叶斯 53
3.2.8 贝叶斯信念网络 54
3.2.9 支持向量机 56
3.3 无监督学习 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用于数据压缩的降维 62
3.4 强化学习 62
3.5 案例研究:使用机器学习进行市场营销活动 65
3.6 练习 66
参考文献 67
第4章 模糊逻辑 68
4.1 引言 68
4.2 模糊隶属函数 70
4.2.1 三角形隶属函数 71
4.2.2 梯形隶属函数 71
4.2.3 高斯隶属函数 71
4.2.4 sigmoid隶属函数 72
4.3 隶属值分配方法 72
4.4 模糊化与解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的并集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的补集 74
4.6 模糊集合性质 76
4.7 模糊关系 76
4.8 模糊命题 79
4.8.1 模糊连接词 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蕴含 80
4.9 模糊推理 80
4.10 基于模糊规则的系统 81
4.11 数据科学的模糊逻辑 82
4.11.1 应用1:Web内容挖掘 83
4.11.2 应用2:Web结构挖掘 84
4.11.3 应用3:Web使用挖掘 85
4.11.4 应用4:环境和社交数据处理 86
4.12 用模糊逻辑进行数据科学活动的工具和技术 87
4.13 练习 88
参考文献 88
第5章 人工神经网络 89
5.1 引言 89
5.2 符号学习方法 90
5.3 人工神经网络及其特点 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多层感知器 96
5.4.4 多层感知器的深度学习 98
5.4.5 其他ANN模型 100
5.4.6 线性回归与神经网络 101
5.5 ANN工具和程序 102
5.6 社交网络平台上的情感挖掘 103
5.6.1 情感挖掘相关工作 103
5.6.2 广泛架构 104
5.6.3 神经网络设计 104
5.7 应用与挑战 106
5.8 关注点 107
5.9 练习 108
参考文献 109
第6章 遗传算法与进化计算 111
6.1 引言 111
6.2 遗传算法 112
6.3 遗传算法的基本原理 114
6.3.1 个体编码 114
6.3.2 变异 114
6.3.3 交叉 115
6.3.4 适应度函数 116
6.3.5 选择 116
6.3.6 其他编码策略 117
6.4 利用遗传算法进行函数优化的实例 118
6.5 模式与模式定理 120
6.5.1 实例、定义位和模式顺序 120
6.5.2 模式的重要性 121
6.6 基于特殊应用的遗传算子 121
6.7 进化编程 123
6.8 遗传算法在医疗保健中的应用 124
6.8.1 医疗保健案例 124
6.8.2 基于遗传算法的病人调度系统 125
6.8.3 编码候选者 127
6.8.4 种群上的操作 127
6.8.5 其他应用 128
6.9 练习 130
参考文献 131
第7章 其他元启发式和分类方法 132
7.1 引言 132
7.2 自适应记忆过程 132
7.2.1 禁忌搜索 133
7.2.2 分散搜索 134
7.2.3 路径重连 136
7.3 群体智能 136
7.3.1 蚁群优化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成动力学 139
7.3.4 粒子群优化 139
7.3.5 随机扩散搜索 141
7.3.6 群体智能与大数据 142
7.4 案例推理 142
7.4.1 案例推理中的学习 144
7.4.2 案例推理与数据科学 145
7.4.3 处理复杂的领域 146
7.5 粗糙集 146
7.6 练习 148
参考文献 148
第8章 分析和大数据 149
8.1 引言 149
8.2 传统分析与大数据分析 150
8.3 大规模并行处理 152
8.3.1 MapReduce 152
8.3.2 与RDBMS的比较 154
8.3.3 共享存储的并行编程 155
8.3.4 Apache Hadoop 生态系统 155
8.3.5 Hadoop分布式文件系统 157
8.4 NoSQL