第 1章 数据科学和机器学习\t1
1.1 数据科学在商业领域中的作用 2
1.2 机器学习算法的分类 8
1.2.1 分类:产生类判定的算法 8
1.2.2 回归分析:预测数值的算法 9
1.2.3 聚类分析:对数据进行无监督群组化的算法 10
1.2.4 其他算法 12
1.3 本书使用的例题 13
1.3.1 基于回归分析的观测值推断 13
1.3.2 基于线性判别的新数据分类 17
1.3.3 图像文件的褪色处理(提取代表色) 18
1.3.4 识别手写文字 19
1.4 分析工具的准备 20
1.4.1 本书使用的数据分析工具 21
1.4.2 运行环境设置步骤(以CentOS 6为例) 22
1.4.3 运行环境设置步骤(以Mac OS X为例) 25
1.4.4 运行环境设置步骤(以Windows 7/8.1为例) 27
1.4.5 IPython的使用方法 30
第 2章 最小二乘法:机器学习理论第 一步 35
2.1 基于近似多项式和最小二乘法的推断 36
2.1.1 训练集的特征变量和目标变量 36
2.1.2 近似多项式和误差函数的设置 38
2.1.3 误差函数最小化条件 39
2.1.4 示例代码的确认 42
2.1.5 统计模型的最小二乘法 46
2.2 过度拟合检出 49
2.2.1 训练集和测试集 49
2.2.2 测试集的验证结果 50
2.2.3 基于交叉检查的泛化能力验证 52
2.2.4 基于数据的过度拟合变化 54
2.3 附录:Hessian矩阵的特性 56
第3章 最优推断法:使用概率的推断理论 59
3.1 概率模型的利用 60
3.1.1 “数据的产生概率”设置 60
3.1.2 基于似然函数的参数评价 65
3.1.3 示例代码的确认 69
3.2 使用简化示例的解释说明 73
3.2.1 正态分布的参数模型 74
3.2.2 示例代码的确认 76
3.2.3 推断量的评价方法(一致性和无偏性) 78
3.3 附录:样本均值及样本方差一致性和无偏性的证明 80
3.3.1 样本均值及样本方差一致性和无偏性的证明 81
3.3.2 示例代码的确认 85
第4章 感知器:分类算法的基础 89
4.1 概率梯度下降法的算法 91
4.1.1 分割平面的直线方程 91
4.1.2 基于误差函数的分类结果评价 93
4.1.3 基于梯度的参数修正 95
4.1.4 示例代码的确认 99
4.2 感知器的几何学解释 100
4.2.1 对角项的任意性和算法的收敛速度 101
4.2.2 感知器的几何学解释 103
4.2.3 对角项的几何学意义 104
第5章 Logistic回归和ROC曲线:学习模型的评价方法 107
5.1 对分类问题应用最优推断法 108
5.1.1 数据发生概率的设置 108
5.1.2 基于最优推断法的参数确定 112
5.1.3 示例代码的确认 114
5.2 基于ROC曲线的学习模型评价 117
5.2.1 Logistic回归在实际问题中的应用 118
5.2.2 基于ROC曲线的性能评价 120
5.2.3 示例代码的确认 123
5.3 附录:IRLS法的推导 126
第6章 K均值算法:无监督学习模型的基础 133
6.1 基于K均值算法的聚类分析和应用实例 134
6.1.1 无监督学习模型类聚类分析 134
6.1.2 基于K均值算法的聚类分析 135
6.1.3 在图像数据方面的应用 138
6.1.4 示例代码的确认 141
6.1.5 K均值算法的数学依据 143
6.2 “懒惰”学习模型K近邻法 146
6.2.1 基于K近邻法的分类 146
6.2.2 K近邻法的问题 148
第7章 EM算法:基于最优推断法的监督学习 151
7.1 使用伯努利分布的最优推断法 152
7.1.1 手写文字的合成方法 153
7.1.2 基于图像生成器的最优推断法应用 154
7.2 使用混合分布的最优推断法 157
7.2.1 基于混合分布的概率计算 157
7.2.2 EM算法的过程 158
7.2.3 示例代码的确认 161
7.2.4 基于聚类分析的探索性数据解析 165
7.3 附录:手写文字数据的采集方法 167
第8章 贝叶斯推断:以数据为基础提高置信度的手法 169
8.1 贝叶斯推断模型和贝叶斯定理 170
8.1.1 贝叶斯推断的思路 171
8.1.2 贝叶斯定理入门 172
8.1.3 使用贝叶斯推断确定正态分布:推断参数 178
8.1.4 使用贝叶斯推断确定正态分布:推断观测值分布 185
8.1.5 示例代码的确认 188
8.2 贝叶斯推断回归分析的应用 190
8.2.1 参数后期分布的计算 190
8.2.2 观测值分布的推断 194
8.2.3 示例代码的确认 195
8.3 附录:最优推断法和贝叶斯推断的关系 198
后记 201