译者序
序
前言
作者简介
第一部分 框架原则
第1章 数据科学家的定位 2
1.1 引言 2
1.2 数据科学家扮演的角色 2
1.2.1 公司规模 3
1.2.2 团队背景 3
1.2.3 职业晋升和发展 4
1.2.4 重要性 5
1.2.5 工作细分 5
1.3 结论 5
第2章 项目流程 7
2.1 引言 7
2.2 数据团队背景 7
2.2.1 专门岗位与资源池 8
2.2.2 研究分析 8
2.2.3 原型设计 9
2.2.4 集成的工作流 10
2.3 敏捷开发与产品定位 10
2.4 结论 15
第3章 量化误差 16
3.1 引言 16
3.2 量化测量值的误差 16
3.3 抽样误差 18
3.4 误差传递 20
3.5 结论 22
第4章 数据编码与预处理 23
4.1 引言 23
4.2 简单文本预处理 24
4.2.1 分词 24
4.2.2 n元模型 26
4.2.3 稀疏 26
4.2.4 特征选择 27
4.2.5 表示学习 29
4.3 信息量损失 31
4.4 结论 33
第5章 假设检验 34
5.1 引言 34
5.2 什么是假设 34
5.3 假设检验的错误类型 36
5.4 p值和置信区间 37
5.5 多重测试和p值操控 38
5.6 实例 39
5.7 假设检验的设计 40
5.8 结论 41
第6章 数据可视化 43
6.1 引言 43
6.2 数据分布和汇总统计 43
6.2.1 数据分布和直方图 44
6.2.2 散点图和热力图 48
6.2.3 箱线图和误差条 52
6.3 时间序列图 54
6.3.1 移动统计 54
6.3.2 自相关 56
6.4 图可视化 57
6.4.1 布局算法 57
6.4.2 时间复杂度 59
6.5 结论 60
第二部分 算法与架构
第7章 算法和架构简介 62
7.1 引言 62
7.2 架构 64
7.2.1 服务 64
7.2.2 数据源 65
7.2.3 分批及在线计算 66
7.2.4 规模扩展 66
7.3 模型 67
7.3.1 训练 68
7.3.2 预测 68
7.3.3 验证 69
7.4 结论 70
第8章 距离度量 71
8.1 引言 71
8.2 Jaccard距离 71
8.2.1 算法 72
8.2.2 时间复杂度 73
8.2.3 内存注意事项 73
8.2.4 分布式方法 73
8.3 MinHash 74
8.3.1 假设 75
8.3.2 时空复杂度 75
8.3.3 工具 75
8.3.4 分布式方法 75
8.4 余弦相似度 76
8.4.1 复杂度 78
8.4.2 内存注意事项 78
8.4.3 分布式方法 78
8.5 马氏距离 78
8.5.1 复杂度 79
8.5.2 内存注意事项 79
8.5.3 分布式方法 79
8.6 结论 80
第9章 回归 81
9.1 引言 81
9.1.1 选择模型 82
9.1.2 选择目标函数 82
9.1.3 模型拟合 83
9.1.4 模型验证 84
9.2 线性最小二乘 87
9.2.1 假设 88
9.2.2 复杂度 89
9.2.3 内存注意事项 89
9.2.4 工具 89
9.2.5 分布式方法 89
9.2.6 实例 90
9.3 线性回归中的非线性回归 97
9.4 随机森林 100
9.4.1 决策树 100
9.4.2 随机森林 103
9.5 结论 106
第10章 分类和聚类 107
10.1 引言 107
10.2 逻辑回归 108
10.2.1 假设 111
10.2.2 时间复杂度 111
10.2.3 内存注意事项 112
10.2.4 工具 112
10.3 贝叶斯推断与朴素贝叶斯 112
10.3.1 假设 114
10.3.2 复杂度 114
10.3.3 内存注意事项 114
10.3.4 工具 114
10.4 K-Means 115
10.4.1 假设 118
10.4.2 复杂度 118
10.4.3 内存注意事项 118
10.4.4 工具 118
10.5 最大特征值 118
10.5.1 复杂度 120
10.5.2 内存注意事项 120
10.5.3 工具 120
10.6 Louvain贪心算法 120
10.6.1 假设 121
10.6.2 复杂度 121
10.6.3 内存注意事项 121
10.6.4 工具 121
10.7 最近邻算法 121
10.7.1 假设 123
10.7.2 复杂度 123
10.7.3 内存注意事项 123
10.7.4 工具 123
10.8 结论 123
第11章 贝叶斯网络 125
11.1 引言 125
11.2 因果图、条件独立和马尔
可夫 126
11.2.1 因果图和条件独立 126
11.2.2 稳定性和依赖性 127
11.3 d分离和马尔可夫性质 128
11.3.1 马尔可夫和因式
分解 128
11.3.2 d分离 129
11.4 贝叶斯网络的因果图 132
11.5 模型拟合 133
11.6 结论 136
第12章 降维与隐变量模型 137
12.1 引言 137
12.2 先验 137
12.3 因子分析 139
12.4 主成分分析 140
12.4.1 复杂度 142
12.4.2 内存注意事项 142
12.4.3 工具 142
12.5 独立成分分析 142
12.5.1 假设 145
12.5.2 复杂度 145
12.5.3 内存注意事项 146
12.5.4 工具 146
12.6 LDA主题模型 146
12.7 结论 152
第13章 因果推断 153
13.1 引言 153
13.2 实验 154
13.3 观测值:一个实例 157
13.4 非因果阻断控制法 163
13.5 机器学习估计量 167
13.5.1 重新审视G公式 167
13.5.2 实例 168
13.6 结论 172
第14章 高级机器学习 173
14.1 引言 173
14.2 优化 173
14.3 神经网络 175
14.3.1 神经网络层 176
14.3.2 神经网络容量 177
14.3.3 过拟合 179
14.3.4 批拟合 183
14.3.5 损失函数 183
14.4 结论 185
第三部分 瓶颈和优化
第15章 硬件基础 188
15.1 引