目录
前言
第一部分 什 么 是 数 据 科 学?
第 1 章 数据科学概论· 2
1.1 人工智能定义 3
1.1.1 数据科学的定义 3
1.1.2 数据科学的影响 4
1.1.3 数据科学的局限 4
1.2 机器学习导论 5
1.2.1 机器学习模型提供的决策和洞见· 5
1.2.2 机器学习模型需要的数据 6
1.2.3 机器学习的起源 7
1.2.4 机器学习剖析 7
1.2.5 机器学习可解决的任务类型 8
1.3 深度学习导论 · 11
1.3.1 自然语言理解应用· 12
1.3.2 探究计算机视觉 13
1.4 深度学习用例 · 16
1.5 因果推理导论 · 16
1.6 本章小结 · 19
第 2 章 机器学习模型测试 20
2.1 离线模型测试 · 20
2.1.1 模型误差 20
2.1.2 误差分解 21
2.1.3 技术度量指标 26
2.1.4 业务度量指标 32
2.2 在线模型测试 · 322.2.1 在线测试的意义 · 32
2.2.2 在线数据测试· 36
2.3 本章小结 36
第 3 章 人工智能基础 37
3.1 理解数学优化 37
3.2 理解统计学 41
3.2.1 频率学派的概率 · 42
3.2.2 条件概率 42
3.2.3 关于概率的贝叶斯观点 · 44
3.2.4 分布 44
3.2.5 利用数据样本计算统计量 · 45
3.2.6 统计建模 46
3.3 机器如何学习 48
3.4 探究机器学习 52
3.4.1 机器学习简介· 52
3.4.2 线性模型 53
3.4.3 分类与回归树· 53
3.4.4 集成模型 54
3.4.5 聚类模型 56
3.5 探究深度学习 58
3.5.1 建立神经网络· 61
3.5.2 计算机视觉应用 · 62
3.5.3 自然语言处理应用 · 64
3.6 本章小结 69
第二部分 项目团队的组建与维持
第 4 章 理想的数据科学团队 71
4.1 数据科学团队的角色 71
4.2 探究数据科学团队的角色及其职责 74
4.2.1 案例 1:应用机器学习防止银行诈骗 74
4.2.2 案例 2:机器学习在零售公司的应用 75
4.2.3 数据科学家的关键技能 · 774.2.4 数据工程师的关键技能 · 78
4.2.5 数据科学项目经理的关键技能 · 79
4.2.6 开发团队的支持 80
4.3 本章小结 · 80
第 5 章 数据科学团队招聘面试 81
5.1 技术招聘面试的通病 · 81
5.1.1 发现不需要的候选者· 82
5.1.2 明确面试目的 84
5.2 将价值和伦理引入面试 · 85
5.3 面试设计 · 86
5.3.1 设计测试作业 87
5.3.2 不同数据科学角色的面试 · 90
5.4 本章小结 · 92
第 6 章 组建数据科学团队 93
6.1 铸就团队灵魂( Zen,禅) 93
6.2 领导力和人员管理 · 96
6.2.1 以身作则 96
6.2.2 发挥情境领导力( situational leadership) 97
6.2.3 明确任务 99
6.2.4 感情移入( empathy,共情) 100
6.3 培养成长型思维 101
6.3.1 团队整体的成长 101
6.3.2 面向个体成长的持续学习 102
6.3.3 提供更多的学习机会 103
6.3.4 利用绩效评价帮助员工成长 104
6.4 案例:创建数据科学部门 106
6.5 本章小结 108
第三部分 数据科学项目的管理
第 7 章 创新管理· 110
7.1 理解创新 110
7.2 大型组织为何屡屡失败? 1117.2.1 市场的游戏规则 111
7.2.2 开拓新市场 112
7.3 探究创新管理 112
7.3.1 案例: MedVision 的创新周期· 114
7.3.2 集成创新 · 116
7.4 销售、营销、团队领导方式以及技术 117
7.5 大公司的创新管理 119
7.5.1 大公司的创新管理简介 119
7.5.2 案例:零售业务的数据科学项目 120
7.6 初创公司的创新管理 121
7.7 发现项目想法 122
7.7.1 从业务发现想法 122
7.7.2 从数据发现想法 123
7.8 本章小结 127
第 8 章 管理数据科学项目 128
8.1 理解数据科学项目的失败 128
8.1.1 数据科学项目失败的常见原因 128
8.1.2 数据科学管理方法 129
8.2 探究数据科学项目全生命周期 130
8.2.1 业务理解 · 130
8.2.2 数据理解 · 130
8.2.3 数据准备 · 131
8.2.4 建模 · 132
8.2.5 评价 · 133
8.2.6 部署 · 133
8.3 项目管理方法论的选择 134
8.3.1 瀑布式管理 134
8.3.2 敏捷 · 135
8.3.3 Kanban · 135
8.3.4 Scrum 137
8.4 选择适合项目的方法论 139
8.4.1 开展颠覆性创新 139
8.4.2 准备测试过的解决方案 1398.4.3 为客户量身定制项目 139
8.5 估测数据科学项目 140
8.5.1 数据科学项目估测简介 140
8.5.2 学会估测时间和成本 141
8.6 明确估测过程的目标 144
8.7 本章小结 144
第 9 章 数据科学项目的常见陷阱· 145
9.1 规避数据科学项目的常见风险 145
9.2 推进研究项目 146
9.3 实施原型和最简可行产品项目 147
9.3.1 原型和最简可行产品开发简介 147
9.3.2 案例:咨询公司的最简可行产品· 148
9.4 应对实用型数据科学系统的风险 149
9.4.1 实用型数据科学系统风险及其解决方法 · 149
9.4.2 案例:将销售预测系统投入应用· 151
9.5 本章小结 152
第 10 章 创造产品与提升可重用性 153
10.1 产品思维 153
10.2 确定项目所处阶段 154
10.2.1 项目类型和所处阶段的划分 154
10.2.2 案例:服务平台调度系统的开发 155
10.3 提高可重用性 156
10.4 寻找和开发产品 157
10.4.1 寻找和开发产品简介 · 157
10.4.2 隐私问题· 158
10.5 本章小结 158
第四部分 开发基础环境的构建
第 11 章 实施 ModelOps· 160
11.1 认识 ModelOps 160
11.2 了解 DevOps 161
11.2.1 数据科学项目基础系统的特殊需求 16111.2.2 数据科学交付流程· 162
11.3 管理代码版本和质量 · 163
11.4 存储数据和代码 · 164
11.4.1 数据跟踪与版本化· 165
11.4.2 实际的数据存储· 165
11.5 管理环境 · 167
11.6 追踪实验 · 168
11.7 自动测试的重要性 · 170
11.8 代码打包 · 171
11.9 模型的持续训练 · 172
11.10 案例:开发预测维护系统的 ModelOps · 173
11.11 项目的动力源 177
11.12 本章小结 179
第 12 章 建立技术栈 180
12.1 定义技术栈的要素 · 180
12.2 核心技术与项目专用技术的选择 · 183
12.3 比较工具与产品 · 184
12.3.1 如何比较不同的工具与产品 · 184
12.3.2 案例:物流公司的需求预测 · 185
12.4 本章小结 · 187
第 13 章 结论 188
13.1 增进知识 · 189
13.2 本章小结