目 录
第1章 人工智能概述 1
1.1 AI是什么 1
1.1.1 火热的AI 2
1.1.2 AI的驱动因素 3
1.2 AI技术的成熟度 4
1.2.1 视觉识别 4
1.2.2 自然语言理解 5
1.2.3 机器人 7
1.2.4 自动驾驶 8
1.2.5 机器学习 9
1.2.6 游戏 10
1.3 美国AI巨头分析 11
1.4 国内AI现状 16
1.5 AI与云计算和大数据的关系 17
1.6 AI技术路线 17
1.7 AI国家战略 18
1.8 AI的历史发展 19
第2章 AI产业 24
2.1 基础层 25
2.1.1 芯片产业 25
2.1.2 GPU 27
2.1.3 FPGA 28
2.1.4 ASIC 28
2.1.5 TPU 29
2.1.6 亚马逊的芯片 31
2.1.7 芯片产业小结 32
2.1.8 传感器 33
2.1.9 传感器小结 35
2.2 技术层 37
2.2.1 机器学习 37
2.2.2 语音识别与自然语言处理 39
2.2.3 计算机视觉 42
2.3 应用层 44
2.3.1 安防 44
2.3.2 金融 45
2.3.3 制造业 47
2.3.4 智能家居 48
2.3.5 医疗 48
2.3.6 自动驾驶 50
2.4 AI产业发展趋势分析 55
第3章 数 据 58
3.1 什么是大数据 59
3.1.1 大数据的特征 59
3.1.2 大数据的误区 60
3.1.3 大数据交易难点 60
3.1.4 大数据的来源 62
3.1.5 数据关联 63
3.1.6 大数据生产链 64
3.1.7 大数据怎么用 64
3.2 国内大数据现状 65
3.2.1 政策持续完善 66
3.2.2 技术和应用逐步落地 66
3.2.3 数据产生价值难 67
3.2.4 问题与机遇并存 67
3.3 大数据的计算模式 68
3.3.1 流式计算的应用场景 69
3.3.2 流式大数据的特征 70
3.3.3 流式计算关键技术 72
3.4 大数据技术 74
3.4.1 数据技术的演进 75
3.4.2 分布式计算系统概述 76
3.4.3 Hadoop 77
3.4.4 Spark 80
3.4.5 Storm系统 82
3.4.6 Kafka系统 84
3.4.7 各类技术平台比较 86
3.5 数据平台 88
3.5.1 数据存储和计算 89
3.5.2 数据质量 92
3.5.3 数据管理 97
3.5.4 数据目录 99
3.5.5 数据安全管控 100
3.5.6 数据准备 102
3.5.7 数据整合 107
3.5.8 数据服务 107
3.5.9 数据开发 107
3.5.10 数据平台总结 108
3.6 大数据的商用途径 109
3.6.1 数据化 109
3.6.2 算法化 109
3.6.3 应用化(产品化) 110
3.6.4 生态化 111
3.7 大数据产业 112
3.7.1 大数据产业界定 112
3.7.2 大数据技术发展的推动力 114
3.7.3 重点行业的大数据应用 117
3.7.4 大数据应用发展趋势 123
3.7.5 大数据的产业链构成分析 123
3.8 政府大数据案例分析 125
3.8.1 政府有哪些数据资源 126
3.8.2 政府大数据应用案例 126
3.8.3 政府大数据面临的挑战 130
3.8.4 政府大数据应用启示 131
第4章 机器学习概述 133
4.1 走进机器学习 133
4.1.1 什么是机器学习 133
4.1.2 机器学习的感性认识 133
4.1.3 机器学习的本质 134
4.1.4 对机器学习的全面认识 135
4.1.5 机器学习、深度学习与人工智能 136
4.1.6 机器学习、数据挖掘与数据分析 137
4.2 机器学习的基本概念 139
4.2.1 数据集、特征和标签 139
4.2.2 监督式学习和非监督式学习 140
4.2.3 强化学习和迁移学习 140
4.2.4 特征数据类型 141
4.2.5 训练集、验证集和测试集 141
4.2.6 机器学习的任务流程 142
4.3 数据预处理 142
4.3.1 探索性分析 143
4.3.2 数据清洗 143
4.3.3 特征工程 145
第5章 模 型 146
5.1 什么是模型 146
5.2 误差和MSE 148
5.3 模型的训练 149
5.3.1 模型与算法的区别 149
5.3.2 迭代法 150
5.4 梯度下降法 151
5.4.1 步长 152
5.4.2 优化步长 152
5.4.3 三类梯度下降法 153
5.4.4 梯度下降的详细算法 154
5.5 模型的拟合效果 155
5.5.1 欠拟合与过拟合 155
5.5.2 过拟合的处理方法 156
5.6 模型的评估与改进 157
5.6.1 机器学习模型的评估 157
5.6.2 机器学习算法与人类比较 158
5.6.3 改进策略 159
5.7 机器学习的实现框架 160
5.7.1 Python 160
5.7.2 scikit-learn 161
5.7.3 Spark MLlib 163
第6章 机器学习算法 164
6.1 算法概述 164
6.1.1 线性回归 165
6.1.2 逻辑回归 165
6.1.3 线性判别分析 166
6.1.4 分类与回归树分析 167
6.1.5 朴素贝叶斯 167
6.1.6 K近邻算法 168
6.1.7 学习矢量量化 168
6.1.8 支持向量机 169
6.1.9 Bagging和随机森林 170
6.1.10 Boosting和AdaBoost 170
6.2 支持向量机算法 171
6.3 逻辑回归算法 173
6.4 KNN算法 175
6.4.1 超参数k 175
6.4.2 KNN实例:波士顿房价预测 177
6.4.3 算法评价 179
6.5 决策树算法 179
6.6 集成算法 182
6.6.1 集成算法简述 182
6.6.2 集成算法之Bagging 183
6.6.3 集成算法之Boosting 184
6.7 聚类算法 185
6.7.1 K均值聚类 185
6.7.2 均值漂移聚类 186
6.7.3 基于密度的聚类方法 187
6.7.4 用高斯混合模型的期望聚类 188
6.7.5 凝聚层次聚类 189
6.7.6 图团体检测 190
6.8 机器学习算法总结 192
第7章 深度学习 193
7.1 走进深度学习 193
7.1.1 深度学习为何崛起 194
7.1.2 从逻辑回归到浅层神经网络 194
7.1.3 深度神经网络 196
7.1.4 正向传播 197
7.1.5 激活函数 197
7.2 神经网络的训练 197
7.2.1 神经网络的参数 197
7.2.2 向量化 198
7.2.3 价值函数 198
7.2.4 梯度下降和反向传播 198
7.3 神经网络的优化和改进 199
7.3.1 神经网络的优化策略 199
7.3.2 正则化方法 201
7.4 卷积神经网络 203
7.4.1 卷积运算 203
7.4.2 卷积层 204
7.4.3 CNN实例 205
7.5 深度学习的优势 210
7.6 深度学习的实现框架 211
第8章 TensorFlow 213
8.1 TensorFlow工具包 213
8.1.1 tf.estimator API 214
8.1.2 Pandas速成 214
8.1.3 必要的Python知识 216
8.2 个TensorFlow程序 219
8.2.1 装载数据 220
8.2.2 探索数据 221
8.2.3 训练模型 221
8.2.4 评估模型 223
8.2.5 优化模型 225
8.2.6 合成特征 231
8.2.7 离群值处理 234
8.3 过拟合处理 237
8.3.1 训练集和测试集 238
8.3.2 验证集 239
8.3.3 过拟合实例 240
8.4 特征工程 249
8.4.1 数值型数据 249
8.4.2 字符串数据和one-hot编码 250
8.4.3 枚举数据(分类数据) 250
8.4.4 好特征 250
8.4.5 数据清洗 251
8.4.6 分箱(分桶)技术 252
8.4.7 特征工程实例 253
第9章 TensorFlow高级知识 263
9.1 特征交叉 263
9.1.1 什么是特征交叉 263
9.1.2 FTRL实践 265
9.1.3 分桶(分箱)代码实例 268
9.1.4 特征交叉代码实例 271
9.2 L2正则化 274
9.3 逻辑回归 276
9.4 分类 279
9.4.1 评价指标—准确率 279
9.4.2 评价指标—精确率 281
9.4.3 指标—召回率 281
9.4.4 评价指标之综合考虑 282
9.4.5 ROC 曲线 284
9.4.6 预测偏差 285
9.4.7 分类代码实例 286
9.5 L1正则化 298
第10章 神经网络 308
10.1 什么是神经网络 308
10.1.1 隐藏层 308
10.1.2 激活函数 309
10.1.3 ReLU 310
10.1.4 实例代码 311
10.2 训练神经网络 320
10.2.1 正向传播算法 320
10.2.2 反向传播算法 322
10.2.3 标准化特征值 324
10.2.4 丢弃正则化 324
10.2.5 代码实例 325
10.3 多类别神经网络 340
10.3.1 一对多方法 340
10.3.2 Softmax 341
10.3.3 代码实例 343
10.4 嵌套 357
10.4.1 协同过滤 358
10.4.2 稀疏数据 359
10.4.3 获取嵌套 360
10.4.4 代码实例 360
第11章 知识图谱 372
11.1 什么是知识图谱 372
11.1.1 知识图谱的定义 373
11.1.2 知识图谱的架构 373
11.1.3 开放知识图谱 374
11.1.4 知识图谱在行业数据分析中的应用 376
11.2 知识图谱构建的关键技术 377
11.2.1 知识提取 378
11.2.2 语义类抽取 379
11.2.3 属性和属性值抽取 381
11.2.4 关系抽取 382
11.2.5 知识表示 382
11.2.6 知识融合 383
11.3 知识计算及应用 384
11.4 企业知识图谱建设 384
第12章 数据挖掘 387
12.1 什么是数据挖掘 387
12.1.1 数据挖掘技术产生的背景 387
12.1.2 数据挖掘与数据分析的区别 387
12.2 数据挖掘技术(方法) 388
12.2.1 分类 388
12.2.2 聚类 389
12.2.3 回归分析 389
12.2.4 关联规则 389
12.2.5 神经网络方法 390
12.2.6 Web数据挖掘 390
12.2.7 特征分析 390
12.2.8 偏差分析 391
12.3 大数据思维 391
12.3.1 信度与效度思维 391
12.3.2 分类思维 391
12.3.3 漏斗思维 392
12.3.4 逻辑树思维 392
12.3.5 时间序列思维 393
12.3.6 指数化思维 393
12.3.7 循环/闭环思维 394
第13章 银行业大数据和人工智能 395
13.1 四大行的进展 396
13.1.1 建设银行 396
13.1.2 工商银行 396
13.1.3 农业银行 398
13.1.4 中国银行 398
13.2 其他银行 399
13.2.1 广发银行 399
13.2.2 江苏银行 400
13.3 金融宏观大数据分析 404
13.4 小结 407
13.4.1 大数据给银行带来的机遇与挑战 407
13.4.2 银行大数据体系建设的思考 409
第14章 医疗大数据和人工智能 412
14.1 医疗大数据的特点 412
14.2 医疗大数据处理模型 413
14.3 医疗大数据的AI应用 416
14.3.1 智能辅助诊疗 416
14.3.2 影像数据分析与影像智能诊断 416
14.3.3 合理用药 416
14.3.4 远程监控 417
14.3.5 精准医疗 417
14.3.6 成本与疗效分析 417
14.3.7 绩效管理 417
14.3.8 医院控费 417
14.3.9 医疗质量分析 418
14.4 人工智能的医疗应用场景 418
14.5 人工智能要当“医生” 420
14.6 医院大数据 421
14.7 机器学习在医疗行业中的应用实例分析 422
第15章 公安大数据和人工智能 424
15.1 公安大数据的特点 424
15.2 建设流程 425
15.3 公安大数据管理平台 426
15.3.1 公安大数据建模 427
15.3.2 公安大数据汇集 428
15.3.3 公安大数据服务 428
15.4 公安大数据挖掘分析 428
15.5 公安大数据AI应用 429
15.6 小结 430
第16章 工农业大数据和人工智能 431
16.1 中国制造2025 432
16.2 工业大数据 433
16.2.1 工业大数据面临三大制约因素 433
16.2.2 工业大数据应用的四大发展趋势 434
16.2.3 发展工业大数据 434
16.3 AI 制造 435
16.4 农业大数据 435
16.4.1 发展现状 435
16.4.2 农业大数据目标 435
16.4.3 农业大数据建设任务 436
16.4.4 农产品质量安全追溯 437
附录 A 国内人工智能企业名单 438
附录 B 大数据和人工智能网上资料 441
附录 C 本书中采用的人工智能中英文术语 444
附录 D 术语列表 446