人工智能与大数据技术导论

内容简介

　　本书全面讲述人工智能与大数据涉及的技术，学完本书后，读者将对人工智能技术有全面的理解，并能掌握AI整体知识架构。本书共分16章，内容包括人工智能概述、AI产业、数据、机器学习概述、模型、机器学习算法、深度学习、TensorFlow、神经网络、知识图谱、数据挖掘，以及银行业、医疗、公安、工农业等行业人工智能应用情况。附录给出了极有参考价值的大数据与人工智能产业参考资料。本书适合人工智能与大数据技术初学者、人工智能行业准从业人员、AI投资领域的技术专家阅读，也适合作为高等院校和培训学校人工智能相关专业师生的教学参考书。

作者简介

　　杨正洪，毕业于美国State University of New York at Stony Brook，在美国硅谷从事AI和大数据相关研发工作十余年，华中科技大学和中国地质大学客座教授，湖北省2013年海外引进人才，并拥有多项国家专利。杨正洪参与了大数据和人工智能的国家标准的制定，在2016年参与了公安部主导的“信息安全技术：大数据平台安全管理产品安全技术要求”的国家标准制定。杨正洪是中关村海外智库专家顾问和住建部中规院专家顾问，曾担任在美上市公司CTO、北京某国企CIO和上海某国企高级副总裁等职。多年从事人工智能与大数据技术的实践，出版了《智慧城市》《大数据技术入门》等多本畅销书。

图书目录

目录
第1章人工智能概述   1
1.1 AI是什么   1
1.1.1 火热的AI   2
1.1.2 AI的驱动因素   3
1.2 AI技术的成熟度   4
1.2.1 视觉识别   4
1.2.2 自然语言理解   5
1.2.3 机器人   7
1.2.4 自动驾驶   8
1.2.5 机器学习   9
1.2.6 游戏   10
1.3 美国AI巨头分析   11
1.4 国内AI现状   16
1.5 AI与云计算和大数据的关系   17
1.6 AI技术路线   17
1.7 AI国家战略   18
1.8 AI的历史发展   19
第2章 AI产业   24
2.1 基础层   25
2.1.1 芯片产业   25
2.1.2 GPU   27
2.1.3 FPGA   28
2.1.4 ASIC   28
2.1.5 TPU   29
2.1.6 亚马逊的芯片   31
2.1.7 芯片产业小结   32
2.1.8 传感器   33
2.1.9 传感器小结   35
2.2 技术层   37
2.2.1 机器学习   37
2.2.2 语音识别与自然语言处理   39
2.2.3 计算机视觉   42
2.3 应用层   44
2.3.1 安防   44
2.3.2 金融   45
2.3.3 制造业   47
2.3.4 智能家居   48
2.3.5 医疗   48
2.3.6 自动驾驶   50
2.4 AI产业发展趋势分析   55
第3章数据   58
3.1 什么是大数据   59
3.1.1 大数据的特征   59
3.1.2 大数据的误区   60
3.1.3 大数据交易难点   60
3.1.4 大数据的来源   62
3.1.5 数据关联   63
3.1.6 大数据生产链   64
3.1.7 大数据怎么用   64
3.2 国内大数据现状   65
3.2.1 政策持续完善   66
3.2.2 技术和应用逐步落地   66
3.2.3 数据产生价值难   67
3.2.4 问题与机遇并存   67
3.3 大数据的计算模式   68
3.3.1 流式计算的应用场景   69
3.3.2 流式大数据的特征   70
3.3.3 流式计算关键技术   72
3.4 大数据技术   74
3.4.1 数据技术的演进   75
3.4.2 分布式计算系统概述   76
3.4.3 Hadoop   77
3.4.4 Spark   80
3.4.5 Storm系统   82
3.4.6 Kafka系统   84
3.4.7 各类技术平台比较   86
3.5 数据平台   88
3.5.1 数据存储和计算   89
3.5.2 数据质量   92
3.5.3 数据管理   97
3.5.4 数据目录   99
3.5.5 数据安全管控   100
3.5.6 数据准备   102
3.5.7 数据整合   107
3.5.8 数据服务   107
3.5.9 数据开发   107
3.5.10 数据平台总结   108
3.6 大数据的商用途径   109
3.6.1 数据化   109
3.6.2 算法化   109
3.6.3 应用化（产品化）   110
3.6.4 生态化   111
3.7 大数据产业   112
3.7.1 大数据产业界定   112
3.7.2 大数据技术发展的推动力   114
3.7.3 重点行业的大数据应用   117
3.7.4 大数据应用发展趋势   123
3.7.5 大数据的产业链构成分析   123
3.8 政府大数据案例分析   125
3.8.1 政府有哪些数据资源   126
3.8.2 政府大数据应用案例   126
3.8.3 政府大数据面临的挑战   130
3.8.4 政府大数据应用启示   131
第4章机器学习概述   133
4.1 走进机器学习   133
4.1.1 什么是机器学习   133
4.1.2 机器学习的感性认识   133
4.1.3 机器学习的本质   134
4.1.4 对机器学习的全面认识   135
4.1.5 机器学习、深度学习与人工智能   136
4.1.6 机器学习、数据挖掘与数据分析   137
4.2 机器学习的基本概念   139
4.2.1 数据集、特征和标签   139
4.2.2 监督式学习和非监督式学习   140
4.2.3 强化学习和迁移学习   140
4.2.4 特征数据类型   141
4.2.5 训练集、验证集和测试集   141
4.2.6 机器学习的任务流程   142
4.3 数据预处理   142
4.3.1 探索性分析   143
4.3.2 数据清洗   143
4.3.3 特征工程   145
第5章模型   146
5.1 什么是模型   146
5.2 误差和MSE   148
5.3 模型的训练   149
5.3.1 模型与算法的区别   149
5.3.2 迭代法   150
5.4 梯度下降法   151
5.4.1 步长   152
5.4.2 优化步长   152
5.4.3 三类梯度下降法   153
5.4.4 梯度下降的详细算法   154
5.5 模型的拟合效果   155
5.5.1 欠拟合与过拟合   155
5.5.2 过拟合的处理方法   156
5.6 模型的评估与改进   157
5.6.1 机器学习模型的评估   157
5.6.2 机器学习算法与人类比较   158
5.6.3 改进策略   159
5.7 机器学习的实现框架   160
5.7.1 Python   160
5.7.2 scikit-learn   161
5.7.3 Spark MLlib   163
第6章机器学习算法   164
6.1 算法概述   164
6.1.1 线性回归   165
6.1.2 逻辑回归   165
6.1.3 线性判别分析   166
6.1.4 分类与回归树分析   167
6.1.5 朴素贝叶斯   167
6.1.6 K近邻算法   168
6.1.7 学习矢量量化   168
6.1.8 支持向量机   169
6.1.9 Bagging和随机森林   170
6.1.10 Boosting和AdaBoost   170
6.2 支持向量机算法   171
6.3 逻辑回归算法   173
6.4 KNN算法   175
6.4.1 超参数k   175
6.4.2 KNN实例：波士顿房价预测   177
6.4.3 算法评价   179
6.5 决策树算法   179
6.6 集成算法   182
6.6.1 集成算法简述   182
6.6.2 集成算法之Bagging   183
6.6.3 集成算法之Boosting   184
6.7 聚类算法   185
6.7.1 K均值聚类   185
6.7.2 均值漂移聚类   186
6.7.3 基于密度的聚类方法   187
6.7.4 用高斯混合模型的期望聚类   188
6.7.5 凝聚层次聚类   189
6.7.6 图团体检测   190
6.8 机器学习算法总结   192
第7章深度学习   193
7.1 走进深度学习   193
7.1.1 深度学习为何崛起   194
7.1.2 从逻辑回归到浅层神经网络   194
7.1.3 深度神经网络   196
7.1.4 正向传播   197
7.1.5 激活函数   197
7.2 神经网络的训练   197
7.2.1 神经网络的参数   197
7.2.2 向量化   198
7.2.3 价值函数   198
7.2.4 梯度下降和反向传播   198
7.3 神经网络的优化和改进   199
7.3.1 神经网络的优化策略   199
7.3.2 正则化方法   201
7.4 卷积神经网络   203
7.4.1 卷积运算   203
7.4.2 卷积层   204
7.4.3 CNN实例   205
7.5 深度学习的优势   210
7.6 深度学习的实现框架   211
第8章 TensorFlow   213
8.1 TensorFlow工具包   213
8.1.1 tf.estimator API   214
8.1.2 Pandas速成   214
8.1.3 必要的Python知识   216
8.2 个TensorFlow程序   219
8.2.1 装载数据   220
8.2.2 探索数据   221
8.2.3 训练模型   221
8.2.4 评估模型   223
8.2.5 优化模型   225
8.2.6 合成特征   231
8.2.7 离群值处理   234
8.3 过拟合处理   237
8.3.1 训练集和测试集   238
8.3.2 验证集   239
8.3.3 过拟合实例   240
8.4 特征工程   249
8.4.1 数值型数据   249
8.4.2 字符串数据和one-hot编码   250
8.4.3 枚举数据（分类数据）   250
8.4.4 好特征   250
8.4.5 数据清洗   251
8.4.6 分箱（分桶）技术   252
8.4.7 特征工程实例   253
第9章 TensorFlow高级知识   263
9.1 特征交叉   263
9.1.1 什么是特征交叉   263
9.1.2 FTRL实践   265
9.1.3 分桶（分箱）代码实例   268
9.1.4 特征交叉代码实例   271
9.2 L2正则化   274
9.3 逻辑回归   276
9.4 分类   279
9.4.1 评价指标—准确率   279
9.4.2 评价指标—精确率   281
9.4.3 指标—召回率   281
9.4.4 评价指标之综合考虑   282
9.4.5 ROC 曲线   284
9.4.6 预测偏差   285
9.4.7 分类代码实例   286
9.5 L1正则化   298
第10章神经网络   308
10.1 什么是神经网络   308
10.1.1 隐藏层   308
10.1.2 激活函数   309
10.1.3 ReLU   310
10.1.4 实例代码   311
10.2 训练神经网络   320
10.2.1 正向传播算法   320
10.2.2 反向传播算法   322
10.2.3 标准化特征值   324
10.2.4 丢弃正则化   324
10.2.5 代码实例   325
10.3 多类别神经网络   340
10.3.1 一对多方法   340
10.3.2 Softmax   341
10.3.3 代码实例   343
10.4 嵌套   357
10.4.1 协同过滤   358
10.4.2 稀疏数据   359
10.4.3 获取嵌套   360
10.4.4 代码实例   360
第11章知识图谱   372
11.1 什么是知识图谱   372
11.1.1 知识图谱的定义   373
11.1.2 知识图谱的架构   373
11.1.3 开放知识图谱   374
11.1.4 知识图谱在行业数据分析中的应用   376
11.2 知识图谱构建的关键技术   377
11.2.1 知识提取   378
11.2.2 语义类抽取   379
11.2.3 属性和属性值抽取   381
11.2.4 关系抽取   382
11.2.5 知识表示   382
11.2.6 知识融合   383
11.3 知识计算及应用   384
11.4 企业知识图谱建设   384
第12章数据挖掘   387
12.1 什么是数据挖掘   387
12.1.1 数据挖掘技术产生的背景   387
12.1.2 数据挖掘与数据分析的区别   387
12.2 数据挖掘技术（方法）   388
12.2.1 分类   388
12.2.2 聚类   389
12.2.3 回归分析   389
12.2.4 关联规则   389
12.2.5 神经网络方法   390
12.2.6 Web数据挖掘   390
12.2.7 特征分析   390
12.2.8 偏差分析   391
12.3 大数据思维   391
12.3.1 信度与效度思维   391
12.3.2 分类思维   391
12.3.3 漏斗思维   392
12.3.4 逻辑树思维   392
12.3.5 时间序列思维   393
12.3.6 指数化思维   393
12.3.7 循环／闭环思维   394
第13章银行业大数据和人工智能   395
13.1 四大行的进展   396
13.1.1 建设银行   396
13.1.2 工商银行   396
13.1.3 农业银行   398
13.1.4 中国银行   398
13.2 其他银行   399
13.2.1 广发银行   399
13.2.2 江苏银行   400
13.3 金融宏观大数据分析   404
13.4 小结   407
13.4.1 大数据给银行带来的机遇与挑战   407
13.4.2 银行大数据体系建设的思考   409
第14章医疗大数据和人工智能   412
14.1 医疗大数据的特点   412
14.2 医疗大数据处理模型   413
14.3 医疗大数据的AI应用   416
14.3.1 智能辅助诊疗   416
14.3.2 影像数据分析与影像智能诊断   416
14.3.3 合理用药   416
14.3.4 远程监控   417
14.3.5 精准医疗   417
14.3.6 成本与疗效分析   417
14.3.7 绩效管理   417
14.3.8 医院控费   417
14.3.9 医疗质量分析   418
14.4 人工智能的医疗应用场景   418
14.5 人工智能要当“医生”   420
14.6 医院大数据   421
14.7 机器学习在医疗行业中的应用实例分析   422
第15章公安大数据和人工智能   424
15.1 公安大数据的特点   424
15.2 建设流程   425
15.3 公安大数据管理平台   426
15.3.1 公安大数据建模   427
15.3.2 公安大数据汇集   428
15.3.3 公安大数据服务   428
15.4 公安大数据挖掘分析   428
15.5 公安大数据AI应用   429
15.6 小结   430
第16章工农业大数据和人工智能   431
16.1 中国制造2025   432
16.2 工业大数据   433
16.2.1 工业大数据面临三大制约因素   433
16.2.2 工业大数据应用的四大发展趋势   434
16.2.3 发展工业大数据   434
16.3 AI 制造   435
16.4 农业大数据   435
16.4.1 发展现状   435
16.4.2 农业大数据目标   435
16.4.3 农业大数据建设任务   436
16.4.4 农产品质量安全追溯   437
附录 A 国内人工智能企业名单   438
附录 B 大数据和人工智能网上资料   441
附录 C 本书中采用的人工智能中英文术语   444
附录 D 术语列表   446