定 价:¥99.00
作 者: | 孙子荀 等著 |
出版社: | 机械工业出版社 |
丛编项: | |
标 签: | 暂缺 |
ISBN: | 9787111735137 | 出版时间: | 2023-10-01 | 包装: | 平装 |
开本: | 页数: | 字数: |
作者简介
前 言
第一部分 内容理解
第1章 文本内容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分类9
1.2.1 文本分类的研究背景9
1.2.2 文本分类的方法9
1.3 本章小结17
第2章 图像理解19
2.1 图像分类20
2.1.1 传统图像分类算法20
2.1.2 深度学习图像分类算法23
2.2 图像检测25
2.2.1 图像匹配算法26
2.2.2 基于OpenCV的模板匹配实现27
2.2.3 目标检测算法28
2.3 实际应用:通用元素检测框架30
2.4 本章小结31
第3章 语音理解32
3.1 语音表征32
3.1.1 基于传统方法的语音表征33
3.1.2 基于深度学习的语音表征34
3.2 基于深度学习的音乐分类34
3.2.1 基于CNN的音乐分类35
3.2.2 基于RNN的音乐分类38
3.2.3 基于领域知识的CNN38
3.2.4 基于注意力机制的后端模块算法41
3.3 本章小结43
第4章 场景文字检测与识别44
4.1 场景文字的研究方向44
4.1.1 研究问题44
4.1.2 研究难点45
4.1.3 未来趋势45
4.2 场景文本算法的现状46
4.2.1 基于传统机器学习的文本检测46
4.2.2 基于传统机器学习的文本识别46
4.2.3 基于深度学习的文本检测47
4.2.4 基于深度学习的文本识别52
4.2.5 基于深度学习的端到端系统53
4.3 场景文本算法辅助技术55
4.3.1 不规则文本识别问题55
4.3.2 文本图像合成技术56
4.3.3 半监督技术57
4.4 数据集和评估标准58
4.4.1 基准数据集58
4.4.2 文本检测评估标准60
4.4.3 文本识别评估标准61
4.5 文本检测和识别的应用、现状与未来61
4.5.1 应用61
4.5.2 现状62
4.5.3 挑战与未来趋势62
4.6 本章小结64
第5章 视频理解65
5.1 视频表征66
5.1.1 研究目标与意义66
5.1.2 研究进展67
5.2 视频动作识别71
5.2.1 研究目标与意义71
5.2.2 研究难点71
5.2.3 研究进展71
5.3 视频时序动作定位74
5.3.1 研究目标与意义74
5.3.2 研究难点74
5.3.3 研究进展75
5.4 视频结构化分析79
5.4.1 研究目标与意义80
5.4.2 研究难点80
5.4.3 基于视频结构化的数据集80
5.4.4 视频结构的划分方法81
5.4.5 研究进展84
5.5 本章小结89
第6章 多模态学习与内容理解91
6.1 多模态内容理解的研究方向91
6.1.1 研究问题91
6.1.2 研究意义与挑战92
6.1.3 研究方向与应用93
6.2 多模态表征94
6.2.1 因果表征94
6.2.2 联合表征98
6.3 多模态内容理解框架99
6.3.1 模态间推理99
6.3.2 模态间协同101
6.3.3 模态间推理:零样本图像分类103
6.3.4 模态间协同:虚假新闻识别105
6.4 大规模预训练技术108
6.4.1 文本预训练108
6.4.2 图像预训练110
6.4.3 音频预训练111
6.4.4 多模态预训练112
6.5 本章小结114
第7章 内容理解框架115
7.1 常见的内容理解框架115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模态内容理解框架121
7.2.1 框架设计背景121
7.2.2 contentAI框架介绍125
7.2.3 高度配置化125
7.2.4 高度组件化127
7.2.5 开发者模式与用户模式130
7.2.6 计算式网络搭建131
7.2.7 计算图网络搭建 132
7.2.8 自动化数据集构建 133
7.2.9 能力优化133
7.2.10 快速服务化134
7.2.11 内容理解能力135
7.2.12 代码编写范例136
7.3 本章小结141
第二部分 内容生成
第8章 图片生成144
8.1 基于GAN的图片生成144
8.1.1 生成对抗网络144
8.1.2 条件图片生成146
8.1.3 文本转图片147
8.1.4 图片迁移147
8.1.5 高分辨率图片生成149
8.2 基于扩散模型的图片生成151
8.2.1 扩散模型152
8.2.2 扩散模型生成图片153
8.3 图片设计155
8.3.1 智能裁剪155
8.3.2 智能布局156
8.4 本章小结157
第9章 文本生成158
9.1 文本生成的背景知识158
9.1.1 语言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成质量量化 161
9.2 文本生成算法162
9.2.1 基于统计的文本生成模型162
9.2.2 基于神经网络的文本生成技术164
9.3 本章小结172
第10章 AI素材合成173
10.1 AI人脸属性编辑173
10.1.1 研究目标与意义173
10.1.2 研究难点175
10.1.3 研究进展176
10.2 AI语音合成181
10.2.1 研究目标与意义181
10.2.2 基本的语音合成系统简介182
10.2.3 端到端的语音合成系统183
10.2.4 基于深度学习的算法介绍185
10.3 AI虚拟人技术195
10.3.1 研究目标与意义195
10.3.2 二维多目标人体姿态估计197
10.3.3 二维-三维人体姿态转换203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自动合成的意义及挑战207
10.4.3 表情包合成算法208
10.4.4 表情包合成应用212
10.5 本章小结213
第11章 视频编辑214
11.1 结构化数据视频编辑215
11.1.1 基于模板的电视报道视频编辑215
11.1.2 基于剪辑元素属性约束的视频编辑216
11.1.3 视频特效合成系统实践217
11.2 文本驱动视频编辑222
11.2.1 基于主题文本编辑的视频蒙太奇222
11.2.2 基于解说文本的旅游视频编辑224
11.3 音乐驱动视频编辑225
11.3.1 音乐驱动视频蒙太奇225
11.3.2 根据音乐生成视觉节奏227
11.3.3 基于音乐合成视觉叙事镜头230
11.4 本章小结232
第三部分 内容质量
第12章 标题党234
12.1 模型构建235
12.1.1 业务定义235
12.1.2 基于标题建模236
12.1.3 基于文章整体内容建模 238
12.2 标题党研究方向241
12.2.1 数据方面的研究241
12.2.2 特征构造方面的研究241
12.2.3 模型方面的研究241
12.3 数据集242
12.4 相关论文介绍243
12.4.1 特征构造243
12.4.2 深度学习245
12.5 本章小结247
第13章 假新闻248
13.1 基本方法248
13.1.1 基于内容真实性248
13.1.2 基于内容风格249
13.1.3 基于传播模式251
13.1.4 基于传播源特征253
13.2 未来研究方向253
13.3 数据集254
13.4 相关论文介绍254
13.5 本章小结271
第14章 图文低俗识别272
14.1 研究背景与问题定义272
14.1.1 研究背景272
14.1.2 问题定义273
14.2 业界常用产品274
14.3 主要技术手段275
14.3.1 关键词275
14.3.2 模型276
14.3.3 匹配277
14.3.4 举报279
14.3.5 用户行为279
14.3.6 多模态279
14.4 业务案例279
14.5 本章小结282