注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络人工智能内容理解:技术、算法与实践

内容理解:技术、算法与实践

内容理解:技术、算法与实践

定 价:¥99.00

作 者: 孙子荀 等著
出版社: 机械工业出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787111735137 出版时间: 2023-10-01 包装: 平装
开本: 页数: 字数:  

内容简介

  本书从4个维度讲解了AI算法如何为信息流内容和产品的推荐赋能。全书一共9章,分为4个部分:第一部分(第1-3章)内容理解主要讲解了内容特征表示、内容特征应用,以及内容标签;第二部分(第4-5章)内容质量主要讲解了信息流产品的质量模型和质量框架;第三部分(第6-7章)内容加工创作主要讲解了内容加工和内容创作第四部分(第8-9章)内容算法工程主要讲解了内容模型和内容架构

作者简介

  孙子荀腾讯科技 专家研究员毕业后两年为高性能计算进行系统内核开发工作,2011 年在百度从事并行化算法方面的研究落地。2012 年加入腾讯从事数据下载分布式调度系统研发。2015 年开始负责 QQ 公众号后台,从无到有带领团队构建了 QQ 信息流的内容中台,并一直从事负责内容处理,内容理解的算法研究和落地工作。个人在内核、数据挖掘、机器学习上有较好的落地经验和技术积累。

图书目录

作者简介

前 言

 

第一部分 内容理解

第1章 文本内容理解2

1.1 文本表示2

1.1.1 文本表示的研究背景2

1.1.2 文本表示的方法3

1.2 文本分类9

1.2.1 文本分类的研究背景9

1.2.2 文本分类的方法9

1.3 本章小结17

第2章 图像理解19

2.1 图像分类20

2.1.1 传统图像分类算法20

2.1.2 深度学习图像分类算法23

2.2 图像检测25

2.2.1 图像匹配算法26

2.2.2 基于OpenCV的模板匹配实现27

2.2.3 目标检测算法28

2.3 实际应用:通用元素检测框架30

2.4 本章小结31

第3章 语音理解32

3.1 语音表征32

3.1.1 基于传统方法的语音表征33

3.1.2 基于深度学习的语音表征34

3.2 基于深度学习的音乐分类34

3.2.1 基于CNN的音乐分类35

3.2.2 基于RNN的音乐分类38

3.2.3 基于领域知识的CNN38

3.2.4 基于注意力机制的后端模块算法41

3.3 本章小结43

第4章 场景文字检测与识别44

4.1 场景文字的研究方向44

4.1.1 研究问题44

4.1.2 研究难点45

4.1.3 未来趋势45

4.2 场景文本算法的现状46

4.2.1 基于传统机器学习的文本检测46

4.2.2 基于传统机器学习的文本识别46

4.2.3 基于深度学习的文本检测47

4.2.4 基于深度学习的文本识别52

4.2.5 基于深度学习的端到端系统53

4.3 场景文本算法辅助技术55

4.3.1 不规则文本识别问题55

4.3.2 文本图像合成技术56

4.3.3 半监督技术57

4.4 数据集和评估标准58

4.4.1 基准数据集58

4.4.2 文本检测评估标准60

4.4.3 文本识别评估标准61

4.5 文本检测和识别的应用、现状与未来61

4.5.1 应用61

4.5.2 现状62

4.5.3 挑战与未来趋势62

4.6 本章小结64

第5章 视频理解65

5.1 视频表征66

5.1.1 研究目标与意义66

5.1.2 研究进展67

5.2 视频动作识别71

5.2.1 研究目标与意义71

5.2.2 研究难点71

5.2.3 研究进展71

5.3 视频时序动作定位74

5.3.1 研究目标与意义74

5.3.2 研究难点74

5.3.3 研究进展75

5.4 视频结构化分析79

5.4.1 研究目标与意义80

5.4.2 研究难点80

5.4.3 基于视频结构化的数据集80

5.4.4 视频结构的划分方法81

5.4.5 研究进展84

5.5 本章小结89

第6章 多模态学习与内容理解91

6.1 多模态内容理解的研究方向91

6.1.1 研究问题91

6.1.2 研究意义与挑战92

6.1.3 研究方向与应用93

6.2 多模态表征94

6.2.1 因果表征94

6.2.2 联合表征98

6.3 多模态内容理解框架99

6.3.1 模态间推理99

6.3.2 模态间协同101

6.3.3 模态间推理:零样本图像分类103

6.3.4 模态间协同:虚假新闻识别105

6.4 大规模预训练技术108

6.4.1 文本预训练108

6.4.2 图像预训练110

6.4.3 音频预训练111

6.4.4 多模态预训练112

6.5 本章小结114

第7章 内容理解框架115

7.1 常见的内容理解框架115

7.1.1 Tensor2Tensor115

7.1.2 OmniNet 120

7.2 自研多模态内容理解框架121

7.2.1 框架设计背景121

7.2.2 contentAI框架介绍125

7.2.3 高度配置化125

7.2.4 高度组件化127

7.2.5 开发者模式与用户模式130

7.2.6 计算式网络搭建131

7.2.7 计算图网络搭建 132

7.2.8 自动化数据集构建 133

7.2.9 能力优化133

7.2.10 快速服务化134

7.2.11 内容理解能力135

7.2.12 代码编写范例136

7.3 本章小结141

 

第二部分 内容生成

第8章 图片生成144

8.1 基于GAN的图片生成144

8.1.1 生成对抗网络144

8.1.2 条件图片生成146

8.1.3 文本转图片147

8.1.4 图片迁移147

8.1.5 高分辨率图片生成149

8.2 基于扩散模型的图片生成151

8.2.1 扩散模型152

8.2.2 扩散模型生成图片153

8.3 图片设计155

8.3.1 智能裁剪155

8.3.2 智能布局156

8.4 本章小结157

第9章 文本生成158

9.1 文本生成的背景知识158

9.1.1 语言模型158

9.1.2 CFG文法159

9.1.3 Encoder-Decoder框架160

9.1.4 文本生成质量量化 161

9.2 文本生成算法162

9.2.1 基于统计的文本生成模型162

9.2.2 基于神经网络的文本生成技术164

9.3 本章小结172

第10章 AI素材合成173

10.1 AI人脸属性编辑173

10.1.1 研究目标与意义173

10.1.2 研究难点175

10.1.3 研究进展176

10.2 AI语音合成181

10.2.1 研究目标与意义181

10.2.2 基本的语音合成系统简介182

10.2.3 端到端的语音合成系统183

10.2.4 基于深度学习的算法介绍185

10.3 AI虚拟人技术195

10.3.1 研究目标与意义195

10.3.2 二维多目标人体姿态估计197

10.3.3 二维-三维人体姿态转换203

10.4 AI表情包合成205

10.4.1 表情包特性206

10.4.2 表情包自动合成的意义及挑战207

10.4.3 表情包合成算法208

10.4.4 表情包合成应用212

10.5 本章小结213

第11章 视频编辑214

11.1 结构化数据视频编辑215

11.1.1 基于模板的电视报道视频编辑215

11.1.2 基于剪辑元素属性约束的视频编辑216

11.1.3 视频特效合成系统实践217

11.2 文本驱动视频编辑222

11.2.1 基于主题文本编辑的视频蒙太奇222

11.2.2 基于解说文本的旅游视频编辑224

11.3 音乐驱动视频编辑225

11.3.1 音乐驱动视频蒙太奇225

11.3.2 根据音乐生成视觉节奏227

11.3.3 基于音乐合成视觉叙事镜头230

11.4 本章小结232

 

第三部分 内容质量

第12章 标题党234

12.1 模型构建235

12.1.1 业务定义235

12.1.2 基于标题建模236

12.1.3 基于文章整体内容建模 238

12.2 标题党研究方向241

12.2.1 数据方面的研究241

12.2.2 特征构造方面的研究241

12.2.3 模型方面的研究241

12.3 数据集242

12.4 相关论文介绍243

12.4.1 特征构造243

12.4.2 深度学习245

12.5 本章小结247

第13章 假新闻248

13.1 基本方法248

13.1.1 基于内容真实性248

13.1.2 基于内容风格249

13.1.3 基于传播模式251

13.1.4 基于传播源特征253

13.2 未来研究方向253

13.3 数据集254

13.4 相关论文介绍254

13.5 本章小结271

第14章 图文低俗识别272

14.1 研究背景与问题定义272

14.1.1 研究背景272

14.1.2 问题定义273

14.2 业界常用产品274

14.3 主要技术手段275

14.3.1 关键词275

14.3.2 模型276

14.3.3 匹配277

14.3.4 举报279

14.3.5 用户行为279

14.3.6 多模态279

14.4 业务案例279

14.5 本章小结282


本目录推荐