《视觉语言交互中的视觉推理研究》的作者牛玉磊博士于2020年在中国人民大学取得博士学会,后前往美国哥伦比亚大学开展博士后研究工作。本书从知识建模和知识推断两方面入手,深入研究了视觉语言交互任务中的视觉推理问题。《视觉语言交互中的视觉推理研究》共五章:第1章主要介绍了计算机视觉与自然语言处理交叉领域中交互类问题的研究背景,并分别从单轮交互、多轮交互、知识偏差三个角度选取了指称语理解、视觉对话、视觉问答三个经典任务展开讨论。第2章主要介绍了单轮交互情形的代表性视觉推理任务,即指称语理解问题,提出了变分背景框架,根据视觉图像和指称语文本的联系及视觉物体之间的关系提取语义背景信息,并根据背景信息对指称语进行定位。第3章介绍了多轮交互情形的代表性视觉推理任务,即视觉对话问题,提出了递归注意力机制,通过视觉指代消解的思想对图像、对话和问题之间的联系进行建模,优化视觉表示。第4章介绍了知识偏差情形的代表性视觉推理任务,即视觉问答问题,基于因果推理提出了反事实视觉问答框架,在训练环境和测试环境的答案分布不一致情况下,通过因果效应的视角提取并去除语言偏差。第5章对本书进行了总结,并对未来研究方向进行了展望。