本部分首先阐述自然语言理解的发展脉络和理解逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括自然语言特征、统计学习、机器学习、深度学习、知识图谱等。第1章概述自然语言发展脉络,描述了语言理解的研究现状、商业形势、认知突破口和未来预测。第2章梳理语言理解的演变流程,介绍我们面临的各类自然语言理解任务,最后给出语言理解的研究体系框架,引出自然语言理解的基础——自然语言处理。第3章重点介绍自然语言处理相关特征工程和文本任务对应的各类算法模型、深度学习的前沿进展。语言处理需要考虑特征构造(字、词、句、章级别)和特征表示,以利于后续自动处理。在特征表示方面,从早的符号表示到现在的张量表示,形成统计学习的基础。接下来结合统计学习框架,论述语言学习原理和语言模型,结合概率图模型和其他机器学习算法,阐述这些常规算法在自然语言处理任务中的应用和效果。然后进一步讨论深度学习的各类算法,对语言学习中的神经网络算法和新成果进行分析。最后探讨现有处理方法的发展边界,提出引入外源知识(知识图谱)来提高认知能力的必要性。第4章系统介绍知识图谱,包括知识图谱工程和知识图谱智能。然后梳理国内外常见的通用知识图谱,并进一步总结热门行业的知识图谱发展现状。最后结合语言知识和知识图谱的搭建流程,引入语义特征,通过行业文本实例操作,帮助读者了解语义理解的本质。行业知识图谱部分包含第5~8章。本部分在上述基本自然语言处理方法讲解的基础上,继续阐述行业知识图谱搭建和行业应用的方法。目前从事自然语言理解的公司都将精力放在通用文本理解上,这些文本往往口语化严重、特征杂乱、信息量不足,导致算法处理形成的最终产品的用户体验不佳。考虑到行业文本往往有一定规范,相对容易取得突破口,也有利于推动行业发展,所以我们选择从行业文本出发,以专利文本实操作为样板。第5章介绍行业知识工程实践,以专利行业为例,详细地描述了一个行业知识工程建设的过程。首先基于自然语言处理和知识图谱搭建方法,建设行业知识库,包括术语库、产品库、技术库、标准库、规则库等,进而开发行业主题分析模型、行业文本分类算法、相似度计算方法、价值评估方法和机器翻译方法。第6章介绍知识图谱模块的搭建,包括关键词助手、语义搜索、分级管理、高级分析、推荐和问答等。结合实际应用,探讨知识图谱在提高智能性方面的能力和效果。第7章在前面知识工程和知识图谱智能基础上搭建智能应用平台,介绍了平台的各类功能组件,描述了自下而上的软件服务封装逻辑,进一步向上封装为行业文本分析功能组件,包括检索、分析、挖掘、管理、预警、运营等。读者可以将这套思路在各行业进行实践验证,将上述组件和权限、安全板块集成为应用平台,搭建常态化文本分析运营平台,完成平台级别或各细分模块的商业产品落地。第8章依托智能应用平台,结合实践案例给出团队的应用经验,即通过四个行业案例来验证平台的认知能力。《自然语言理解与行业知识图谱:概念、方法与工程落地》以自然语言理解和行业知识图谱应用落地为目标,阐述了一个从0到1的行业文本理解案例。《自然语言理解与行业知识图谱:概念、方法与工程落地》为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。