以专利数据语义表示为基础,专利信息深度挖掘问题能够得到更好的解决。本书根据专利数据分析与挖掘的一般流程,结合其中的研究重点和研究热点,着力解决以下5个方面的问题。 ①专利科学引文元数据抽取和分析。当前科学技术间的关联研究主要通过非专利引文分析实现,非专利引文包括期刊论文、会议论文、著作、文件等多种类型,而其中很多类型并不能作为科学知识的代表。如何借鉴和改进表示学习方法,快速准确地识别出非专利引文中的专利科学引文,进而抽取专利科学引文中的多种特征项来表示专利引用的科学知识,实现更准确的科学技术关联分析,研究科学知识与技术应用间的知识转移和流动,是专利信息深度挖掘的基础性工作。 ②无监督跨语言专利推荐。跨语言专利推荐可以为企业和个人遴选相关重要专利、发现相关技术发展趋势、追踪技术进展提供辅助,进而提供个性化的信息推送和决策支持服务,是有效获取其他语言相关专利的重要途径。当前,跨语言专利推荐多从查询词和文本精确翻译的角度出发,往往需要大规模特定领域的双语词典、双语语料库及高效准确的机器翻译等方法来实现有监督的跨语言查询扩展,导致这些方法应用扩展到其他领域进行跨语言专利推荐的难度较大。与此同时,由此推荐的专利大多是相似专利,推荐的多样性和相关性尚需进一步扩展,亟须从专利文本语义表示角度出发进行相关专利推荐,以提供更好的决策支持服务。 ③技术机会预测。技术机会作为技术创新及市场创新活动的基础,可以为企业提供可能的未来发展方向参考,是进行任何一项技术创新活动都要考虑的重要因素,也是决定企业能否顺利开展技术创新活动的关键环节。当前研究主要侧重于对已发生的技术机会进行发现,而技术机会预测则多是通过分析大量历史数据进行验证。实际上,当技术机会出现时,一般还没有积累大量数据,特别是在技术机会尚处于萌芽阶段的时候。因此,需要借助表示学习方法和类比设计方法,协同利用具有类似功能或效果的相关领域数据,在尚未累积大量数据的技术萌芽期对技术机会进行预测,更好地支撑数据驱动的管理决策。 ④技术融合预测。技术融合是新技术产生的重要来源,预测潜在的技术融合成为企业提高竞争能力、获取竞争优势甚至是颠覆现有市场的有效和重要的技术手段。当前,技术融合预测的定量分析和研究主要从3个角度展开,包括基于专利引用的技术融合预测、基于专利分类号共现的技术融合预测及基于专利文本的技术融合预测,但还存在以下问题亟须解决:,专利引用具有一定的时间滞后性,需要一定的时间积累,因此现有研究多是对已有技术融合的验证,不利于技术融合预测。第二,专利分类号共现不能体现专利分类号在序列中的位置特征和上下文语义,由此得到的专利分类语义表示可能存在信息丢失的问题。此外,现有研究一般平等对待专利分类序列中的每个专利分类号,进而赋予同样的文本信息,造成不同专利分类具有大量相同文本,不利于区分专利分类。尤为重要的是,专利分类网络结构和文本内容中的每一维特征的贡献程度可能并不相同,需要针对不同领域数据进行针对性学习,自动调整特征的权重和贡献。 ⑤专利大数据处理与分析系统构建。全流程专利数据处理与分析的工具软件较少,而且一般仅能实现专利处理与分析中的某一步骤,无法形成规范的输入输出,难以简便快捷地对特定领域进行全流程分析与处理。此外,需要针对专利数据分析与挖掘,系统调研专利特征项,设计专利数据仓库,研究和实现专利大数据获取、解析、预处理、查询、统计、分析和可视化的全流程专利处理与分析系统,从而为专利数据深度挖掘提供更好的工具软件支撑。 为了解决上述问题,本书引入表示学习理论与方法,研究专利信息语义表示,进而针对情报分析现实需要,从专利信息语义表示角度形成了一系列新方法和新技术,主要包括:从专利科学引文角度出发,提出基于表示学习的专利科学引文识别、专利科学引文特征项抽取及多种专利科学引文内容深度挖掘方法;从专利推荐角度出发,利用不同语种但相同语义的词在语义空间中位置相近的原理,提出基于表示学习的无监督跨语言专利推荐方法;从技术机会预测角度,结合表示学习和类比设计,提出基于短语语义表示和类比设计的技术机会预测方法;从技术融合预测角度,结合表示学习理论与方法,研究专利分类文本赋予及其语义表示、专利分类网络结构语义表示及融合表示,形成基于专利分类语义表示的技术融合预测方法;从信息系统构建角度,设计专利数据仓库,研究和实现专利大数据获取、解析、预处理、查询、统计、分析和可视化的全流程专利处理与分析系统构建。