可比语料库作为近年来语料库研究的热点方向之一,可广泛应用于语言学研究和自然语言处理领域。本体是一种基于语义网技术的知识表示方法,它与可比语料库的融合式研究是对可比语料获取、组织和应用方法的一次革新,将更好地发挥可比语料库的效能并扩展其应用领域。经过前期调查分析,国内外鲜有俄汉可比语料库相关研究,未见基于本体的俄汉可比语料库相关成果。本研究首先在理论层面分析了可比语料库研究的现存问题,提出将本体引入可比语料库研究的思路,并以此为基础提出了基于本体的可比语料库理论构想。随后在实践层面将该理论构想运用到了面向俄汉可比语料库的乌克兰事件多语言复合型本体构建、基于该本体的俄汉新闻及维基百科可比语料获取、语料库构建和语料库应用等核心问题的研究中。本研究所取得的成果:一,本研究所提出的基于本体的可比语料库理论构想由“一对关系、三个模型和四个问题”组成,阐释了本体与语料的层次关系,建立了基于本体的单语料、语料库和语料可比关系模型,在理论上讨论了面向可比语料库的本体构建、基于本体的可比语料获取、语料库构建和语料库应用问题。第二,本研究所构建的面向俄汉可比语料库的乌克兰事件多语言复合型本体(мопкус)由表征领域知识和描述存储语料的2大类及8个子类组成,包含数据属性46个,对象属性9个,实例60733个(领域知识类实例4525个,语料描述类实例56207个)。第三,本研究所构建的基于MO几KYC的俄汉可比语料库包含新闻原始语料3554篇,维基百科原始语料1670篇,其中包括中文语料163万字,俄文语料132万词;以领域相同、发布时间相似对齐俄汉新闻可比语料文本50148对,以俄汉维基语言链接对齐维基百科可比语料文本835对,并对俄汉语料各层面的可比程度进行了评估计算,为语料库的应用奠定了坚实的数据基础。第四,在所构建的基于本体的俄汉可比语料库基础上探讨了三个应用问题:复杂语料调用与语义查询、基于多维度特征的可比度评估以及跨语言文本推荐与信息整合,并研制了相关软件系统。