本课题研究的核心目标是围绕“东亚国家语言汉字词汇使用现状”这个中心,重点解决日本、韩国、越南等三个国家语言中汉字词汇有哪些、汉字词汇的使用情况如何等问题。作为本课题研究的最终成果,力图对上述问题作出明确的回答。为了保证本课题研究结果的科学性和准确性,研究过程中引入了一些新的研究方法和研究理念。首先导入大数据的理念,充分发挥汉日韩越等语言大规模语料库的优势,采取全数调查的方法,对反映东亚国家语言中汉字词汇使用现状的各项指标开展研究,本课题研究所使用的日语、韩语、越语的文本数据总计达到数亿字规模;其次充分利用先进的计算机自然语言处理技术对日韩越等语言中的汉字词汇以及汉语和这些语言的通用词汇进行分析研究,包括既有的日语词法分析和标注技术、韩语和越语的分词技术,以及本课题执行过程中自主开发的中日韩越四国语言通用的语料库分析工具;第三、利用专业数据库管理系统对东亚国家语言汉字词汇及其相关数据进行处理和管理。