本书凝练了作者近七年来的研究成果,融合了国家自然科学基金项目和博士后科学基金面上项目(一等)的相关研究成果。 基于设计科学、文本挖掘、信息抽取和机器学习等理论和方法,搭建了数据驱动的社交媒体中药品不良反应知识发现框架。在应用层面,从非结构化的文本数据中最终提取出潜在的(药品-不良反应)知识,首先从社会媒体平台上海量数据中过滤掉了不包含不良反应信息的不相关文本,然后从非结构化文本中提取了疾病症状等实体,最后区分了药品和提取的疾病症状等实体间的关系类型(如药品不良反应还是药品适应症)。在方法层面,针对数据非均衡、高维、不规范、标注难且成本高的特点,从特征和算法两个角度,提出了一系列改进的文本分类、实体识别和关系抽取方法。