本书从文本数据具有的特点以及文本挖掘具有的价值和意义开始,讲解了文本数据的获取和预处理的方法(包括中英文的文本预处理),给出了文本向量化表示方法。本书从统计机器学习方法和深度神经网络两个角度,介绍了包括向量空间模型以及词、句子和文档级的分布式表示;针对文本分类问题,介绍了传统文本分类方法、深度神经网络分类方法(多层感知机文本分类、卷积神经网络文本分类和循环神经网络文本分类)和文本分类的评价指标;针对文本聚类,包括文档相似度度量方法,介绍了基于划分、层次、密度的基础性聚类算法,以及谱聚类等高级聚类方法和文本聚类的评价指标;在理论学习的基础上,介绍了文本主题的挖掘技术,包括潜在语义分析、非负矩阵分解、概率潜在语义分析和潜在狄利克雷分布等;最后从文本内容、主题和基于时间信息三个方面介绍了文本数据可视化的方法与工具。本书不仅对文本挖掘的相关理论模型进行了详细的推理和全面介绍,而且在每个算法模型之后都会给出实例,在理论与实践之间做了很好的平衡与衔接。