第1 章中文分词研究/1
1.1 研究背景和意义/2
1.2 中文分词研究现状/5
1.3 面临的问题与挑战/19
第2 章面向微博语料的新词识别/22
2.1 新词定义及其分析/23
2.2 新词识别的统计量/26
2.3 新词识别算法/33
第3 章面向微博语料的新词识别方法的作用/43
3.1 新词识别实验语料介绍/43
3.2 新词识别实验评价方法/44
3.3 普通新词识别实验设计及结果分析/45
3.4 低频新词识别实验设计及结果分析/50
3.5 小结/55
第4 章基于λ-主动学习的中文微博分词方法/57
4.1 候选样例池的构建/58
4.2 基于半监督学习方法的初始分词器/70
4.3 λ-主动学习方法/72
第5 章基于λ-主动学习分词方法的作用/79
5.1 λ-主动学习分词方法实验语料介绍/79
5.2 评价方法/80
5.3 基于规则修正的跨领域微博分词结果/80
5.4 初始分词器的分词结果/82
5.5 λ-主动学习扩充的语料对LSTM 分词器的影响/83
5.6 小结/86
第6 章基于深度神经网络的中文微博分词/88
6.1 神经网络/89
6.2 基于LSTM 神经网络的中文分词方法/90
6.3 基于BLSTM 神经网络的中文分词方法/93
6.4 基于BLSTM 和CRFs的协同训练微博分词框架/96
第7 章基于深度神经网络的中文微博分词的作用/107
7.1 基于深度神经网络的中文微博分词实验数据介绍/107
7.2 评价方法/107
7.3 λ-主动学习方法对LSTM 分词器的影响/108
7.4 协同训练方法的分词结果/110
7.5 小结/116
参考文献/118
索引/139