第1章 Python自然语言处理技术基础
1.1 体验自然语言处理技术
1.2 Linux基础
1.2.1 常用命令
1.2.2 Micro编辑器
1.3 开发环境
1.4 变量
1.5 注释
1.6 简单数据类型
1.6.1 数值
1.6.2 字符串
1.6.3 数组
1.7 字面值
1.8 控制流
1.8.1 if语句
1.8.2 循环
1.9 列表
1.10 元组
1.11 集合
1.12 字典
1.13 位数组
1.14 模块
1.15 函数
1.15.1 print函数
1.15.2 定义函数
1.16 面向对象编程
1.17 文件操作
1.17.1 读写文件
1.17.2 重命名文件
1.17.3 遍历文件
1.18 迭代器
1.18.1 zip函数
1.18.2 itertools模块
1.19 数据库
1.20 读取Excel文件
1.21 pytest单元测试
1.22 异常处理
1.23 日志
1.24 Flask Web框架
1.25 本章小结
第2章 中文分词原理与实现
2.1 切分方案
2.2 查找词典算法
2.2.1 标准检索树
2.2.2 三叉检索树
2.3 最长匹配中文分词
2.3.1 正向最大长度匹配法
2.3.2 逆向最大长度匹配法
2.4 概率语言模型的分词方法
2.4.1 一元模型
2.4.2 数据基础
2.4.3 二元词典
2.4.4 用二元连接改进一元模型
2.4.5 N元模型
2.4.6 N元分词
2.4.7 生成语言模型
2.4.8 评估语言模型
2.4.9 有限状态机识别未登录串
2.4.10 概率分词的流程与结构
2.5 词性标注
2.5.1 数据基础
2.5.2 隐马尔可夫模型
2.5.3 存储数据
2.5.4 整合切分与词性标注
2.5.5 基于转换的错误学习方法
2.6 词类模型
2.7 命名实体识别
2.7.1 人名识别
2.7.2 地名识别
2.8 地名切分
2.8.1 识别未登录地名
2.8.2 整体流程
2.9 结果评测
2.10 本章小结
第3章 文档分析
3.1 自动校对
3.1.1 读取Word文档
3.1.2 ARPA文件格式
3.1.3 使用KenLM语言模型工具包
3.1.4 拼写纠错
3.1.5 模糊匹配问题
3.1.6 正确词表
3.1.7 英文拼写检查
3.1.8 中文拼写检查
3.2 句子结构分析
3.2.1 句法分析树
3.2.2 依存文法
3.2.3 中文依存文法
3.2.4 英文依存文法
3.2.5 机器学习的方法
3.3 本章小结
第4章 文档排重
4.1 相似度计算
4.1.1 夹角余弦
4.1.2 最长公共子串
4.1.3 同义词替换
4.2 SimHash文档排重
4.3 本章小结
第5章 信息提取
5.1 指代消解
5.2 关键词提取
5.2.1 关键词提取的TF-IDF算法
5.2.2 textrank算法
5.2.3 从网页中提取关键词
5.3 从互联网提取信息
5.4 从日期字符串提取信息
5.5 本章小结
第6章 自动摘要
6.1 自动摘要技术
6.1.1 英文文本摘要
6.1.2 中文文本摘要
6.1.3 基于篇章结构的自动摘要
6.1.4 句子压缩
6.2 评测
6.3 本章小结
第7章 文本分类
7.1 朴素贝叶斯
7.2 TensorFlow实现文本分类
7.3 本章小结
第8章 情感分析
8.1 情感词
8.1.1 确定词语的褒贬倾向
8.1.2 匹配情感词
8.2 情感识别
8.3 本章小结
第9章 语音识别
9.1 语音信号处理
9.1.1 WAV文件格式
9.1.2 语音活动检测
9.2 JSGF语言模型
9.3 DeepSpeech语音识别引擎
9.4 强制对齐
9.5 本章小结
第10章 开发聊天机器人
10.1 问答系统
10.1.1 问句类型
10.1.2 答案提取
10.2 AIML聊天机器人
10.3 意图
10.4 使用DeepPavlov构建对话系统
10.5 本章小结
第11章 机器翻译
11.1 语言检测
11.2 信道模型
11.3 词表
11.4 词义消歧
11.5 词对齐
11.6 神经网络机器翻译
11.7 机器翻译的评价
11.8 本章小结
后记
参考文献
参考网址