文本机器学习

定　价：¥129.00

作　者：	[美] 查鲁.C.阿加沃尔著，黎琳潘微科明仲译
出版社：	机械工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

京东 (¥129.00)

ISBN：	9787111648055	出版时间：	2020-05-01	包装：	平装
开本：	16开	页数：	456	字数：

内容简介

　　《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先，详细介绍了面向文本数据的预处理技术和经典的机器学习技术（如矩阵分解与主题建模、聚类与分类/回归等），并深入探讨了模型的原理和内在联系以及相应的性能评估；其次，详细介绍了结合异构数据的文本学习技术（如知识共享与迁移学习等），以及面向信息检索与排序的索引和评分等技术；末尾，详细介绍了一些文本应用相关的重要技术，包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用，综合梳理了文本机器学习的多个技术，深入分析了模型的优缺点和内在联系，并在每章结束时提供了详细的参考资料、软件资源和习题。《文本机器学习》不仅可以作为工具书供具有相关背景的专业人士使用，也可以作为教材帮助具有线性代数和概率论基础的初学者入门。

作者简介

　　Charu C. Aggarwal是一名供职于纽约约克镇高地的IBM T. J. Watson研究中心的杰出研究员，他于1993年在坎普尔的印度理工学院获得计算机科学学士学位，并于1996年获得麻省理工学院的博士学位。他在国际会议和期刊上发表了350多篇论文，并获得了80多项专利。同时，他还以作者或参编者的身份出版了17本著作，包括数据挖掘、推荐系统和异常值分析方面的教材。他曾三次因专利的商业价值被IBM授予发明大师的荣誉。他曾获得多项内部和外部奖项，包括EDBT的时间考验奖（2014年）和IEEE ICDM研究贡献奖（2015年）。他还担任数据挖掘领域许多主要会议的程序主席或总主席，同时他还是ACM Transactions on Knowledge Discovery from Data的主编。由于在知识发现和数据挖掘算法方面的贡献，他被授予SIAM、ACM和IEEE的会士（Fellow）荣誉。黎琳，女，1995年3月生，深圳大学计算机与软件学院研究生，多次获得学业奖励。主要研究方向为推荐系统、机器学习和深度学习，在知名国际研讨会IFUP发表第一作者科研论文一篇，合作撰写多篇科研论文，并于知名国际会议RecSys以及知名国际期刊Neurocomputing发表，参与国家自然科学基金面上项目等科研项目。潘微科，男，1982年3月生，博士，副教授，硕士生导师。主讲《信息检索》等课程，多次获本科教学奖。主要研究方向为迁移学习和推荐系统，发表多篇科研论文，获SDM 2013最佳论文提名奖和ACM TiiS 2016最佳论文奖，主持国家自然科学基金面上项目等多个科研项目，担任知名国际期刊的编委、客座编委和杰出审稿人。明仲，男，1967年8月生，博士，教授，博导，深圳大学计算机与软件学院院长，大数据系统计算技术国家工程实验室执行主任，深圳市优秀教师。主讲《软件工程》等课程，多次获广东省优秀教学成果奖。主要研究方向为人工智能、软件工程和推荐系统，发表多篇科研论文，获2013年度广东省科学技术奖一等奖，主持国家自然科学基金重点项目等多个科研项目，参与组织多个学术会议。

图书目录

译者序
原书前言
致谢

第1章文本机器学习导论1
1.1导论1
1.1.1本章内容组织结构2
1.2文本学习有何特别之处3
1.3文本分析模型4
1.3.1文本预处理和相似度计算4
1.3.2降维与矩阵分解6
1.3.3文本聚类6
1.3.4文本分类与回归建模8
1.3.5结合文本与异构数据的联合分析10
1.3.6信息检索与网页搜索11
1.3.7序列语言建模与嵌入11
1.3.8文本摘要11
1.3.9信息提取11
1.3.10意见挖掘与情感分析12
1.3.11文本分割与事件检测12
1.4本章小结12
1.5参考资料13
1.5.1软件资源13
1.6习题13

第2章文本预处理与相似度计算15
2.1导论15
2.1.1本章内容组织结构16
2.2原始文本提取与词条化16
2.2.1文本提取中与网页相关的问题18
2.3从词条中提取词项19
2.3.1停用词移除19
2.3.2连字符19
2.3.3大小写转换20
2.3.4基于用法的合并20
2.3.5词干提取21
2.4向量空间表示与归一化21
2.5文本中的相似度计算23
2.5.1idf归一化和词干提取是否总是有用25
2.6本章小结26
2.7参考资料26
2.7.1软件资源26
2.8习题27

第3章矩阵分解与主题建模28
3.1导论28
3.1.1本章内容组织结构30
3.1.2将二分解归一化为标准的三分解30
3.2奇异值分解（SVD)31
3.2.1SVD的例子33
3.2.2实现SVD的幂迭代法35
3.2.3SVD/LSA的应用35
3.2.4SVD/LSA的优缺点36
3.3非负矩阵分解36
3.3.1非负矩阵分解的可解释性38
3.3.2非负矩阵分解的例子39
3.3.3融入新文档40
3.3.4非负矩阵分解的优缺点41
3.4概率潜在语义分析（PLSA）41
3.4.1与非负矩阵分解的联系44
3.4.2与SVD的比较44
3.4.3PLSA的例子45
3.4.4PLSA的优缺点45
3.5隐含狄利克雷分布（LDA）概览46
3.5.1简化的LDA模型46
3.5.2平滑的LDA模型49
3.6非线性变换和特征工程50
3.6.1选择一个相似度函数52
3.6.2Nystrom估计58
3.6.3相似度矩阵的部分可用性60
3.7本章小结61
3.8参考资料62
3.8.1软件资源62
3.9习题63

第4章文本聚类65
4.1导论65
4.1.1本章内容组织结构66
4.2特征选择与特征工程66
4.2.1特征选择67
4.2.2特征工程68
4.3主题建模和矩阵分解70
4.3.1混合隶属度模型与重叠簇70
4.3.2非重叠簇与双聚类：矩阵分解的角度70
4.4面向聚类的生成混合模型74
4.4.1伯努利模型75
4.4.2多项式模型76
4.4.3与混合隶属度主题模型的比较77
4.4.4与朴素贝叶斯分类模型的联系77
4.5k均值算法78
4.5.1收敛与初始化80
4.5.2计算复杂度80
4.5.3与概率模型的联系81
4.6层次聚类算法81
4.6.1高效实现与计算复杂度83
4.6.2与k均值的自然联姻84
4.7聚类集成85
4.7.1选择集成分量86
4.7.2混合来自不同分量的结果86
4.8将文本当作序列来进行聚类87
4.8.1面向聚类的核方法87
4.8.2数据相关的核方法：谱聚类90
4.9聚类到有监督学习的转换91
4.9.1实际问题92
4.10聚类评估93
4.10.1内部有效性度量的缺陷93
4.10.2外部有效性度量93
4.11本章小结97
4.12参考资料97
4.12.1软件资源98
4.13习题98

第5章文本分类：基本模型100
5.1导论100
5.1.1标记的类型与回归建模101
5.1.2训练与测试102
5.1.3归纳、直推和演绎学习器102
5.1.4基本模型103
5.1.5分类器中与文本相关的挑战103
5.2特征选择与特征工程104
5.2.1基尼系数104
5.2.2条件熵105
5.2.3逐点互信息105
5.2.4紧密相关的度量方式106
5.2.5χ2-统计量106
5.2.6嵌入式特征选择模型108
5.2.7特征工程技巧108
5.3朴素贝叶斯模型109
5.3.1伯努利模型109
5.3.2多项式模型111
5.3.3实际观察113
5.3.4利用朴素贝叶斯对输出进行排序113
5.3.5朴素贝叶斯的例子113
5.3.6半监督朴素贝叶斯116
5.4最近邻分类器118
5.4.11-最近邻分类器的属性119
5.4.2Rocchio与最近质心分类121
5.4.3加权最近邻122
5.4.4自适应最近邻：一系列有效的方法124
5.5决策树与随机森林126
5.5.1构造决策树的基本步骤126
5.5.2分裂一个节点127
5.5.3多变量分裂128
5.5.4决策树在文本分类中的问题129
5.5.5随机森林129
5.5.6把随机森林看作自适应最近邻方法130
5.6基于规则的分类器131
5.6.1顺序覆盖算法131
5.6.2从决策树中生成规则133
5.6.3关联分类器134
5.6.4预测135
5.7本章小结135
5.8参考资料135
5.8.1软件资源137
5.9习题137

第6章面向文本的线性分类与回归140
6.1导论140
6.1.1线性模型的几何解释141
6.1.2我们需要偏置变量吗142
6.1.3使用正则化的线性模型的一般定义143
6.1.4将二值预测推广到多类144
6.1.5面向文本的线性模型的特点145
6.2最小二乘回归与分类145
6.2.1使用L2正则化的最小二乘回归145
6.2.2LASSO:使用L1正则化的最小二乘回归148
6.2.3Fisher线性判别与最小二乘分类器150
6.3支持向量机(SVM)156
6.3.1正则优化解释156
6.3.2最大间隔解释157
6.3.3Pegasos：在原始空间中求解SVM 159
6.3.4对偶SVM优化形式160
6.3.5对偶SVM的学习算法162
6.3.6对偶SVM的自适应最近邻解释163
6.4对数几率回归165
6.4.1正则优化解释165
6.4.2对数几率回归的训练算法166
6.4.3对数几率回归的概率解释167
6.4.4多元对数几率回归与其他推广168
6.4.5关于对数几率回归性能的评述169
6.5线性模型的非线性推广170
6.5.1基于显式变换的核SVM171
6.5.2为什么传统的核函数能够提升线性可分性172
6.5.3不同核函数的优缺点174
6.5.4核技巧175
6.5.5核技巧的系统性应用176
6.6本章小结179
6.7参考资料180
6.7.1软件资源181
6.8习题181

第7章分类器的性能与评估184
7.1导论184
7.1.1本章内容组织结构184
7.2偏置-方差权衡185
7.2.1一个形式化的观点186
7.2.2偏置和方差的迹象189
7.3偏置-方差权衡在性能方面可能的影响189
7.3.1训练数据规模的影响189
7.3.2数据维度的影响191
7.3.3文本中模型选择可能的影响191
7.4利用集成方法系统性地提升性能192
7.4.1bagging与子采样192
7.4.2boosting193
7.5分类器评估195
7.5.1分割为训练部分和测试部分196
7.5.2绝对准确率度量197
7.5.3面向分类和信息检索的排序度量199
7.6本章小结204
7.7参考资料205
7.7.1boosting与对数几率回归的联系205
7.7.2分类器评估205
7.7.3软件资源206
7.7.4用于评估的数据集206
7.8习题206

第8章结合异构数据的联合文本挖掘208
8.1导论208
8.1.1本章内容组织结构210
8.2共享矩阵分解的技巧210
8.2.1分解图210
8.2.2应用：结合文本和网页链接进行共享分解211
8.2.3应用：结合文本与无向社交网络214
8.2.4应用：结合文本的图像迁移学习215
8.2.5应用：结合评分和文本的推荐系统217
8.2.6应用：跨语言文本挖掘218
8.3分解机219
8.4联合概率建模技术223
8.4.1面向聚类的联合概率模型223
8.4.2朴素贝叶斯分类器224
8.5到图挖掘技术的转换224
8.6本章小结226
8.7参考资料227
8.7.1软件资源227
8.8习题228

第9章信息检索与搜索引擎229
9.1导论229
9.1.1本章内容组织结构230
9.2索引和查询处理230
9.2.1词典数据结构231
9.2.2倒排索引233
9.2.3线性时间的索引构建234
9.2.4查询处理236
9.2.5效率优化244
9.3信息检索模型的评分248
9.3.1基于tf-idf的向量空间模型248
9.3.2二值独立模型249
9.3.3使用词项频率的BM25模型251
9.3.4信息检索中的统计语言模型252
9.4网络爬虫与资源发现254
9.4.1一个基本的爬虫算法255
9.4.2带偏好的爬虫256
9.4.3多线程257
9.4.4避开蜘蛛陷阱258
9.4.5用于近似重复检测的Shingling方法258
9.5搜索引擎中的查询处理259
9.5.1分布式索引构建259
9.5.2动态索引更新260
9.5.3查询处理260
9.5.4信誉度的重要性261
9.6基于链接的排序算法262
9.6.1PageRank262
9.6.2HITS267
9.7本章小结269
9.8参考资料269
9.8.1软件资源270
9.9习题270

第10章文本序列建模与深度学习272
10.1导论272
10.1.1本章内容组织结构274
10.2统计语言模型274
10.2.1skip-gram模型277
10.2.2与嵌入的关系278
10.3核方法279
10.4单词-上下文矩阵分解模型 280
10.4.1使用计数的矩阵分解280
10.4.2GloVe嵌入282
10.4.3PPMI矩阵分解283
10.4.4位移PPMI矩阵分解283
10.4.5融入句法和其他特征283
10.5单词距离的图形化表示284
10.6神经语言模型285
10.6.1神经网络简介285
10.6.2基于word2vec的神经嵌入295
10.6.3word2vec(SGNS)是对数几率矩阵分解302
10.6.4除了单词以外：基于doc2vec的段落嵌入304
10.7循环神经网络(RNN)305
10.7.1实际问题307
10.7.2RNN的语言建模示例308
10.7.3图像描述应用310
10.7.4序列到序列学习与机器翻译311
10.7.5句子级分类应用314
10.7.6使用语言特征的词条级分类315
10.7.7多层循环网络316
10.8本章小结319
10.9参考资料319
10.9.1软件资源320
10.10习题321

第11章文本摘要323
11.1导论323
11.1.1提取式摘要与抽象式摘要324
11.1.2提取式摘要中的关键步骤324
11.1.3提取式摘要中的分割阶段324
11.1.4本章内容组织结构325
11.2提取式摘要的主题词方法325
11.2.1词项概率325
11.2.2归一化频率权重326
11.2.3主题签名327
11.2.4句子选择方法329
11.3提取式摘要的潜在方法329
11.3.1潜在语义分析330
11.3.2词汇链331
11.3.3基于图的方法332
11.3.4质心摘要333
11.4面向提取式摘要的机器学习334
11.4.1特征提取334
11.4.2使用哪种分类器335
11.5多文档摘要335
11.5.1基于质心的摘要335
11.5.2基于图的方法336
11.6抽象式摘要337
11.6.1句子压缩337
11.6.2信息融合338
11.6.3信息排列338
11.7本章小结338
11.8参考资料339
11.8.1软件资源339
11.9习题340

第12章信息提取341
12.1导论341
12.1.1历史演变343
12.1.2自然语言处理的角色343
12.1.3本章内容组织结构345
12.2命名实体识别345
12.2.1基于规则的方法346
12.2.2转化为词条级分类任务349
12.2.3隐马尔可夫模型350
12.2.4最大熵马尔可夫模型354
12.2.5条件随机场355
12.3关系提取357
12.3.1转换为分类问题357
12.3.2利用显式的特征工程进行关系预测358
12.3.3利用隐式的特征工程进行关系预测：核方法361
12.4本章小结365
12.5参考资料365
12.5.1弱监督学习方法366
12.5.2无监督与开放式信息提取 366
12.5.3软件资源367
12.6习题367

第13章意见挖掘与情感分析368
13.1导论368
13.1.1意见词典370
13.1.2把意见挖掘看作槽填充和信息提取任务371
13.1.3本章内容组织结构372
13.2文档级情感分析372
13.2.1面向分类的无监督方法374
13.3短语级与句子级情感分类375
13.3.1句子级与短语级分析的应用376
13.3.2主观性分类到最小割问题的归约376
13.3.3句子级与短语级极性分析中的上下文377
13.4把基于方面的意见挖掘看作信息提取任务377
13.4.1Hu和Liu的无监督方法378
13.4.2OPINE：一种无监督方法379
13.4.3把有监督意见提取看作词条级分类任务380
13.5虚假意见381
13.5.1面向虚假评论检测的有监督方法382
13.5.2面向虚假评论制造者检测的无监督方法384
13.6意见摘要384
13.6.1评分总结384
13.6.2情感总结385
13.6.3基于短语与句子的情感总结385
13.6.4提取式与抽象式总结385
13.7本章小结385
13.8参考资料385
13.8.1软件资源387
13.9习题387

第14章文本分割与事件检测388
14.1导论388
14.1.1与话题检测和追踪的关系388
14.1.2本章内容组织结构389
14.2文本分割389
14.2.1TextTiling390
14.2.2C99方法390
14.2.3基于现成的分类器的有监督的分割392
14.2.4基于马尔可夫模型的有监督的分割393
14.3文本流挖掘395
14.3.1流式文本聚类395
14.3.2面向首次报道检测的应用 396
14.4事件检测397
14.4.1无监督的事件检测397
14.4.2把有监督的事件检测看作有监督的分割任务399
14.4.3把事件检测看作一个信息提取问题399
14.5本章小结402
14.6参考资料402
14.6.1软件资源402
14.7习题403
参考文献404