出版者的话.
专家指导委员会
译者序
中文版前言
序
前言
第一部分机器学习工具与技术
第1章绪论
1.1数据挖掘和机器学习
1.1.1描述结构模式
1.1.2机器学习
1.1.3数据挖掘
1.2简单的例子:天气问题和其他
1.2.1天气问题
1.2.2隐形眼镜:一个理想化的问题
1.2.3鸢尾花:一个经典的数值型数据集
1.2.4CPU性能:介绍数值预测
1.2.5劳资协商:一个更真实的例子
1.2.6大豆分类:一个经典的机器学习的成功例子
1.3应用领域
1.3.1决策包含评判
1.3.2图像筛选
1.3.3负载预测
1.3.4诊断
1.3.5市场和销售
1.3.6其他应用
1.4机器学习和统计学
1.5用于搜索的概括
1.5.1枚举概念空间
1.5.2偏差
1.6数据挖掘和道德
1.7补充读物
第2章输入:概念.实例和属性
2.1概念
2.2样本
2.3属性
2.4输入准备
2.4.1数据收集
2.4.2ARFF格式
2.4.3稀疏数据
2.4.4属性类型
2.4.5残缺值
2.4.6不正确的值
2.4.7了解数据
2.5补充读物
第3章输出:知识表达
3.1决策表
3.2决策树
3.3分类规则
3.4关联规则
3.5包含例外的规则
3.6包含关系的规则
3.7数值预测树
3.8基于实例的表达
3.9聚类
3.10补充读物
第4章算法:基本方法
4.1推断基本规则
4.1.1残缺值和数值属性
4.1.2讨论
4.2统计建模
4.2.1残缺值和数值属性
4.2.2用于文档分类的贝叶斯模型
4.2.3讨论
4.3分治法:创建决策树
4.3.1计算信息量
4.3.2高度分支属性
4.3.3讨论
4.4覆盖算法:建立规则
4.4.1规则与树
4.4.2一个简单的覆盖算法
4.4.3规则与决策列
4.5挖掘关联规则
4.5.1项集
4.5.2关联规则
4.5.3有效地建立规则
4.5.4讨论
4.6线性模型
4.6.1数值预测:线性回归
4.6.2线性分类:Logistic回归
4.6.3使用感知器的线性分类
4.6.4使用Winnow的线性分类
4.7基于实例的学习
4.7.1距离函数
4.7.2有效寻找最近邻
4.7.3讨论
4.8聚类
4.8.1基于距离的迭代聚类
4.8.2快速距离计算
4.8.3讨论
4.9补充读物
第5章可信度:评估机器学习结果
5.1训练和测试
5.2预测性能
5.3交叉验证
5.4其他估计法
5.4.1留一法
5.4.2自引导法
5.5数据挖掘方案比较
5.6预测概率
5.6.1次损失函数
5.6.2信息损失函数
5.6.3讨论
5.7计算成本
5.7.1成本敏感分类
5.7.2成本敏感学习
5.7.3上升图
5.7.4ROC曲线
5.7.5反馈率-精确率曲线
5.7.6讨论
5.7.7成本曲线
5.8评估数值预测
5.9最短描述长度原理
5.10聚类方法中应用MDL原理
5.11补充读物
第6章实现:真正的机器学习方案
6.1决策树
6.1.1数值属性
6.1.2残缺值
6.1.3修剪
6.1.4估计误差率
6.1.5决策树归纳的复杂度
6.1.6从决策树到规则
6:1.7C4.5:选择和选项
6.1.8讨论
6.2分类规则
6.2.1选择测试的标准
6.2.2残缺值,数值属性
6.2.3生成好的规则
6.2.4使用全局优化
6.2.5从局部决策树中获得规则
6.2.6包含例外的规则
6.2.7讨论
6.3扩展线性模型
6.3.1最大边际超平面
6.3.2非线性类边界
6.3.3支持向量回归
6.3.4核感知器
6.3.5多层感知器
6.3.6反向传播法
6.3.7径向基函数网络
6.3.8讨论
6.4基于实例的学习
6.4.1减少样本集数量
6.4.2修剪干扰样本集
6.4.3属性加权
6.4.4推广样本集
6.4.5用于推广样本集的距离函数
6.4.6推广的距离函数
6.4.7讨论
6.5数值预测
6.5.1模型树
6.5.2建树
6.5.3修剪树
6.5.4名词性属性
6.5.5残缺值
6.5.6模型树归纳伪代码
6.5.7从模型树到规则
6.5.8局部加权线性回归
6.5.9讨论
6.6聚类
6.6.1选择聚类的个数
6.6.2递增聚类
6.6.3类别效用
6.6.4基于概率的聚类
6.6.5EM算法
6.6.6扩展混合模型
6.6.7贝叶斯聚类
6.6.8讨论..
6.7贝叶斯网络
6.7.1做出预测
6.7.2学习贝叶斯网络
6.7.3算法细节
6.7.4用于快速学习的数据结构
6.7.5讨论
第7章转换:处理输入和输出
7.1属性选择
7.1.1独立于方案的选择
7.1.2搜索属性空间
7.1.3特定方案选择
7.2离散数值属性
7.2.1无指导离散
7.2.2基于熵的离散
7.2.3其他离散方法
7.2.4基于熵和基于误差的离散
7.2.5离散属性转换成数值属性
7.3一些有用的转换
7.3.1主分量分析
7.3.2随机投影,
7.3.3从文本到属性向量
7.3.4时间序列
7.4自动数据清理
7.4.1改进决策树
7.4.2稳健回归
7.4.3侦察异情
7.5组合多种模型
7.5.1装袋
7.5.2考虑成本的装袋
7.5.3随机化
7.5.4提升
7.5.5叠加回归
7.5.6叠加logistic回归
7.5.7选择树
7.5.8Logistic模型树
7.5.9堆栈
7.5.10误差纠正输出编码
7.6使用没有类标的数据
7.6.1用于分类的聚类
7.6.2联合训练
7.6.3EM和联合训练
7.7补充读物
第8章继续:扩展和应用
8.1从大型的数据集里学习
8.2融合领域知识
8.3文本和网络挖掘
8.4对抗情形
8.5无处不在的数据挖掘
8.6补充读物
第二部分Weka机器学习平台
第9章Weka简介
9.1Weka中包含了什么
9.2如何使用Weka
9.3Weka的其他应用
9.4如何得到Weka
第10章Explorer界面
10.1开始着手
10.1.1准备数据
10.1.2将数据载入探索者
10.1.3建立决策树
10.1.4查看结果
10.1.5重做一遍
10.1.6运用模型
10.1.7运行错误的处理
10.2探索“探索者”
10.2.1载入及过滤文件
10.2.2训练和测试学习方案
10.2.3自己动手:用户分类器
10.2.4使用元学习器
10.2.5聚类和关联规则
10.2.6属性选择
10.2.7可视化
10.3过滤算法
10.3.1无指导属性过滤器
10.3.2无指导实例过滤器
10.3.3有指导过滤器
10.4学习算法
10.4.1贝叶斯分类器
10.4.2树
10.4.3规则
10.4.4函数
10.4.5懒惰分类器
10.4.6其他的杂项分类器
10.5元学习算法
10.5.1装袋和随机化
10.5.2提升
10.5.3合并分类器
10.5.4成本敏感学习
10.5.5优化性能
10.5.6针对不同任务重新调整分类器
10.6聚类算法
10.7关联规则学习器
10.8属性选择
10.8.1属性子集评估器
10.8.2单一属性评估器
10.8.3搜索方法
第11章KnowledgeFlow界面
11.1开始着手
11.2知识流组件
11.3配置及连接组件
11.4递增学习
第12章Experimenter界面
12.1开始着手
12.1.1运行一个实验
12.1.2分析所得结果
12.2简单设置
12.3高级设置
12.4分析面板
12.5将运行负荷分布到多个机器上
第13章命令行界面
13.1开始着手
13.2Weka的结构
13.2.1类,实例和包
13.2.2weka.core包
13.2.3weka.classifiers包
13.2.4其他包
13.2.5Javadoc索引
13.3命令行选项
13.3.1通用选项
13.3.2与具体方案相关的选项
第14章嵌入式机器学习
14.1一个简单的数据挖掘程序
14.2讲解代码
14.2.1main()
14.2.2MessageClassifier()
14.2.3updateData()
14.2.4classifyMessage()
第15章编写新学习方案
15.1一个分类器范例
15.1.1buildClassifier()
15.1.2makeTree()
15.1.3computelnfoGain()
15.1.4classifylnstance()
15.1.5main()
15.2与实现分类器有关的惯例
参考文献
索引...