注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络家庭与办公软件大数据分析:数据挖掘必备算法示例详解

大数据分析:数据挖掘必备算法示例详解

大数据分析:数据挖掘必备算法示例详解

定 价:¥39.90

作 者: 张重生 著
出版社: 机械工业出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787111555469 出版时间: 2016-12-01 包装: 平装
开本: 16k 页数: 字数:  

内容简介

  本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。 本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。

作者简介

  张重生,男,博士,教授,硕士生导师,河南大学大数据团队带头人。研究领域为大数据分析、深度学习、数据挖掘、数据库、实时数据分析。博士毕业于 INRIA,France(法国国家信息与自动化研究所)。2010年08月至2011年3月,在美国加州大学洛杉矶分校(UCLA)计算机系,师从Carlo Zaniolo教授进行流数据挖掘方面的研究。 十多年来,一直从事数据库、数据挖掘、大数据分析相关的研究,发表SCI/EI论文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等国际期刊和会议论文。作为项目负责人主持 4项科研项目,出版学术专著3部,获得3项国家发明专利,指导硕士研究生12名。

图书目录

第1章数据分析绪论
1.1理解数据中字段的类型是数据分析的重要前提
1.2进行数据分析时数据的表示形式
1.3数据分类——数据类别的自动识别
1.4数据分类问题与回归问题的区别与联系
1.5数据分析算法简介
1.6交叉验证
1.7一个最简单的分类器-K近邻分类器
1.8后续章节组织
第2章SVM算法
2.1算法原理
2.2工具包简介
2.3实例详解
第3章决策树算法
3.1信息熵值
3.2决策树的构建目标
3.3 ID3决策树算法
3.4 C45决策树算法
3.5 CART决策树算法
3.6 ID3、C45、CART算法的终止条件
3.7C45算法的参数介绍
3.8实例详解
第4章随机森林算法
4.1算法原理
4.2工具包介绍
4.3实例详解
第5章梯度提升决策树算法
5.1算法原理
5.2工具包介绍
5.3实例详解
第6章AdaBoost算法
6.1算法原理
6.2工具包介绍
6.3实例详解
第7章朴素贝叶斯分类器
7.1朴素贝叶斯分类的问题定义
7.2朴素贝叶斯算法原理
7.3一种常见的朴素贝叶斯模型的错误计算方法
7.4朴素贝叶斯算法对连续型属性的处理
第8章极限学习机器算法
8.1算法原理
8.2算法参数介绍
8.3实例详解
第9章逻辑回归算法
9.1 Logistic Regression算法流程
9.2 Logistic Regression算法原理推导
第10章稀疏表示分类算法
10.1算法原理
10.2 SRC工具包及算法参数介绍
10.3 SRC算法实例详解
第11章不同数据分类算法性能的大规模实验对比分析
11.1为什么要比较不同数据分类算法的性能?
11.2不同数据分类算法性能比较的相关工作
11.3最新数据分类算法性能的大规模实验对比分析结果
11.4结论
第12章从二分类到多分类——OVA
12.1 OVA 聚合规则的核心思想
12.2 MAX聚合规则
12.3 DOO聚合规则
12.4调用示例
第13章从二分类到多分类——OVO
13.1 OVO 聚合规则的核心思想
13.2 WV聚合规则
13.3 VOTE聚合规则
13.4 PC聚合规则
13.5 PE聚合规则
13.6 LVPC聚合规则
13.7调用示例
第14章从二分类到多分类——ECOC
14.1 ECOC的核心思想
14.2 ECOC 编码
14.3 ECOC 译码
14.4 ECOC多类分类调用示例
第15章三种从二分类到多分类聚合策略的实验对比分析
15.1 OVA策略的实验结果
15.2 OVO策略的实验结果
15.3 ECOC策略的实验结果
第16章多个分类算法的集成方法研究
16.1差异性(Diversity)的原理与技术
16.2集成学习方法
16.3本章小结
第17章属性选择算法
17.1 fspackage和LibSVM的使用
17.2信息增益算法
17.3卡方分布算法
17.4基于Fisher Score的属性选择算法
17.5基于基厄系数的属性选择算法
17.6基于T检验的属性选择算法
第18章高级属性选择算法
18.1线性前向选择算法
18.2顺序前向选择算法
18.3基于稀疏多项式逻辑回归的属性选择算法
18.4 Our——多个属性选择算法的集成策略
18.5属性选择算法的大规模实验对比分析
第19章数据选择算法
19.1衡量不均衡数据分类质量的常用方法
19.2 RUS算法
19.3 CNN算法
19.4 SMOTE算法
19.5 ADASYN算法
19.6 OSS算法
19.7本章小结
第20章不均衡数据分类算法及大规模实验分析
20.1 C4.5 CS算法
20.2使用Random Forests和GBDT进行不均衡数据分类
20.3BalanceCascade不均衡数据分类算法
20.4其他不均衡数据分类算法及不均衡分类器的集成算法
20.5结合属性选择和数据选择的不均衡数据分类实验
第21章大数据分析
21.1 Spark平台简介
21.2基于Ambari的Spark及Spark集群的安装与配置
21.3 Ambari集群扩展
21.4基于Spark平台的分布式编程示例
21.5 MLlib——Spark平台上的机器学习库


本目录推荐