数据挖掘实践：计算机科学丛书

定　价：¥39.00

作　者：	（美）Olivia Parr Rud著；朱扬勇等译；朱扬勇译
出版社：	机械工业出版社
丛编项：	数据库技术丛书
标　签：	数据库存储与管理

购买这本书可以去

ISBN：	9787111122210	出版时间：	2003-09-01	包装：	胶版纸
开本：	26cm	页数：	314	字数：

内容简介

　　OliviaParrRud是DataSquare，LLC的执行副总裁。Olivia在金融服务行业已经工作了二十多年，其中10年专门从事信用卡、保险、电信、零售、度假业、名录服务行业的数据挖掘、建模和划分工作。利用自己分析能力与创造才华，她提供客户获取、模型维护、风险、总盈利等方面的分析和解决方案。本书详细介绍了一种新的数据挖掘技术—数据建模，并着重阐述整个模型开发过程的细节。本书包括三个部分。第一部分讲述了基础知识，内容涉及确定目标和从商业预测中定义目标的重要性，并给出了收集数据和创建数据集的例子。第二部分通过一实例详甸阐述了模型开发的整个过程。第三部分通过应用于保险业、银行、电信行业的实例详细说明了不同目标的数据建模过程中的几个关键步骤。本书将数据挖掘的技艺用饮食烹调的思？爰右在故停子诶斫猓阌诮邮堋Ｊ橹懈龅闹诙嗍道浞痔逑至俗髡叨嗄甑男幸稻椋缘鼻暗氖谐∮涂突Ч叵倒芾斫＞哂屑训慕杓饔谩１臼槭屎暇哂幸欢ǖ耐臣坪头治鼋；〉亩琳咴亩粒勺魑治鍪Α⑹萃诰蛉嗽薄⒂淼墓ぷ魇植幔部勺魑扑慊喙刈ㄒ档谋究粕芯可滩幕虿钩涠廖铩？"什么是数据挖掘数据挖掘（datamining）这个术语涵盖了应用于各个行业的多种技术。由于市场份额和利润竞争的日趋激烈，数据挖掘成为公司在客户生命周期的各个阶段维持竞争力的必要工具。过去，数据挖掘的形式之一也称为数据捕捞（datadredging）。这种方法曾被认为没有达到合格的研究标准。也就是说，研究人员实际上可能没有作任何预定义的假设就开始研究所有的数据。然而，由于这种形式的数据挖掘确实可以发现有价值的信息，所以它开始被广为接受。在美国的公司里，如果有一种方法可以发现如何提高利润，那么人们会迅速地接受、信赖它。20世纪80年代末至90年代初，另一种形式的数据挖掘开始在营销领域流行起来。几个技术领先的信用卡银行发现，有一种新的称为数据建模（datamodeling）的数据挖掘技术可以提高获得客户的能力，改进风险管理。大量的活动和空前的增长为数据建模的繁荣发展提供了肥沃的土壤。数据建模的成功和它所带来的利润为它在其他行业的应用铺平了道路。目前，使用数据建模技术进行营销的行业包括保险业、零售业、投资银行、公共事业部门、电信业、能源业、度假业、游戏业和药品行业等等。本书的重点许多统计理论的书都谈到了数据建模技术。但本书并不是那样的一本书！本书讨论的重点是在营销、风险和客户关系管理（CRM）中使用这些技术所需的实践知识。大部分公司都被数据挖掘软件工具？闹掷嗪凸δ芘醚刍ㄧ月摇Ｈ砑潭忌扑堑娜砑恰耙子谑褂谩焙汀拔扌枞魏畏治黾寄堋钡摹５牵颐且言诒玖煊蚬ぷ鞫嗄辏勒庑┕愀媸遣蛔阄诺摹Ｈ魏谓Ｏ钅康某晒Σ唤鼋鋈【鲇诙杂诜椒ㄑУ牧己美斫猓谷【鲇诙允荨⑹谐「驼迳桃的勘甑睦斫狻Ｊ率瞪希杂谡龉潭裕Ｐ痛砉讨皇瞧渲械囊恍〔糠帧？本书将着重阐述整个模型开发的过程。讨论的内容包括对商业或市场的预测，以及处理过程中所需的复杂的SAS代码。这是为了强调实际模型处理过程之前与之后的步骤的重要性。本书的读者随着数据挖掘应用的飞速发展，对资深分析师和数据挖掘师的需求也增加了。但是，由于此类人才短缺，公司便雇用有才华的统计学家或初级分析师，他们懂技术，但是缺乏必要的商业敏感性。公司也可能会购买复杂的数据挖掘软件工具，这些工具所提供的解决方案对分析技术知识，或者与目标相关的业务知识都知之甚少。不管是哪种情况，都有可能缺乏某些领域的知识，如定义目标的结构，获取和准备数据，确认和应用模型以及测量结果等。任何一个领域的错误都可能是灾难性的，会造成巨大的浪费。本书可作为不同级别的分析师、数据挖掘人员和营销经理的工作手册。本书提供了数据建模的逐步指导，尤其强调了必要的商业知识，以得到有益的结果。对于那些数据挖掘的初学者，本书可作为整个过程的综合指导。对于经验丰富的分析师而言，本书可以作为参考手册。最后，对于管理人员而言，阅读本书可以对成功运用数据模型所需的技术与过程有基本的了解。本书的结构本书分为三个部分。第一部分讲述基础知识。第1章讨论了确定目标和从商业角度定义目标的重要性。第2章讨论并提供了大量的例子，其中包括收集数据和创建建模数据集。第二部分通过一个案例研究，详细阐述了模型开发过程的每个步骤。第3章-第7章讨论了数据清洗、变量归约和转换、模型处理、验证、实施的步骤。第三部分提供一系列的案例研究，这些案例分别应用于保险业、银行、电信等行业，详细说明了不同目标的数据建模过程的几个关键步骤，包括特征、响应、风险和生命周期值。随着本书对模型开发步骤的深入探讨，作者加进了几位业内专家的合理建议，他们都是数据挖掘领域的先锋。这些建议对某个主题提出了不同看法，如多重共线性，建立生命周期值模型的其他方法等。所需工具要使用本书提供解决方案，读者要对统计学有基本的了解。如果你的目标是要得到管理层数据建模的使用建议，则需要进行准确的商业判断。本书所有的代码示例都是用SAS写的，为了在SAS上实现这些代码，用户需要BaseSAS和SAS／STAT。电子数据表都是用微软的Excel做成的。但是，基本的逻辑和指令对所有的软件包和建模工具都是有效的。配套光盘本书从第3章—第13章都包含了开发、验证和实施数据模型的SAS代码。对这些代码稍做修改，再加上一些常识，就能够从数据准备阶段到模型的开发与验证阶段建立一个模型。但是，这样需要大量的时间，还有可能出现编码错误。为了简化这项工作并使代码更容易地用于不同的数据模型，原出版社出版了配套光盘，但需要读者另行购买。光盘里包括了开发不同模型所需的全部代码，模型包括：响应、验证、流失、风险、生命周期值或净现值。开发目标函数的具体代码包括信用卡、保险、电信、名录服务的例子。代码中有清楚的注释，解释了每一个步骤的目的与方法，所需要的软件是BaseSAS和SAS／STAT。用于创建收益表和增幅图的电子数据表也包含在光盘中。通过SAS创建的初步分析结果可以得到这些表并加以使用。既然模型处理前后的步骤可以结合任何数据模型软件包来使用，代码自然也可以作为独立的建模模板。模型处理步骤重点在于逻辑递归上的数据准备。光盘上还包括用于变量验证和处理的SAS宏。本书没有涵盖的内容一本数据挖掘的书如果没有提到隐私权，那么就不能算是完整。我相信这是数据挖掘工作者的一项重要的工作。关于这个话题，可以再写一本书。所以，本书中没有谈到这一点。但是，我希望所有使用个人数据进行营销的公司都能制订一项隐私权的法规。要获得更进一步的信息和指导，请与DirectMarketingAssociation联系，电话（212）790-1500，或者访问他们的网站http：//www.the-dma.org。小结有效的数据挖掘是科学与艺术的复杂混合体。数据挖掘工具的数量每年都在增长。研究人员不断开发新方法，软件厂商实现现有的方法，才华横溢的分析师则利用标准技术来推进过程。数据挖掘（说得具体一点，数据建模）已经成为公司维持利润的战略必备工具。希望本书可以成为你实现数据挖掘目标时方便的参考和恰当的向导。"

作者简介

　　OliviaParrRud是DataSquare，LLC的执行副总裁。Olivia在金融服务行业已经工作了二十多年，其中10年专门从事信用卡、保险、电信、零售、度假业、名录服务行业的数据挖掘、建模和划分工作。利用自己分析能力与创造才华，她提供客户获取、模型维护、风险、总盈利等方面的分析和解决方案。

图书目录

译者序
对本书的赞誉
序
前言
作者介绍
第一部分计划菜单
第1章设立目标
1.1 定义目标
1.1.1 特征分析
1.1.2 划分
1.1.3 响应
1.1.4 风险
1.1.5 激活
1.1.6 交叉销售和提升销售
1.1.7 流失
1.1.8 净现值
1.1.9 生命周期价值
1.2 选择建模方法
1.2.1 线性回归
1.2.2 逻辑回归
1.2.3 神经网络
1.2.4 遗传算法
1.2.5 分类树
1.3 自适应公司
1.3.1 雇佣和合作
1.3.2 以产品为中心与以客户为中心
1.4 小结
第2章选择数据源
2.1 数据类型
2.1.1 人口统计学数据一般描述个人或家庭特征
2.1.2 行为数据是行动或行为的一种度量
2.1.3 心理或态度数据以观点、生活方式
2.2 数据源
2.2.1 内部数据源
2.2.2 外部数据源
2.3 选择建模数据
2.3.1 潜在客户数据
2.3.2 客户模型数据
2.3.3 风险模型数据
2.4 构造建模数据集
2.4.1 如何确定样本尺寸
2.4.2 采样方法
2.4.3 根据已建立模型的数据开发模型
2.4.4 集成多个宣传活动的数据
2.5 小结
第二部分烹调演示
第3章准备数据
3.1 访问数据
3.1.1 数据分类
3.1.2 读原始数据
3.2 创建建模数据集
3.3 清理数据
3.3.1 连续变量
3.3.2 类型变量
3.4 小结
第4章选择及转换变量
4.1 定义目标函数
4.1.1 激活概率
4.1.2 风险指数
4.1.3 产品收益率
4.1.4 营销费用
4.2 派生变量
4.2.1 概化
4.2.2 比率
4.2.3 日期
4.3 变量归约
4.3.1 连续变量
4.3.2 类别变量
4.4 开发线性预测因子
4.4.1 连续变量
4.4.2 类别变量
4.5 相互作用检测
4.6 小结
第5章处理和评价模型
5.1 处理模型
5.1.1 分割数据
5.1.2 方法1：单模型
5.1.3 方法2：双模型——响应
5.1.4 方法2：双模型——激活
5.1.5 方法1与方法2的比较
5.2 小结
第6章验证模型
6.1 收益表与收益图
6.1.1 方法1：单模型
6.1.2 方法2：双模型
6.2 为备用数据集评分
6.3 重新采样
6.3.1 折叠
6.3.2 自引导
6.4 关键变量的十分位数分析
6.5 小结
第7章实施与维护模型
7.1 为新文件评分
7.1.1 内部评分
7.1.2 外部评分与审计
7.2 实施模型
7.2.1 计算机财务状况
7.2.2 决定文件分割点
7.2.3 卫冕者与挑战者
7.2.4 双模型矩阵
7.3 模型跟踪
7.4 模型维护
7.4.1 模型寿命
7.4.2 模型记录
7.5 小结
第三部分每个节日的菜肴配方
第8章了解你的客户：特征化和划分
8.1 为什么了解客户很重要
8.2 目录服务公司客户的特征化昨渗透分析
8.2.1 RFM分析
8.2.2 渗透分析
8.3 为信用卡公司开发客户价值矩阵
8.4 执行聚类分析以发现客户划分
8.5 小结
第9章定位新的潜在客户：响应建模
9.1 定义目标
9.2 准备变更
9.2.1 连续变量
9.2.2 类别变量
9.3 处理模型
9.4 用自引导验证
9.5 实现模型
9.6 小结
第10章避免高风险客户：风险建模
10.1 信用评分和风险建模
10.2 定义目标
10.3 准备变量
10.4 处理模型
10.5 验证模型
10.6 实现模型
10.7 另一种风险：欺诈
10.8 小结
第11章留信创利客户：流失建模
11.1 客户忠诚度
11.2 定义目标
11.3 准备变量
11.3.1 连续变量
11.3.2 类型变量
11.4 处理模型
11.5 验证模型
11.6 实现模型
11.6.1 建立流失客户特征
11.6.2 优化客户创利能力
11.6.3 提前保留客户
11.7 小结
第12章定位创利客户：生命周期价值建模
12.1 什么是生命周期价值
12.1.1 使用生命周期价值
12.1.2 生命周期价值的组成
12.2 生命周期价值的应用
12.3 为可续约产品或服务计算生命周期价值
12.4 计算机生命周期价值：案例研究
12.4.1 案例研究：第一年净收入
12.4.2 生命周期价值计算
12.5 小结
第13章快餐：Web建模
13.1 Web挖掘和Web建模
13.1.1 定义目标
13.1.2 Web数据源
13.1.3 准备Web数据
13.1.4 选择方法学
13.2 在Web上建立品牌
13.3 实时洞察客户
13.4 Web使用挖掘——案例分析
13.5 小结
附录A 连续变量的单变量分析
附录B 类别变量的单变量分析
附录C 推荐阅读教材