OliviaParrRud是DataSquare,LLC的执行副总裁。Olivia在金融服务行业已经工作了二十多年,其中10年专门从事信用卡、保险、电信、零售、度假业、名录服务行业的数据挖掘、建模和划分工作。利用自己分析能力与创造才华,她提供客户获取、模型维护、风险、总盈利等方面的分析和解决方案。本书详细介绍了一种新的数据挖掘技术—数据建模,并着重阐述整个模型开发过程的细节。本书包括三个部分。第一部分讲述了基础知识,内容涉及确定目标和从商业预测中定义目标的重要性,并给出了收集数据和创建数据集的例子。第二部分通过一实例详甸阐述了模型开发的整个过程。第三部分通过应用于保险业、银行、电信行业的实例详细说明了不同目标的数据建模过程中的几个关键步骤。本书将数据挖掘的技艺用饮食烹调的思?爰右在故停子诶斫猓阌诮邮堋J橹懈龅闹诙嗍道浞痔逑至俗髡叨嗄甑男幸稻椋缘鼻暗氖谐∮涂突Ч叵倒芾斫>哂屑训慕杓饔谩1臼槭屎暇哂幸欢ǖ耐臣坪头治鼋;〉亩琳咴亩粒勺魑治鍪Α⑹萃诰蛉嗽薄⒂淼墓ぷ魇植幔部勺魑扑慊喙刈ㄒ档谋究粕芯可滩幕虿钩涠廖铩?"什么是数据挖掘数据挖掘(datamining)这个术语涵盖了应用于各个行业的多种技术。由于市场份额和利润竞争的日趋激烈,数据挖掘成为公司在客户生命周期的各个阶段维持竞争力的必要工具。过去,数据挖掘的形式之一也称为数据捕捞(datadredging)。这种方法曾被认为没有达到合格的研究标准。也就是说,研究人员实际上可能没有作任何预定义的假设就开始研究所有的数据。然而,由于这种形式的数据挖掘确实可以发现有价值的信息,所以它开始被广为接受。在美国的公司里,如果有一种方法可以发现如何提高利润,那么人们会迅速地接受、信赖它。20世纪80年代末至90年代初,另一种形式的数据挖掘开始在营销领域流行起来。几个技术领先的信用卡银行发现,有一种新的称为数据建模(datamodeling)的数据挖掘技术可以提高获得客户的能力,改进风险管理。大量的活动和空前的增长为数据建模的繁荣发展提供了肥沃的土壤。数据建模的成功和它所带来的利润为它在其他行业的应用铺平了道路。目前,使用数据建模技术进行营销的行业包括保险业、零售业、投资银行、公共事业部门、电信业、能源业、度假业、游戏业和药品行业等等。本书的重点许多统计理论的书都谈到了数据建模技术。但本书并不是那样的一本书!本书讨论的重点是在营销、风险和客户关系管理(CRM)中使用这些技术所需的实践知识。大部分公司都被数据挖掘软件工具?闹掷嗪凸δ芘醚刍ㄧ月摇H砑潭忌扑堑娜砑恰耙子谑褂谩焙汀拔扌枞魏畏治黾寄堋钡摹5牵颐且言诒玖煊蚬ぷ鞫嗄辏勒庑┕愀媸遣蛔阄诺摹H魏谓O钅康某晒Σ唤鼋鋈【鲇诙杂诜椒ㄑУ牧己美斫猓谷【鲇诙允荨⑹谐「驼迳桃的勘甑睦斫狻J率瞪希杂谡龉潭裕P痛砉讨皇瞧渲械囊恍〔糠帧?本书将着重阐述整个模型开发的过程。讨论的内容包括对商业或市场的预测,以及处理过程中所需的复杂的SAS代码。这是为了强调实际模型处理过程之前与之后的步骤的重要性。本书的读者随着数据挖掘应用的飞速发展,对资深分析师和数据挖掘师的需求也增加了。但是,由于此类人才短缺,公司便雇用有才华的统计学家或初级分析师,他们懂技术,但是缺乏必要的商业敏感性。公司也可能会购买复杂的数据挖掘软件工具,这些工具所提供的解决方案对分析技术知识,或者与目标相关的业务知识都知之甚少。不管是哪种情况,都有可能缺乏某些领域的知识,如定义目标的结构,获取和准备数据,确认和应用模型以及测量结果等。任何一个领域的错误都可能是灾难性的,会造成巨大的浪费。本书可作为不同级别的分析师、数据挖掘人员和营销经理的工作手册。本书提供了数据建模的逐步指导,尤其强调了必要的商业知识,以得到有益的结果。对于那些数据挖掘的初学者,本书可作为整个过程的综合指导。对于经验丰富的分析师而言,本书可以作为参考手册。最后,对于管理人员而言,阅读本书可以对成功运用数据模型所需的技术与过程有基本的了解。本书的结构本书分为三个部分。第一部分讲述基础知识。第1章讨论了确定目标和从商业角度定义目标的重要性。第2章讨论并提供了大量的例子,其中包括收集数据和创建建模数据集。第二部分通过一个案例研究,详细阐述了模型开发过程的每个步骤。第3章-第7章讨论了数据清洗、变量归约和转换、模型处理、验证、实施的步骤。第三部分提供一系列的案例研究,这些案例分别应用于保险业、银行、电信等行业,详细说明了不同目标的数据建模过程的几个关键步骤,包括特征、响应、风险和生命周期值。随着本书对模型开发步骤的深入探讨,作者加进了几位业内专家的合理建议,他们都是数据挖掘领域的先锋。这些建议对某个主题提出了不同看法,如多重共线性,建立生命周期值模型的其他方法等。所需工具要使用本书提供解决方案,读者要对统计学有基本的了解。如果你的目标是要得到管理层数据建模的使用建议,则需要进行准确的商业判断。本书所有的代码示例都是用SAS写的,为了在SAS上实现这些代码,用户需要BaseSAS和SAS/STAT。电子数据表都是用微软的Excel做成的。但是,基本的逻辑和指令对所有的软件包和建模工具都是有效的。配套光盘本书从第3章—第13章都包含了开发、验证和实施数据模型的SAS代码。对这些代码稍做修改,再加上一些常识,就能够从数据准备阶段到模型的开发与验证阶段建立一个模型。但是,这样需要大量的时间,还有可能出现编码错误。为了简化这项工作并使代码更容易地用于不同的数据模型,原出版社出版了配套光盘,但需要读者另行购买。光盘里包括了开发不同模型所需的全部代码,模型包括:响应、验证、流失、风险、生命周期值或净现值。开发目标函数的具体代码包括信用卡、保险、电信、名录服务的例子。代码中有清楚的注释,解释了每一个步骤的目的与方法,所需要的软件是BaseSAS和SAS/STAT。用于创建收益表和增幅图的电子数据表也包含在光盘中。通过SAS创建的初步分析结果可以得到这些表并加以使用。既然模型处理前后的步骤可以结合任何数据模型软件包来使用,代码自然也可以作为独立的建模模板。模型处理步骤重点在于逻辑递归上的数据准备。光盘上还包括用于变量验证和处理的SAS宏。本书没有涵盖的内容一本数据挖掘的书如果没有提到隐私权,那么就不能算是完整。我相信这是数据挖掘工作者的一项重要的工作。关于这个话题,可以再写一本书。所以,本书中没有谈到这一点。但是,我希望所有使用个人数据进行营销的公司都能制订一项隐私权的法规。要获得更进一步的信息和指导,请与DirectMarketingAssociation联系,电话(212)790-1500,或者访问他们的网站http://www.the-dma.org。小结有效的数据挖掘是科学与艺术的复杂混合体。数据挖掘工具的数量每年都在增长。研究人员不断开发新方法,软件厂商实现现有的方法,才华横溢的分析师则利用标准技术来推进过程。数据挖掘(说得具体一点,数据建模)已经成为公司维持利润的战略必备工具。希望本书可以成为你实现数据挖掘目标时方便的参考和恰当的向导。"