内容简介

数据挖掘:商业数据分析技术与实践》采用SAS公司的统计软件包JMPPro进行实践性应用,使用引人入胜的实际案例来构建关键数据挖掘方法(尤其是分类和预测的预测模型)的理论及其实践理解。《数据挖掘:商业数据分析技术与实践》所讨论的主题包括数据可视化、降维、聚类、线性和逻辑回归、分类和回归树、判别分析、朴素贝叶斯、人工神经网络、增量模型、集成算法以及时间序列预测等。

作者简介

盖丽特.徐茉莉博士是中国台湾清华大学服务科学研究所的特聘教授。自2004年以来,她在马里兰大学、Statistics.com、印度商学院和中国台湾清华大学设计并指导了数据挖掘课程。徐茉莉教授以她在商业分析领域的研究和教学而闻名,她的研究方向是在信息系统和医疗保健方面的统计和数据挖掘方法。她撰写了70篇期刊文章、书籍、教材和图书章节,包括Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner®(第三版)》。

彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘:概念、技术和应用程序XLMiner(第三版)》的合著者之一。

米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是NorthHavenGroup有限责任公司(一家统计培训和咨询公司)的创始成员。同时是另外三《数据挖掘:商业数据分析技术与实践》的合著者,包括由Wiley出版的《六西格玛可视化:更精益化的数据分析(第二版)》。

尼廷·帕特尔博士是位于马萨诸塞州剑桥市的Cytel有限公司的主席和联合创始人,美国统计协会会士,同时也是麻省理工学院和哈佛大学的客座教授。他是印度计算机学会会士,并在印度管理学院艾哈迈德巴德分校担任15年教授工作。他也是Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner(第三版)》的合著者之一。

目录

第一部分预备知识

1导论002

1.1什么是商业分析?002

1.2什么是数据挖掘?004

1.3数据挖掘及相关用语004

1.4大数据005

1.5数据科学006

1.6为什么会有这么多不同的方法?007

1.7术语和符号007

1.8《数据挖掘:商业数据分析技术与实践》框架009

2数据挖掘概述·013

2.1引言013

2.2数据挖掘的核心思想014

2.3数据挖掘步骤016

2.4初步步骤018

2.5预测能力和过拟合024

2.6用JMPPro建立预测模型029

2.7用JMPPro进行数据挖掘036

2.8自动化数据挖掘解决方案037



第二部分数据探索与降维

3数据可视化046

3.1数据可视化的用途046
3.2数据实例047
3.3基本图形:条形图、折线图和散点图049
3.4多维可视化056
3.5特殊可视化068
3.6基于数据挖掘目标的主要可视化方案和操作概要072
4降维076

4.1引言076
4.2维度灾难077
4.3实际考虑077
4.4数据汇总078
4.5相关分析082
4.6减少分类变量中的类别数量082
4.7将分类型变量转换为连续型变量084
4.8主成分分析084
4.9利用回归模型降维094
4.10利用分类和回归树降维094
第三部分性能评估

5评估预测效果·098

5.1引言098
5.2评价预测性能099

5.3评判分类效果101

5.4评判分类性能112

5.5过采样115

第四部分预测与分类方法

6多元线性回归·122

6.1引言122

6.2解释模型与预测模型123

6.3估计回归方程和预测124

6.4线性回归中的变量选择129

7k近邻法142

7.1k-NN分类(分类型结果变量)142

7.2数值型结果变量下的k-NN方法·147

7.3k-NN算法的优点和缺点149

8朴素贝叶斯分类器153

8.1引言153

8.2使用完全(精确)贝叶斯分类器155

8.3朴素贝叶斯方法的优点和缺点163

9分类和回归树·168

9.1引言168

9.2分类树169

9.3生成树172

9.4评估分类树的效果176

9.5避免过拟合178


9.6树中的分类准则181

9.7多分类的分类树182

9.8回归树182

9.9树的优点和缺点184

9.10预测方法的提高:组合多棵树186

9.11不纯度的提取和度量188

10逻辑回归193

10.1引言·193

10.2逻辑回归模型·195

10.3评价分类性能·202

10.4完整分析案例:预测航班延误·205

10.5附录:逻辑回归的概括·214

11神经网络225

11.1引言·225

11.2神经网络的概念和结构·226

11.3拟合数据·226

11.4JMPPro用户输入·240

11.5探索预测变量和响应变量的关系·242

11.6神经网络的优点和缺陷·243

12判别分析247

12.1引言·247

12.2观测值到类的距离·249

12.3从距离到倾向和分类·251

12.4判别分析的分类性能·254

12.5先验概率·255

12.6多类别分类·256

12.7优点和缺点·258


13组合方法:集成算法和增量模型263

13.1集成算法·263

13.2增量(说服)模型·268

13.3总结·274

第五部分挖掘记录之间的关系

14聚类分析280

14.1引言·280

14.2定义两个观测值之间的距离·284

14.3定义两个类之间的距离·288

14.4系统(凝聚)聚类·290

14.5非系统聚类:k-means算法·299

第六部分时间序列预测

15时间序列处理·310

15.1引言·310

15.2描述性与预测性建模·311

15.3商业中的主流预测方法·312

15.4时间序列的构成·312

15.5数据分割和性能评价·316

16回归预测模型·321

16.1趋势模型·321

16.2季节模型·327

16.3趋势和季节模型·330


16.4自相关和ARIMA模型331

17平滑法·350

17.1引言·350

17.2移动平均法·351

17.3简单指数平滑法·355

17.4高级指数平滑法·358

第七部分案例

18案例·372

18.1查尔斯图书俱乐部·372

18.2德国信贷·378

18.3太古软件编目·382

18.4政治说教·385

18.5出租车订单取消·388

18.6浴皂的消费者细分·390

18.7直邮筹款·393

18.8破产预测·395

18.9时间序列案例:预测公共交通需求·398

前言/序言

无论你选择什么职业或工作地点,你的未来肯定会被数据所包围。现代世界由几
十亿个键盘和数万亿个卡片刷头所发出的数据脉冲所构成,这些数据来自于电子设备和
系统的各种操作,并且能够在全球范围内迅速传播。数据量是难以用数量来衡量的。但
这并不在于你拥有多少数据,而是你用它做什么。把握住这个凌乱的数据世界并很好地
利用它,将会成为组织运作良好和职业生涯成功的关键,它不仅仅存在于硅谷、谷歌、
Facebook这些地方,也存在于保险公司、银行、汽车制造商、航空公司、医院等地方,
甚至可以说它几乎无处不在。

这就是《数据挖掘:商业数据分析技术与实践》(《数据挖掘:商业数据分析技术与实践》)所能给读者提供的。
Shmueli教授同她的合著者为学生们提供了这样一个非常有用的学习指南,其中涉及与复
杂数据集相关的重要概念和方法。《数据挖掘:商业数据分析技术与实践》作者具有多年的教学经验,为了跟上本科及研究
生商业分析课程中的变化,我们已经对早期的版本进行修订。最重要的是,新版本集成
了SAS研究所用于处理和分析数据的统计工具JMPPro.。学习分析方法的最终目的是通
过数据生成一些见解。通过强大的统计工具训练学习者敏捷的思维,是学习过程中必不
可少的关键一步。

如果你把目光放在引领数字世界,那么《数据挖掘:商业数据分析技术与实践》将会是你为未来做准备的开始。

MichaelRappa

高级分析研究所

北卡罗来纳州立大学


其他推荐