内容简介
《数据挖掘:商业数据分析技术与实践》采用SAS公司的统计软件包JMPPro进行实践性应用,使用引人入胜的实际案例来构建关键数据挖掘方法(尤其是分类和预测的预测模型)的理论及其实践理解。《数据挖掘:商业数据分析技术与实践》所讨论的主题包括数据可视化、降维、聚类、线性和逻辑回归、分类和回归树、判别分析、朴素贝叶斯、人工神经网络、增量模型、集成算法以及时间序列预测等。作者简介
盖丽特.徐茉莉博士是中国台湾清华大学服务科学研究所的特聘教授。自2004年以来,她在马里兰大学、Statistics.com、印度商学院和中国台湾清华大学设计并指导了数据挖掘课程。徐茉莉教授以她在商业分析领域的研究和教学而闻名,她的研究方向是在信息系统和医疗保健方面的统计和数据挖掘方法。她撰写了70篇期刊文章、书籍、教材和图书章节,包括Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner®(第三版)》。
彼得.布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘:概念、技术和应用程序XLMiner(第三版)》的合著者之一。
米娅·斯蒂芬斯是SAS/JMP®的学术顾问。在加入SAS公司之前,她曾是新罕布什尔大学的统计学兼职教授,也是NorthHavenGroup有限责任公司(一家统计培训和咨询公司)的创始成员。同时是另外三《数据挖掘:商业数据分析技术与实践》的合著者,包括由Wiley出版的《六西格玛可视化:更精益化的数据分析(第二版)》。
尼廷·帕特尔博士是位于马萨诸塞州剑桥市的Cytel有限公司的主席和联合创始人,美国统计协会会士,同时也是麻省理工学院和哈佛大学的客座教授。他是印度计算机学会会士,并在印度管理学院艾哈迈德巴德分校担任15年教授工作。他也是Wiley出版的《商业数据挖掘:概念、技术和应用程序XLMiner(第三版)》的合著者之一。目录
第一部分预备知识
1导论002
1.1什么是商业分析?002
1.2什么是数据挖掘?004
1.3数据挖掘及相关用语004
1.4大数据005
1.5数据科学006
1.6为什么会有这么多不同的方法?007
1.7术语和符号007
1.8《数据挖掘:商业数据分析技术与实践》框架009
2数据挖掘概述·013
2.1引言013
2.2数据挖掘的核心思想014
2.3数据挖掘步骤016
2.4初步步骤018
2.5预测能力和过拟合024
2.6用JMPPro建立预测模型029
2.7用JMPPro进行数据挖掘036
2.8自动化数据挖掘解决方案037
第二部分数据探索与降维
3数据可视化046
3.1数据可视化的用途046
3.2数据实例047
3.3基本图形:条形图、折线图和散点图049
3.4多维可视化056
3.5特殊可视化068
3.6基于数据挖掘目标的主要可视化方案和操作概要072
4降维076
4.1引言076
4.2维度灾难077
4.3实际考虑077
4.4数据汇总078
4.5相关分析082
4.6减少分类变量中的类别数量082
4.7将分类型变量转换为连续型变量084
4.8主成分分析084
4.9利用回归模型降维094
4.10利用分类和回归树降维094
第三部分性能评估
5评估预测效果·098
5.1引言098
5.2评价预测性能099
5.3评判分类效果101
5.4评判分类性能112
5.5过采样115
第四部分预测与分类方法
6多元线性回归·122
6.1引言122
6.2解释模型与预测模型123
6.3估计回归方程和预测124
6.4线性回归中的变量选择129
7k近邻法142
7.1k-NN分类(分类型结果变量)142
7.2数值型结果变量下的k-NN方法·147
7.3k-NN算法的优点和缺点149
8朴素贝叶斯分类器153
8.1引言153
8.2使用完全(精确)贝叶斯分类器155
8.3朴素贝叶斯方法的优点和缺点163
9分类和回归树·168
9.1引言168
9.2分类树169
9.3生成树172
9.4评估分类树的效果176
9.5避免过拟合178
9.6树中的分类准则181
9.7多分类的分类树182
9.8回归树182
9.9树的优点和缺点184
9.10预测方法的提高:组合多棵树186
9.11不纯度的提取和度量188
10逻辑回归193
10.1引言·193
10.2逻辑回归模型·195
10.3评价分类性能·202
10.4完整分析案例:预测航班延误·205
10.5附录:逻辑回归的概括·214
11神经网络225
11.1引言·225
11.2神经网络的概念和结构·226
11.3拟合数据·226
11.4JMPPro用户输入·240
11.5探索预测变量和响应变量的关系·242
11.6神经网络的优点和缺陷·243
12判别分析247
12.1引言·247
12.2观测值到类的距离·249
12.3从距离到倾向和分类·251
12.4判别分析的分类性能·254
12.5先验概率·255
12.6多类别分类·256
12.7优点和缺点·258
13组合方法:集成算法和增量模型263
13.1集成算法·263
13.2增量(说服)模型·268
13.3总结·274
第五部分挖掘记录之间的关系
14聚类分析280
14.1引言·280
14.2定义两个观测值之间的距离·284
14.3定义两个类之间的距离·288
14.4系统(凝聚)聚类·290
14.5非系统聚类:k-means算法·299
第六部分时间序列预测
15时间序列处理·310
15.1引言·310
15.2描述性与预测性建模·311
15.3商业中的主流预测方法·312
15.4时间序列的构成·312
15.5数据分割和性能评价·316
16回归预测模型·321
16.1趋势模型·321
16.2季节模型·327
16.3趋势和季节模型·330
16.4自相关和ARIMA模型331
17平滑法·350
17.1引言·350
17.2移动平均法·351
17.3简单指数平滑法·355
17.4高级指数平滑法·358
第七部分案例
18案例·372
18.1查尔斯图书俱乐部·372
18.2德国信贷·378
18.3太古软件编目·382
18.4政治说教·385
18.5出租车订单取消·388
18.6浴皂的消费者细分·390
18.7直邮筹款·393
18.8破产预测·395
18.9时间序列案例:预测公共交通需求·398
前言/序言
无论你选择什么职业或工作地点,你的未来肯定会被数据所包围。现代世界由几
十亿个键盘和数万亿个卡片刷头所发出的数据脉冲所构成,这些数据来自于电子设备和
系统的各种操作,并且能够在全球范围内迅速传播。数据量是难以用数量来衡量的。但
这并不在于你拥有多少数据,而是你用它做什么。把握住这个凌乱的数据世界并很好地
利用它,将会成为组织运作良好和职业生涯成功的关键,它不仅仅存在于硅谷、谷歌、
Facebook这些地方,也存在于保险公司、银行、汽车制造商、航空公司、医院等地方,
甚至可以说它几乎无处不在。
这就是《数据挖掘:商业数据分析技术与实践》(《数据挖掘:商业数据分析技术与实践》)所能给读者提供的。
Shmueli教授同她的合著者为学生们提供了这样一个非常有用的学习指南,其中涉及与复
杂数据集相关的重要概念和方法。《数据挖掘:商业数据分析技术与实践》作者具有多年的教学经验,为了跟上本科及研究
生商业分析课程中的变化,我们已经对早期的版本进行修订。最重要的是,新版本集成
了SAS研究所用于处理和分析数据的统计工具JMPPro.。学习分析方法的最终目的是通
过数据生成一些见解。通过强大的统计工具训练学习者敏捷的思维,是学习过程中必不
可少的关键一步。
如果你把目光放在引领数字世界,那么《数据挖掘:商业数据分析技术与实践》将会是你为未来做准备的开始。
MichaelRappa
高级分析研究所
北卡罗来纳州立大学