编辑推荐

“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。

从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!

内容简介

《如虎添翼!数据处理的SPSS和SASEG实现(第2版)》作为SASEG和SPSS数据处理比较的首本实战中文教材,《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SASEG和SPSS的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》除讲解软件操作,还同时介绍了对应菜单操作的SAS程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS程序处理数据的大门。

《如虎添翼!数据处理的SPSS和SASEG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。

作者简介

经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。

经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDACLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。

徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。

常国珍,北京大学商学博士,法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师,Oracle大数据讲师,多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究,兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。

丁亚军,曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监,经管之家数据分析研究院数据分析师。主要从事市场调查,数据挖掘咨询等市场客户行为方面的数据分析工作,比较熟悉SAS、SPSS两款软件。

目录

第1章软件入门介绍..1

1.1SASEG介绍..2

1.1.1SASEG简介.2

1.1.2SASEG的窗口及菜单.3

1.2SPSS介绍.4

1.2.1SPSS简介..4

1.2.2SPSS窗口及菜单5

1.3数据挖掘的流程介绍.9

1.3.1KDD介绍9

1.3.2CRISP-DM..10

1.3.3SEMMA.11

1.3.4三种数据挖掘流程的比较..11

1.4课后练习.11

第2章使用数据..12

2.1通过SAS逻辑库访问数据..13

2.1.1商业背景..13

2.1.2SAS相关功能介绍..13

2.1.3EG菜单解决方案.14

2.1.4SAS程序实现.15

2.1.5SPSS菜单解决方案..16

2.2理解SAS与SPSS数据集的定义19

2.2.1理解数据集的含义..19

2.2.2商业背景..19

2.2.3SAS与SPSS相关概念介绍..19

2.2.4EG菜单解决方案.25

2.2.4SAS程序实现.26

2.2.5SPSS菜单解决方案28

2.3导入其他格式的数据文件30

2.3.1商业背景..30

2.3.2SAS相关功能介绍..30

2.3.3EG菜单解决方案.31

2.3.4SAS程序实现.33

2.3.5SPSS菜单解决方案35

2.4数据来源.36

2.4.1直接来源..36

2.4.2间接来源..37

2.5扩展阅读.37

2.6课后练习.38

第3章探索性数据分析及数据的清理39

3.1探索性数据分析.40

3.1.1基本理论讲解.40

3.1.2EG菜单解决方案.40

3.1.3SPSS菜单解决方案44

3.2数据清理介绍..54

3.2.1商业背景..54

3.2.2需要清理的数据类型.55

3.3类别变量的清理.57

3.3.1EG菜单解决方案.57

3.3.2SAS程序实现.61

3.3.3SPSS菜单解决方案62

3.4数值型变量的清理66

3.4.1EG菜单解决方案.66

3.4.2SAS程序实现.70

3.4.3SPSS菜单解决方案71

3.5正态分布的验证.75

3.5.1商业背景..75

3.5.2相关理论介绍.75

3.5.3EG菜单解决方案.75

3.5.4SAS程序实现.78

3.5.5SPSS菜单解决方案80

3.6扩展阅读.83

3.7课后练习.84

第4章数据的行处理.85

4.1数据筛选.86

4.1.1商业背景..86

4.1.2相关理论介绍.86

4.1.3EG菜单解决方案.86

4.1.4SAS程序实现.88

4.1.5SPSS菜单解决方案93

4.2排序与求秩94

4.2.1商业背景..94

4.2.2理论介绍..95

4.2.3EG菜单解决方案.95

4.2.4SAS程序实现..101

4.2.5SPSS菜单解决方案.103

4.3抽样105

4.3.1商业背景105

4.3.2抽样理论介绍..105

4.3.3EG菜单解决方案..108

4.3.4SAS程序实现..110

4.3.5SPSS菜单解决方案.111

4.4数据分组和汇总..111

4.4.1商业背景111

4.4.2EG菜单解决方案..111

4.4.3SAS程序实现..113

4.4.4SPSS菜单解决方案.113

4.5扩展阅读..115

4.6课后练习..115

第5章数据的列处理..116

5.1计算新变量.117

5.1.1商业背景117

5.1.2EG菜单解决方案..117

5.1.3SPSS菜单解决方案.120

5.2拆分列..123

5.2.1商业背景123

5.2.2EG菜单解决方案..123

5.2.3SPSS菜单解决方案.125

5.3堆叠列..128

5.3.1商业背景128

5.3.2EG菜单解决方案..129

5.3.3SPSS菜单解决方案.131

5.4转置列..136

5.4.1商业背景136

5.4.2EG菜单解决方案..136

5.4.3SAS程序实现..138

5.4.4SPSS菜单解决方案.139

5.5函数及运算符的使用140

5.5.1运算符.140

5.5.2SAS函数142

5.5.3常用SPSS函数与SAS函数的对应关系150

5.6对列重编码.151

5.6.1商业背景介绍..151

5.6.2EG菜单解决方案..151

5.6.3SAS程序实现..155

5.6.4SPSS菜单解决方案.157

5.7标准化..158

5.7.1商业背景158

5.7.2相关理论介绍..159

5.7.3EG菜单实现.159

5.7.4SAS实现程序..161

5.7.5SPSS菜单解决方案.162

5.8扩展阅读..163

5.9课后练习..163

第6章数据集的操作..164

6.1纵向连接..165

6.1.1商业背景165

6.1.2相关的理论165

6.1.3EG菜单解决方案..165

6.1.4SAS程序实现..168

6.1.5SPSS菜单解决方案.172

6.2横向连接..174

6.2.1商业背景174

6.2.2相关理论介绍..174

6.2.3EG菜单解决方案..174

6.2.4SAS程序实现..178

6.2.5SPSS菜单解决方案.182

6.3数据集的比较183

6.3.1商业背景介绍..183

6.3.2相关理论介绍..183

6.3.3EG菜单解决方案..183

6.3.4SAS程序实现..186

6.3.5SPSS菜单解决方案.187

6.4创建格式..191

6.4.1商业背景191

6.4.2相关理论介绍..191

6.4.3EG菜单解决方案..193

6.4.4SAS程序实现..196

6.5删除数据集和格式.197

6.5.1EG菜单解决方案..197

6.5.2SAS程序实现..198

6.6扩展阅读..198

6.7课后练习..199

第7章数据的展示:图形及报告的编制200

7.1数据可视化与图表.201

7.1.1商业背景201

7.1.2相关理论介绍..201

7.1.3EG菜单解决方案..204

7.1.4SPSS菜单解决方案.207

7.2创建Listing报表.208

7.2.1商业背景208

7.2.2相关理论介绍..208

7.2.3EG菜单解决方案..209

7.2.4SAS程序实现..212

7.2.5SPSS菜单解决方案.213

7.3扩展阅读..216

7.4课后练习..216

第8章在SASEG中使用提示和条件处理..217

8.1提示与宏变量218

8.1.1商业背景218

8.1.2相关的理论介绍.218

8.1.3EG菜单解决方案..219

8.2条件处理..223

8.2.1商业背景223

8.2.2EG菜单解决方案..223

8.3扩展阅读..227

第9章在SASEG中使用程序..228

9.1如何在SASEG中使用程序229

9.2SAS程序231

9.2.1SAS语言元素..231

9.2.2DATA步.232

9.2.3PROC步.233

9.2.4SAS的模块介绍(图9-9).234

9.3扩展阅读..234

第10章SQL语言基础与MySQL入门.235

10.1SQL语言概况与MySQL的安装236

10.1.1SQL语言概况236

10.1.2MySQL安装..237

10.1.3MySQL内创建数据库.238

10.2查询语句238

10.2.1简单查询并对数据过滤与排序..240

10.2.2用表达式创建新列.241

10.2.3对列重编码.242

10.2.4在查询中对数据分组和汇总243

10.2.5表的横向连接和子查询..244

10.2.6子查询..250

10.2.7集合操作语句251

10.3创建表或视图.252

10.3.1创建表..252

10.3.2创建视图.252

附录ASASEG菜单对应关系254

附录BSPSS菜单对应关系表256

附录CSAS和SPSS关键术语、命令对应关系258

附录DCDA数据分析师致力于最好的数据分析人才建设.261

参考文献265

精彩书摘

需要清理的数据类型

缺失值(Missing)

〈1〉缺失值的来源

在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。

〈2〉缺失值的处理方式

?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;

人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;

使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;

单独作为一类。

〈3〉缺失值在SAS中的表现方式

?数值型的为“.”;

?字符型的缺失值为空。

异常值

〈1〉异常值(Outlier)

异常值也称为离群值、极端值(Extreme)。

明显偏大或偏小的值,异常值不一定为错误值。

〈2〉识别异常值的常用方法有三种:

第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。

第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。

第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。

〈3〉箱线图(BoxPlot)

箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.

〈4〉异常值的处理方法

大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析

无效值(Invalid)

在录入时导致的错误,比如性别在录入时F代表女,M代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。

数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。

无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。

?数据的重复值(Duplicate)

对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。

前言/序言

感谢您选择“CDA数据分析师”LevelI学习系列丛书之《如虎添翼!数据处理的SPSS和SASEG实现(第2版)》。

该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》《从零进阶!数据分析的统计基础(第2版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS和SASEG实现(第2版)》中利用SASEG、SPSS和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS和SASEG进阶(第2版)》中进行了详细的讲解和操作分析。

CDA数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。

读者对象

作为丛书中的一本,《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》上承基础理论部分,下启最终建模及案例分析。《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》将关注点集中到数据的探索及预处理上,通过《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。

阅读指南

对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbagein,garbageout”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。

数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SASEG、SPSS的菜单操作中,并配以SAS程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS语言完成相对复杂的数据处理要求。

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》共分为10章:

第1章介绍了SASEG、SPSS软件,并介绍了三种常见的数据分析流程;

第2章介绍了如何通过多种方式使SASEG、SPSS可以轻松地访问多种形式的外部数据;

第3章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数值数据进行清理;

第4章、第5章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等;

第6章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等;

第7章讲解了数据的可视化及图表、报告的编制方法;

第8章、第9章介绍了如何在SASEG中运用提示、程序等来提高数据处理效率;

第10章介绍了SQL语言基础和MySQL入门。各部分相互独立,读者可以根据自己的需要选择性阅读。《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》在第1版的基础上,新增了第10章,其他各章分别对应加入了SPSS的操作。

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》特点

1.关于SASEG模块和SPSS实现功能比较的首本实战中文教材,通过比较,读者能更快掌握这两个应用最广、功能最强大的统计软件;

2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;

3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;

4.《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》除讲解软件操作,还同时介绍了各种操作的SAS语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS处理数据的大门。

学习方法

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》在编写上力求从读者的实战角度出发,每章基本上分为五部分:

1.商业背景的介绍;

2.相关的理论介绍;

3.EG软件的解决方案;

4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;

5.SPSS菜单解决方案;

6.扩展阅读,对于想深入学习SAS编程、数据准备的读者,进一步介绍了相关的学习内容及方向。

读者可以根据自己的需要来阅读,《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》的菜单操作部分以SASEenterpriseguide5.1,SPSS22为例进行示范,代码部分以SAS9.3为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。

售后服务

为方便读者学习,《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》提供了书中实例的源文件下载,请读者进经管之家(http://bbs.pinggu.org/),注册后搜索“CDA教材源文件”关键词下载相应的源文件。

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》读者可以在经管之家的“数据挖掘与商业智能(http://bbs.pinggu.org/forum-133-1.html)”就书中的问题进行提问,也欢迎读者就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为xuxiaog_2003@163.com。

致谢

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》由经管之家主编,徐筱刚、常国珍、丁亚军负责编写和完成统稿。

丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、张童、王静等多位编辑的心血,特在此表示衷心地感谢!

为保证丛书的质量,使其更贴近读者,我们组织了经管之家的多位版主和高级会员参与了《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》第1版和第2版的预读工作,第1版是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军;第2版是关继杰、殷子涵、种法辉。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了第1版的预读工作和审校工作。

尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》再次印刷时修正。

再次感谢您的支持!


其他推荐