书海网短评:
适读人群:营销经理人、风险建模人员、顾客关系管理人员、数据库管理人员、及有志成为数据分析师的人士《SPSSModeler+Weka数据挖掘从入门到实战》采用理论与软件实操双向并行的策略。在理论上,尽量用
《SPSSModeler+Weka数据挖掘从入门到实战》采用理论与软件实操双向并行的策略。
在理论上,尽量用例子来说明数据挖掘算法背后的理论及意义,避免过度艰涩的数学公式及推导,以求读者能用*简单的方式掌握理论精髓。
在软件实操上,则以各领域的实用案例为基础,逐步将软件的功能引出,以求读者能了解软件各部功能的使用技巧。
《SPSS Modeler+Weka数据挖掘从入门到实战》是一本面向商业数据挖掘建模分析人员的教材,从具体的商业数据分析案例入手,帮助读者掌握数据挖掘的目的、方法、工具与分析步骤。《SPSS Modeler+Weka数据挖掘从入门到实战》所采用的分析工具为目前颇受好评的IBMSPSSModeler及开源软件Weka。IBMSPSSModeler有很好的用户接口,也有不错的分析功能,但缺乏比较前沿的分析模块,以及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,适合初学者。《SPSS Modeler+Weka数据挖掘从入门到实战》具体内容由四位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。力图将复杂的技术以浅显的方式进行解释,尽量避免涉及过多的数学内容。
李御玺,国立台湾大学资讯工程博士,其研究领域专注于数据仓库、数据挖掘、与文本挖掘。近年来有项目合作的公司包括台新国际商业银行、台湾新光商业银行、台湾联邦商业银行、远东国际商业银行、第YI银行、中国中信银行、美商大都会人寿保险公司、新光人寿保险公司、赫莲娜(HR)化妆品公司、特力和乐(HOLA)、中华航空公司、中国东方航空公司、福特六和(Ford)汽车公司等。李博士在其相关研究领域已发表超过260篇以上的研究论文。他同时也是国科会与教育部多个相关研究计划的主持人。
唐绍祖,CDA数据分析师教研团队成员,CDA深圳地区教研负责人。经管之家栏目《老司机带你上高速——玩转SPSS》系列原创者。长期从事CDA数据分析就业班的教研辅导工作,擅长使用Excel、PowerBI、MySQL、SPSS以及SPSSModeler进行数据分析与数据可视化工作,同时熟练掌握SAS、R和Python等数据分析工具。
马伯,哈尔滨工业大学数字影视媒体技术学士。现就职于经管之家CDA数据分析研究院,从事互联网、电子商务方向数据分析与数据挖掘的研究与CDA数据分析师的教学工作,研究方向为文本挖掘、电商推荐系统开发、潜在价值客户挖掘,互联网大数据挖掘等。
曾珂,华中师范大学管理科学工程硕士,现为某互联网金融公司数据产品经理,4年数据分析、数据挖掘相关项目与工作经验,曾经担任华为、国家电网等企业内训课程讲师。以企业客户画像、金融风险建模、客户价值预测、数据可视化为主要研究方向。
第1篇理论篇
第1章数据挖掘简介...................................................................................1
1.1数据挖掘的起源、定义及目标.......................................................................................2
1.2数据挖掘的发展历程.......................................................................................................2
1.3SPSSModeler和Weka基础操作....................................................................................4
1.3.1SPSSModeler软件简介.......................................................................................4
1.3.2建立一个SPSSModeler项目..............................................................................5
1.3.3Weka软件环境简介.............................................................................................8
1.3.4Weka简单操作实例.............................................................................................9
第2章数据挖掘方法论..............................................................................15
2.1数据挖掘方法论.............................................................................................................16
2.1.1CRISP-DM..........................................................................................................16
2.1.2SEMMA..............................................................................................................16
2.2数据库中的知识挖掘步骤.............................................................................................17
2.2.1字段选择.............................................................................................................17
2.2.2数据清洗.............................................................................................................18
2.2.3字段扩充.............................................................................................................18
2.2.4数据编码.............................................................................................................19
2.2.5数据挖掘.............................................................................................................20
2.2.6结果呈现.............................................................................................................21
2.3案例:运用SPSSModeler和Weka做客户的信用风险评分模型.............................22
2.3.1案例说明.............................................................................................................22
2.3.2案例实操.............................................................................................................23
2.3.3运用SPSSModeler进行初步的数据挖掘........................................................28
2.3.4运用Weka进行数据汇入..................................................................................34
2.3.5Weka自有数据存储格式arff简介...................................................................36
第3章基本的数据挖掘技术......................................................................38
3.1描述性统计.....................................................................................................................39
3.1.1案例:通过数据判断客户是否需要新增电话线路.........................................39
3.1.2案例:运用描述性统计分析杂志社的客户特征.............................................40
3.2可视化技术.....................................................................................................................42
3.3KNN原理及实例...........................................................................................................44
3.3.1KNN(K最近邻)算法.....................................................................................44
3.3.2使用KNN算法计算距离..................................................................................45
3.3.3案例:使用KNN算法向用户推荐电影...........................................................49
3.4案例:运用Weka的KNN算法对诊断结果进行预测.....................................................52
3.4.1案例说明.............................................................................................................52
3.4.2运用Weka中的IBk模型进行预测..................................................................53
3.5案例:运用SPSSMo
前言
感谢您选择《SPSSModeler+Wake数据挖掘从入门到实战》。《SPSS Modeler+Weka数据挖掘从入门到实战》内容源于李御玺教授的数据挖
掘相关课程讲义,讲义历经多次修改,逐渐适合作为数据挖掘实用教材,并在获得学员们的高度评
价后再被编辑成书。《SPSS Modeler+Weka数据挖掘从入门到实战》的另一位作者常国珍也长期活跃在数据挖掘的项目实施和培训中,2014年
其与李教授相识,并与李教授对出版《SPSS Modeler+Weka数据挖掘从入门到实战》之事一拍即合。
读者对象
《SPSS Modeler+Weka数据挖掘从入门到实战》的撰写采取了算法与软件实操双向并行的策略。在理论上,《SPSS Modeler+Weka数据挖掘从入门到实战》尽量用例子来说明数据挖
掘算法背后的理论及意义,避免艰涩的数学公式,以求读者能用最简单的方式理解理论的精髓。在
软件实操上,《SPSS Modeler+Weka数据挖掘从入门到实战》以各领域的实用案例为基础,逐步地将软件的功能引出,以求读者能了解软件功
能的使用场景。有了坚实的理论基础及软件操作能力,再辅之以众多的实用案例,《SPSS Modeler+Weka数据挖掘从入门到实战》的读者就能
逐步进入多姿多彩的数据挖掘世界。《SPSS Modeler+Weka数据挖掘从入门到实战》是以读者第一次接触数据挖掘为前提来撰写的。读者若有
数据库、统计及计算机基础,则学习起来会较为轻松。
工具介绍
IBMSPSSModeler可谓商业数据挖掘领域的“重型武器”,其功能全面、算法安全可靠、追求执
行效率与操作上的简单易用,并被广泛运用于许多企业中。其缺点是缺乏前沿的分析模块及很难与
现有的信息系统结合,而开源软件Weka恰能弥补其不足。Weka简单好用,拥有许多前沿的分析模
块并易于与现有的信息系统整合。其缺点是在数据预处理部分,便利性不如IBMSPSSModeler简单、
易用。这两个软件对初入数据分析领域的读者而言是很好的入门工具。
阅读指南
《SPSS Modeler+Weka数据挖掘从入门到实战》分为15章。第1章介绍数据挖掘的起源及应用。同时说明如何建立一个SPSSModeler及
Weka的项目。第2章介绍数据挖掘的方法论CRIPS-DM。同时说明如何将数据汇入SPSSModeler
及Weka的项目中,并做初步的数据探索。第3章介绍基本的数据挖掘技术。同时说明如何利用SPSS
Modeler及Weka建立KNN模型并进行分类预测。第4章介绍数据挖掘的进阶技术、数据挖掘技术
的绩效增益及两个重要的数据挖掘网站。第5章详细介绍数据预处理技术,同时说明如何利用SPSS
Modeler,针对银行的信用风险评估数据,进行数据预处理。第6章介绍如何有效地挖掘对项目有帮
助的关键变量。同时说明如何利用SPSSModeler及Weka,挖掘有效变量。第7至15章则为数据挖
掘模型的介绍。这些模型均为热门且应用最为广泛的模型。对于每个模型的介绍,先以实例说明其
理论,随后以实用的案例介绍如何在SPSSModeler及Weka中操作,让每个读者充分了解每个模型
的实际运用效果。
如果时间允许,则读者可以采取通读《SPSS Modeler+Weka数据挖掘从入门到实战》内容并按照示例进行操作的方式,但是这样效率可能
不高。更高效的方法是结合工作中遇到的问题,先集中精力把书上的示例操练好,然后带入工作中
的实际数据实现同样的算法,最后修改部分设置,以满足工作中的特定需求。
《SPSS Modeler+Weka数据挖掘从入门到实战》特点
《SPSS Modeler+Weka数据挖掘从入门到实战》作为市场上为数不多的理论与软件实操相结合并面向商业数据挖掘的书籍,和其他统计软
件图书有很大的不同,《SPSS Modeler+Weka数据挖掘从入门到实战》结构新颖,案例贴近实际,讲解深入透彻。
场景式设置
《SPSS Modeler+Weka数据挖掘从入门到实战》从银行、电信、零售、医疗等行业中精心归纳、提炼出各类数据挖掘案例,方便读者搜寻
与实际工作相似的问题。
启发式描述
《SPSS Modeler+Weka数据挖掘从入门到实战》注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现规
律、总结规律和运用规律,从而启发读者快速找出问题的解决方法。
售后服务
尽管作者们对书中的案例精益求精,但疏漏之处在所难免,如果发现书中的错误或某个案例有
更好的解决方案,则敬请与《SPSS Modeler+Weka数据挖掘从入门到实战》作者联系,作者邮箱为leeys@mail.mcu.edu.tw。
学习方法
只有对数据分析的流程熟悉了,才能实现从模仿到灵活运用。在产品质量管理方面,对流程的
掌控是成功的关键,在数据挖掘项目中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,
一个步骤的失误会带来完全错误的结果。数据挖掘的流程大致包括抽样、数据清洗、数据转换、建
模和模型评估这几个步骤。如果在抽样中的取数逻辑不正确,就有可能使因果关系倒置,得到完全
相反的结论。数据转换方法如果选择不正确,模型就难以得到预期的结果。而且,数据挖掘是一个
反复试错的过程,每一步都要求有详细的记录和操作说明,否则分析人员很可能迷失方向。
学习数据挖掘最好的方法就是动手做一遍。《SPSS Modeler+Weka数据挖掘从入门到实战》语言通俗,但高度凝练,很少涉及公式,这会
让读者大意,如果读者不动手做一遍,则很难体会到书中表述的思想。《SPSS Modeler+Weka数据挖掘从入门到实战》提供了相应的演练数据,
也同时给出了相关方面的参考资料,供学员学习。
致谢
本丛书从策划到出版,张慧敏主编倾注了大量心血,经管之家的董事长赵坚毅先生提供了多方
面的支持,特在此表示衷心的感谢!
为保证丛书的质量,使其更贴近读者,我们邀请了北京大学的殷子涵进行试读和修改完善。感
谢各位预读员的辛勤、耐心与细致,使得《SPSS Modeler+Weka数据挖掘从入门到实战》能以更加完善的面目与各位读者见面。还要感谢刘莎
莎参与本岀的编写工作。
再次感谢您的支持!
作者









