编辑推荐

  吴信东和库玛尔编著的《数据挖掘十大算法》详细介绍了在实际中用途影响十种数据挖掘算法,这十种算法是数据挖掘领域的专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。在每章zui后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。
  (1)阐述了由数据挖掘领域的专家推荐的、在实际中用途广、影响zui大的十种数据挖掘算法。
  (2)对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等。
  (3)每章末尾给出了丰富的习题和精挑细选的参考文献。

内容简介

  《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途影响十种数据挖掘算法,这十种算法是数据挖掘领域的专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。

作者简介

  吴信东(XindongWu),教授英国爱丁堡大学人工智能学博士,任美国佛蒙特大学计算机科学系主任。吴教授在数据挖掘、知识系统和Web信息开发等研究领域内颇有建树,在IEEETKDE、TPAMI、ACMTOIS、DMKD、KAIS、IJCAI、AAAI、ICMI_、KDD、ICDM和WWW等学术会议和期刊上发表了170余篇学术论文,另外,还出版了18部学术专著和会议文集。他还获得了IEEEICTAI-2005的论文奖和IEEEICDM-2007的理论/算法论文奖亚军。
  吴博士是IEEETransactzonsonKnowLedgeandDataEngineering(TKDE,由IEEEComputerSociety主办)的主编,IEEEInternationalConerenceonDataMining(ICDM)的创始人和指导委员会主席,KnowledgeandInormationSystems(KAIS,由Springer发行)的创办人和荣誉主编,IEEEComputerSocietyTechnicalCommitteeonIntelligentInformatics(TCII)的创始主席(2002-2006),SpringerAdvancedInformationandKnowledgeProcessing(AI&KP)系列著作的编辑。他还是ICDM'03(the2003IEEEInternationalConferenceonDataMining)程序委员会主席和KDD-07(the13thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining)程序委员会联合主席。他获得了2004ACMSIGKDD服务奖、2006IEEEICDM杰出服务奖,是2005年合肥科技大学“长江学者奖励计划”讲座教授。他还是很多学术会议的特邀专家/专题报告人,如NSF-NGDM'07、PAKDD-07、IEEEEDOC'06、IEEEICTAI'04、IEEE/WIClACMWI'04lIAT'04、SEKE2002和PADD-97等。
  
  VipinKumar,教授,明尼苏达大学计算机科学与工程系WilliamNorris讲席教授、系主任。他于1977年获得印度鲁尔基理工学院(正式名称是鲁尔基大学)的电子和通信工程学士学位,1979年获得荷兰埃因霍温飞利浦国际学院的电子工程硕士学位,1982年获得马里兰大学帕克分校的计算机科学博士学位。Kumar教授的研究兴趣主要集中在数据挖掘、生物信息学和高性能计算领域。他提出了评估并行算法可扩展性的恒等效率度量指标,并研发了多款稀疏矩阵分解(PSPASES)和图剖分(METIS,ParMctis,hMetis)的高效并行算法及软件。他发表了200多篇研究论文,合编合著了9本学术专著,包括被广泛使用的教科书IntroductiontoParallelComputing和IntroductiontoDataMining,者5由Addison-Wesley出版。Kumar是众数据挖掘和多并行计算领域的学术会议、专题研讨会的主席或共同主席,女口IEEEInternationalConferenceonDataMining(2002)、InternationalParallelandDistributedProcessingSymposium(2001)和SIAMInternationalConferenceonDataMining(2001).Kumar是SIAMInternationalConferenceonDataMining指导委员会共同主席,IEEEInternationalConferenceonDataMining和IEEEInternationalConferenceonBioinformaticsandBiomedicine指导委员会委员。Kumar是JournalofStatisticalAnalysisandDataMining的创始主编之——,IEEEIntelligentInormaticsBulletin主编和DataMiningandKnowledgeDiscovery系列图书(由CRCPress/ChapmanHall出版)的编辑。Kumar还担任很多其他学术刊物的编辑,如DataMiningandKno-wledgeDiscovery、KnowLedgeandInformationSystems、IEEEComputationalInteltigenceBulletin、AnnualReviewofInteltigentInformatics、ParallelComputing、JournalofParallelandDistributedComputing、IEEETransactionsofDataandKno-wledgeEngineering(1993-1997)、IEEEConcurrency(1997-2000)和IEEEParalleLandDistributedTechnology(1995-1997)等。他是ACM会士、IEEE会士、AAAS会士和SIAM会员。Kumar由于在并行算法设计、图剖分和数据挖掘领域的杰出贡献,获得了2005IEEEComputerSociety的技术成就奖。

目录

第1章C4.5
1.1引言
1.2算法描述
1.3算法特性
1.3.1决策树剪枝
1.3.2连续型属性
1.3.3缺失值处理
1.3.4规则集诱导
1.4软件实现
1.5示例
1.5.1Golf数据集
1.5.2Soybean数据集
1.6高级主题
1.6.1二级存储
1.6.2斜决策树
1.6.3特征选择
1.6.4集成方法
1.6.5分类规则
1.6.6模型重述
1.7习题
参考文献

第2章k-means
2.1引言
2.2算法描述
2.3可用软件
2.4示例
2.5高级主题
2.6小结
2.7习题
参考文献

第3章SVM:支持向量机
3.1支持向量分类器
3.2支持向量分类器的软间隔优化
3.3核技巧
3.4理论基础
3.5支持向量回归器
3.6软件实现
3.7当前和未来的研究
3.7.1计算效率
3.7.2核的选择
3.7.3泛化分析
3.7.4结构化支持向量机的学习
3.8习题
参考文献

第4章Apriori
4.1引言
4.2算法描述
4.2.1挖掘频繁模式和关联规则
4.2.2挖掘序列模式
4.2.3讨论
4.3软件实现
4.4示例
4.4.1可行示例
4.4.2性能评估
4.5高级主题
4.5.1改进Apriori类型的频繁模式挖掘
4.5.2无候选的频繁模式挖掘
4.5.3增量式方法
4.5.4稠密表示:闭合模式和最大模式
4.5.5量化的关联规则
4.5.6其他的重要性/兴趣度度量方法
4.5.7类别关联规则
4.5.8使用更丰富的形式:序列、树和图
4.6小结
4.7习题
参考文献

第5章EM
5.1引言
5.2算法描述
……

第6章PageRank
第7章AdaBoost
第8章kNN!k-最近邻
第9章NaiveBayes
第10章CART:分类和回归树

前言/序言

  在香港举办的2006年度IEEE数据挖掘国际会议上,与会专家遴选出了十个最具影响力的数据挖掘算法,也就是《世界著名计算机教材精选:数据挖掘十大算法》所列的十个算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、NaiveBayes和CART。
  遴选过程第一步,在2006年9月,我们邀请ACMKDD创新奖得主和IEEEICDM研究贡献奖得主每人推荐十个最著名的数据挖掘算法,并提供以下信息:
  (a)算法名称;
  (b)算法简介;
  (c)代表文献。
  我们还要求每个被提名的算法都应被数据挖掘领域的学者广泛引述和使用,每位推荐人提名的算法集应能代表数据挖掘的不同领域。除一人外其他所有专家都给予了回复。
  遴选过程第二步,在2006年10月,我们用GoogleScholar对每项提名进行了验证,去除了引用数低于50的提名,将保留下的所有提名(共18个)分成十个主题:关联分析、分类、聚类、统计学习、装袋推举、序列模式、集成挖掘、粗糙集、链接挖掘和图挖掘。对于某些算法,如k-means,不要求提供发明该算法的原始文献,但需要提供阐述该算法重要性的近期论文。这些代表性文献。
  遴选过程第三步,我们动员了研究社区的很多人参与,其中包括KDD-06(the2006ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining)、ICDM'06(the2006IEEEInternationalConferenceonDataMining)和SDM'06(the2006SIAMInternationalConferenceonDataMining)的程序委员会的全体委员,以及ACMKDD创新奖得主和IEEEICDM研究贡献奖得主。请每位参与人员从18个候选算法中选出不超过10个最知名算法,结果在ICDM'06的“数据挖掘十大算法”专题研讨会上公布。
  2006年12月21日,在ICDM'06的一个专题讨论会上,邀请145名与会专家对这18个候选算法公开投票,从中选出十个得票最高的算法,得到和上面遴选第三步完全一致的结果。这个3小时的专题研讨会是ICDM'06的一个环节,在同一地点并行召开的还有WebIntelligence(WI'06)和IntelligentAgentTechnology(IAT'06)的共7个论文展示环节,共吸
  引到了145名学者参与。
  在ICDM'06之后,我们邀请了这十大算法的原创作者和专题研讨会部分发言人共同撰
  写了一篇期刊论文对每个算法的内容、影响进行介绍,对其现状和未来趋势加以评述。这篇期刊论文于2008年1月发表在KnowledgeandInformationSystems上。《世界著名计算机教材精选:数据挖掘十大算法》是该期刊论文的扩展,每章介绍一个算法,内容包括算法描述、可用软件、示例应用、高级主题和习题等部分。
  《世界著名计算机教材精选:数据挖掘十大算法》的每一章都邀请两位独立审稿人和《世界著名计算机教材精选:数据挖掘十大算法》的一位编辑来审核,有的章节在此基础上要在最终定稿前再重审一遍。
  我们希望这十个算法的遴选能有助于在世界范围推动数据挖掘的应用,激励更多数据挖掘领域的学者去扩大这些算法的影响,探索新的研究内容。这十个算法覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题,也对数据挖掘、机器学习和人工智能等学科的课程设计有指导意义。


其他推荐