《世界著名计算机教材精选：Web数据挖掘（第2版）》

书海网短评：
　　（1）阐述Web数据挖掘的概念及其核心算法，使读者获得相对完整的关于Web数据挖掘的算法和技术知识。　　（2）不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题，而且还介绍了结构化数据的抽取、信息整合

编辑推荐

　　（1）阐述Web数据挖掘的概念及其核心算法，使读者获得相对完整的关于Web数据挖掘的算法和技术知识。
　　（2）不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题，而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容。

内容简介

　　过去几十年里，Web的迅速发展使其成为世界上规模的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。
　　《世界著名计算机教材精选：Web数据挖掘（第2版）》旨在阐述Web数据挖掘的概念及其核心算法，使读者获得相对完整的关于Web数据挖掘的算法和技术知识。《世界著名计算机教材精选：Web数据挖掘（第2版）》不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题，而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容，这些内容在已有书籍中没有提及过，但它们在Web数据挖掘中却占有非常重要的地位。《世界著名计算机教材精选：Web数据挖掘（第2版）》分为两大部分：第一部分包括第2章到第5章，介绍数据挖掘的基础，第二部分包括第6章到第12章，介绍Web相关的挖掘任务。从《世界著名计算机教材精选：Web数据挖掘（第2版）》自第1版出版之后，很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展，主要的改动在第11章和第12章中，这两章已经被重新撰写并做了重要的扩展。
　　《世界著名计算机教材精选：Web数据挖掘（第2版）》不仅可作为本科生的教科书，也是在Web数据挖掘和相关领域研读博士学位的研究生的重要参考用书，同时对Web挖掘研究人员和实践人员获取知识、信息、甚至是创新想法也很有帮助。

第1章概述
1.1什么是万维网
1.2万维网和互联网的历史简述
1.3Web数据挖掘
1.3.1什么是数据挖掘
1.3.2什么是Web数据挖掘
1.4各章概要
1.5如何阅读《世界著名计算机教材精选：Web数据挖掘（第2版）》
文献评注
参考文献

第1部分数据挖掘基础
第2章关联规则和序列模式
2.1关联规则的基本概念
2.2Apriori算法
2.2.1频繁项目集生成
2.2.2关联规则生成
2.3关联规则挖掘的数据格式
2.4多最小支持度的关联规则挖掘
2.4.1扩展模型
2.4.2挖掘算法
2.4.3规则生成
2.5分类关联规则挖掘
2.5.1问题描述
2.5.2挖掘算法
2.5.3多最小支持度分类关联规则挖掘
2.6序列模式的基本概念
2.7基于GSP挖掘序列模式
2.7.1GSP算法
2.7.2多最小支持度挖掘
2.8基于PrefixSpan算法的序列模式挖掘
2.8.1PrefixSpan算法
2.8.2多最小支持度挖掘
2.9从序列模式中产生规则
2.9.1序列规则
2.9.2标签序列规则
2.9.3分类序列规则
文献评注
参考文献
第3章监督学习
3.1基本概念
3.2决策树归纳
3.2.1学习算法
3.2.2混杂度函数
3.2.3处理连续属性
3.2.4其他一些问题
3.3评估分类器
3.3.1评估方法
3.3.2查准率、查全率、F-score和平衡点（BreakevenPoint）
3.3.3受试者工作特征曲线
3.3.4提升曲线
3.4规则归纳
3.4.1顺序化覆盖
3.4.2规则学习：Learn-One-Rule函数
3.4.3讨论
3.5基于关联规则的分类
3.5.1使用类关联规则进行分类
3.5.2使用类关联规则作为分类属性
3.5.3使用古典的关联规则分类
3.6朴素贝叶斯分类
3.7朴素贝叶斯文本分类
3.7.1概率框架
3.7.2朴素贝叶斯模型
3.7.3讨论
3.8支持向量机
3.8.1线性支持向量机：可分的情况
3.8.2线性支持向量机：数据不可分的情况
3.8.3非线性支持向量机：核方法总结
3.9A、近邻学习
3.10分类器的集成
3.10.1Bagging
3.10.2Boosting
文献评注
参考文献
第4章无监督学习
4.1基本概念
4.2A-均值聚类
4.2.1A-均值算法
4.2.2A-均值算法的硬盘版本
4.2.3优势和劣势
4.3聚类的表示
4.3.1聚类的一般表示方法
4.3.2任意形状的聚类
4.4层次聚类
4.4.1单连结方法
4.4.2全连结方法
4.4.3平均连结方法
4.4.4优势和劣势
4.5距离函数
4.5.1数字属性
4.5.2布尔属性和名词性属性
4.5.3文本文档
4.6数据标准化
4.7混合属性的处理
4.8采用哪种聚类算法
4.9聚类的评估
4.10发现数据区域和数据空洞
文献评注
参考文献
第5章部分监督学习
5.1从已标注数据和无标注数据中学习
5.1.1使用朴素贝叶斯分类器的EM算法
5.1.2Co-naining
5.1.3自学习
5.1.4直推式支持向量机
5.1.5基于图的方法
5.1.6讨论
5.2从正例和无标注数据中学习
5.2.1PU学习的应用
5.2.2理论基础
5.2.3建立分类器：两步方法
5.2.4建立分类器：偏置SVM
5.2.5建立分类器：概率估计
5.2.6讨论
……
第2部分Web挖掘

精彩书摘

　　方法1定义会话为用户首次搜索到事务日志中记录的最后一次搜索这一段时间。用户的IP地址以及浏览器cookie被用来确定首次查询和后续查询，来估计会话长度。会话长度定义为用户首次查询的时间点到该用户和搜索引擎的最后一次交互的时间点的时段。IP地址或者Cookie的一次改变总会开启一个新会话。
　　方法2使用用户IP地址和浏览器Cookie来决定首次查询和后续查询。但是，这里使用了一个相邻交互间最大长度为30分钟的规则来决定会话的边界。30分钟的时段是根据工业界对会话的标准来选择的（OneClick.com和NielsenNetranking），其很大程度上基于Catledge和Pitkow对于浏览器活动的研究。该研究称一般Web会话平均长度是25.5分钟[24]。
　　方法3在使用IP地址和浏览器Cookie来决定首次查询和后续查询的基础上，使用了上下文方法来识别会话。上下文描述的会话是基于用户查询内容的改变而不是一个基于时间的截断来决定会话的边界。根据IP地址、Cookie、查询内容、反馈特征和查询长度，每一个查询被分到一个非交的组里。分类是[56]：
　　·辅助：当前查询是由用于选择了搜索结果顶部的特有选项，称为您是否要找？查询。
　　·内容改变：当前查询是同义的但是关联着另一个内容集合。
　　·泛化：当前查询是和之前的查询属于同一个主题（当前查询和之前的查询在内容上有重叠）但是针对更加广泛的信息。
　　·新查询：当前查询属于一个新的主题（和之前的查询没有重叠）。
　　·修改：当前查询和用户之前的查询属于同一个主题（当前查询和之前的查询在内容上有重叠），并且它们长度一致。
　　·具体化：当前查询和用户之前的查询属于同一个主题（当前查询和之前的查询在内容上有重叠），但是针对更加具体的信息。这时往往新的查询更长（查询词更多）。
　　在文献[56]实证研究表明方法3（IP地址、Cookie和查询内容）给出了最好的会话识别效果，为尽量准确的搜索上下文识别创造了条件。
　　……

前言/序言

　　在过去的20年里，Web的迅速发展使其成为世界上规模最大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。依据在挖掘过程中使用的数据类别，Web挖掘任务可以被划分为3种主要类型：Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从使用日志和其他形式的用户交互记录中挖掘用户的活动模式。从《世界著名计算机教材精选：Web数据挖掘（第2版）》在2006年底的第1版发行之后，很多领域已经有了重大的进展。大部分的章节都已经添加了新的材料来反应这些进展。主要的改动在第11章和第12章中，这两章已经被重新撰写并做了重要的扩展。在撰写第1章的时候，观点挖掘（第11章）的研究仍处于初步阶段。从那以后，搜索社区对这个问题已经拥有了一个更好的理解并提出了许多新颖的技术来解决问题的各个方面。为了将Web使用挖掘（第12章）的最新进展包含进来，关于推荐系统、协同过滤、用户日志挖掘和计算广告学的话题已经被添加进来。新版比原来长了很多。
　　《世界著名计算机教材精选：Web数据挖掘（第2版）》旨在讲述上述的互联网数据挖掘任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中第5章--监督学习的部分内容、结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘--是《世界著名计算机教材精选：Web数据挖掘（第2版）》的特色，这些内容在其他书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也做了详细描述。
　　《世界著名计算机教材精选：Web数据挖掘（第2版）》尽管题为“Web数据挖掘”，但依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大重要的数据挖掘任务，和半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。因此，《世界著名计算机教材精选：Web数据挖掘（第2版）》自然的分为两大部分，第1部分包括第2～5章，介绍数据挖掘的基础，第2部分包括第6～12章，介绍Web相关的挖掘任务。
　　有两大指导性原则贯穿《世界著名计算机教材精选：Web数据挖掘（第2版）》始末。其一，《世界著名计算机教材精选：Web数据挖掘（第2版）》的基础内容适合本科生阅读，但也包括足够多的深度资料，以满足打算在Web数据挖掘和相关领域研读博士学位的研究生。书中对读者的预备知识几乎没有作任何要求，任何对算法和概率知识稍有理解的人都应当能够顺利地读完《世界著名计算机教材精选：Web数据挖掘（第2版）》。其二，《世界著名计算机教材精选：Web数据挖掘（第2版）》从实践的角度来审视Web挖掘的技术。这一点非常重要，因为大多数Web挖掘任务都在现实世界中有所应用。在过去的几年中，我有幸直接或间接地与许多研究人员和工程人员一起工作，他们来自于多个搜索引擎、电子商务公司，甚至是对在业务中利用Web信息感兴趣的传统公司。在这个过程中，我获得了许多现实世界问题的实践经历和第一手知识。我尽量将其中非机密的信息和知识通过《世界著名计算机教材精选：Web数据挖掘（第2版）》传递给读者，因此《世界著名计算机教材精选：Web数据挖掘（第2版）》能在理论和实践中有所平衡。我希望《世界著名计算机教材精选：Web数据挖掘（第2版）》不仅能够成为学生的教科书，也能成为Web挖掘研究人员和实践人员获取知识、信息、甚至是创新想法的一个有效渠道。
　　致　谢
　　在撰写《世界著名计算机教材精选：Web数据挖掘（第2版）》的过程中，许多研究人员都给予我无私的帮助；没有他们的帮助，这《世界著名计算机教材精选：Web数据挖掘（第2版）》也许永远也无法成为现实。我最深切的感谢要给予FilippoMenczer、BamshadMobasher和OlfaNasraoui，他们热情地撰写了《世界著名计算机教材精选：Web数据挖掘（第2版）》中重要的两个章节。他们也是相关领域的专家。Filippo负责Web爬取的整一章，Bamshad和Olfa负责Web使用挖掘这一章的所有片段，除了推荐系统那一节，但是他们也提供了帮助。我还要感谢WeeSunLee（李伟上），他帮助完成第5章的很大一部分。
　　JianPei（裴健）帮助撰写了第2章中PrefixSpan算法，并且检查了MS-PS算法。EduardDragut帮助撰写了第10章的最后一节，并且多次阅读并修改这一整章。YuanlinZhang对第9章提出很多意见。SimonFunk、YehudaKoren、WeeSunLee、JingPeng、ArkadiuszPaterek和DomonkosTikk对第12章中的推荐系统的撰写提供了帮助。我对他们所有人都有所亏欠。
　　还有许多研究人员以各种方式提供了帮助。YangDai（戴阳）和RudySetiono在支持向量机（SVM）上提供帮助。ChrisDing（丁宏强）帮助社交网络分析。ClementYu（于德）和ChengXiangZhai（翟成祥）阅读了第6章。AmyLangville阅读了第7章。KevinC.-C.Chang（张振川）、Ji-RongWen（文继荣）和ClementYu（于德）帮助了第10章的许多方面。JustinZobel帮助理清了索引压缩的许多议题。IonMuslea帮助理清了包裹简介的一些议题。DivyAgrawal、YunboCao（曹云波）、EdwardFox、HangLi（李航）、XiaoliLi（李晓黎）、ZhaohuiTan、DellZhang（张德）和ZijianZheng帮助检查了各个章节。在此对他们表示感谢！
　　和许多研究人员的讨论也帮助《世界著名计算机教材精选：Web数据挖掘（第2版）》成形。这些人包括AmirAshkenazi、ImranAziz、RobertoBayardo、ShenghuaBao（包胜华）、RobertoBayardo、WendellBaker、LingBao、JeffreyBenkler、BrianDavison、AnHaiDoan、ByronDom、JulianaFreire、MichaelGamon、RobertGrossman、NatalieGlance、JiaweiHan（韩家炜）、MeichunHsu、WynneHsu、RonnyKohavi、BirgitK?nig、DavidD.Lewis、IanMcAllister、Wei-YingMa（马维英）、MarcoMaggini、LlewMason、KamelNigan、JulianQian、YanQu、ThomasM.Tirpak、AndrewTomkins、AlexanderTuzhilin、WeiminXiao、GuXu（徐谷）、PhilipS.Yu和MohammedZaki、YuriZelenkov和DanielZeng。
　　我已毕业和在读的学生们GaoCong、XiaowenDing、MurthyGa-napathibhotla、MinqingHu、NitinJindal、XinLi、YimingMa、ArjunMuk-herjee、QuangQiu（浙江大学的访问学生）、WilliamUnderwood、YanhongZhai、ZhongwuZhai（清华大学的访问学生）、LeiZhang和KaidiZhao这些年来贡献了非常多的研究思路，而且还检查了很多算法并作出了许多更正。书中的大部分章节已经用在芝加哥大学我的研究生课程里。我感谢那些在客上实现了一些算法的学生。他们的问题帮助我提升并在某些情况下更正了算法。在这里列出他们所有人的名字不太可能。这里，我特别想感谢JohnCastano、HariPrasadDivyakotti、IslamIsmailov、SuhyukPark、CynthiaKersey、Po-HsiuLin、SrikanthTadikonda、MakioTamura、RavikanthTurlapati、GuillermoVazquez、HaishengWang和ChadWilliams指出了文字、例子或算法的错误。德保尔大学的MichaelBombyk也找到了几个打字错误。
　　与Springer出版社的员工一起工作是一段令人愉快的经历。我感谢编辑RalfGerstner在2005年初征询我对撰写一本有关Web挖掘的书籍是否感兴趣。从那以后，我们一直保持着愉快的合作经历。我还要感谢校对MikeNugent提高了《世界著名计算机教材精选：Web数据挖掘（第2版）》内容的表达质量，以及制作编辑MichaelReinfarth引导我顺利完成了《世界著名计算机教材精选：Web数据挖掘（第2版）》的出版过程。还有两位匿名评审也给出不少有见解的评论。伊利诺伊斯大学芝加哥分校计算机科学系对本项目提供了计算资源和工作环境的支持。
　　最后，我要感谢我的父母和兄弟姐妹，他们给予我一贯的支持和鼓励。我将最深刻的感激给予我自己的家庭成员：Yue、Shelley和Kate。他们也在许多方面给予支持和帮助。尽管Shelley和Kate还年幼，但他们阅读了《世界著名计算机教材精选：Web数据挖掘（第2版）》的绝大部分，并且找出了不少笔误。我的妻子将家里一切事情打理地秩序井然，使我可以将充分的时间和精力花费在这《世界著名计算机教材精选：Web数据挖掘（第2版）》上。谨以此书献给他们！
　　BingLiu（刘兵）