内容简介

大规模元搜索引擎技术》广泛而深入地介绍了大规模元搜索引擎技术,详细讨论了大规模元搜索引擎的主要部件——搜索引擎选择、搜索引擎加入和结果合并,重点关注部件的高度可扩展性和自动化解决方案。作为Web搜索的竞争技术,《大规模元搜索引擎技术》对大规模元搜索引擎技术的可行性进行了强有力的论证。《大规模元搜索引擎技术》可作为高等院校Web数据管理和信息检索等Web技术相关课程的教材,也可作为Web搜索领域的研究人员的参考书。

作者简介

WeiyiMeng(孟卫一)纽约州立大学宾汉姆顿分校计算机系教授,数据库实验室主席,IEEEICTA国际会议程序委员会主席,美国元搜索引擎公司Webscalers创始人之一。孟卫一教授在互联网信息检索特别是元数据搜索引擎方面是国际公认的,取得多项研究成果并开发出可用的系统,现为人民大学客座教授。
ClementT.Yu伊利诺伊大学芝加哥分校计算机科学教授。研究方向包括多媒体信息检索、元搜索引擎、数据管理等。

目录

丛书前言
译者序
前言
作者简介
第1章 绪言1
1.1Web上查找信息3
1.1.1浏览3
1.1.2搜索4
1.2文本检索概述7
1.2.1系统体系结构7
1.2.2文档表示8
1.2.3文档-查询匹配9
1.2.4查询处理11
1.2.5检索有效性度量13
1.3搜索引擎技术概述14
1.3.1Web的专门特性14
1.3.2Web爬虫15
1.3.3利用标签信息17
1.3.4利用链接信息18
1.3.5结果组织23
1.4《大规模元搜索引擎技术》概述25
第2章 元搜索引擎体系结构27
2.1系统体系结构28
2.2为什么使用元搜索引擎技术33
2.3挑战环境39
2.3.1异构及其影响40
2.3.2规范化研究43
第3章 搜索引擎选择47
3.1粗糙表记方法49
3.2基于学习的方法50
3.3基于样本文档的方法55
3.4统计表记方法59
3.4.1D-WISE59
3.4.2CORINet61
3.4.3gGlOSS63
3.4.4潜在有用文档数目65
3.4.5最相似文档的相似度68
3.4.6搜索引擎表记生成72
第4章 搜索引擎加入77
4.1搜索引擎连接77
4.1.1搜索引擎的HTML表单标签78
4.1.2搜索引擎自动连接81
4.2搜索结果抽取86
4.2.1半自动包装器生成88
4.2.2自动包装器生成93
第5章 结果合并108
5.1基于完全文档内容的合并111
5.2基于搜索结果记录的合并113
5.3基于结果本地排序的合并119
5.3.1基于轮转的方法120
5.3.2基于相似度转换的方法121
5.3.3基于投票的方法124
5.3.4基于机器学习的方法130
第6章 总结与后续研究132
参考文献136

精彩书摘

  《大规模元搜索引擎技术》:
  类似于深网爬虫,元搜索引擎通过查询接口(包括API)与搜索引擎(包括深网搜索引擎)进行交互。然而与深网爬虫不同的是,元搜索引擎将每个用户查询直接传递给搜索引擎来检索查询相关的内容,而不需要提前获得任何搜索引擎的全部内容。因为跟表层网搜索引擎的查询接口进行交互与跟深网搜索引擎的查询接口进行交互基本相同,所以元搜索引擎访问深网是很自然的。总之,元搜索引擎比主流搜索引擎更容易访问到深网的内容。
  很明显,使用主流搜索引擎构建通用元搜索引擎的方法,同样会面临主流搜索引擎访问深网的困难,而元搜索引擎方法直接通过查询接口访问搜索引擎内容,使元搜索引擎更容易访问深网。
  3.内容质量更好
  搜索引擎的内容质量可以由搜索引擎索引的文档质量来度量。可从多方面度量文档的质量,例如内容的丰富性和可靠性。正式讨论内容质量并非《大规模元搜索引擎技术》的目标,我们仅在此提供一些分析来支持如下论点:以专用搜索引擎作为成员搜索引擎的元搜索引擎可能比主流搜索引擎更容易获取更高质量的内容。这些分析基于主流搜索引擎收集网页的方法和元搜索引擎访问搜索引擎内容的方法。
  ……

前言/序言

  ‖丛书前言陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。

  当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活方方面面,原有的数据管理理论体系与大数据产业应用之前的差距日益加大,而工业界对于大数据人才的需求却极剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。近来越来越多的院校急切地开设大数据方面的人才培养计划,以求占得“先机”。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在六七十年代编写的计算机知识体系上施教,无法把当下的大数据带给我们的新思维方式和知识体系传导给学生。

  为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。每一位学者都有责任和义务去为此“增砖添瓦”。

  在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。现时要求学者编写大部头著作费时费力,不太现实。这使我们想到上世纪八九十年代风靡一时的“五角丛书”,它短小精湛,题材丰富,选题新颖,恰到好处地迎合了那个时代人们对新知识的渴望,因此成为了那个时代的共同记忆。所以我们受此启发,选择了这种更容易实现的“五角丛书”的形式,促使学者们力所能及地把各自工作中的积累呈现给大家,为大数据人才培养的“大厦”增砖添瓦。我们相信,假以时日,这些小部头的著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。

  丛书定位:面向新形式下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。

  丛书特点:丛书借鉴Morgan&ClaypoolPublishers出版的SynthesisLecturesonDataManagement,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每《大规模元搜索引擎技术》要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。

  丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。

  在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。

  丛书即将出版书目:大数据管理概论孟小峰主编2017年2月出版异构信息网络挖掘原理和方法[美]孙艺洲(YizhouSun)韩家炜(JiaweiHan)著;段磊朱敏唐常杰译2017年1月出版大规模元搜索引擎技术[美]孟卫一(WeiyiMeng)於德(ClementT.Yu)著;朱亮译2017年1月大数据集成[美]董欣(XinLunaDong)戴夫士·斯里瓦斯塔瓦(DiveshSrivastava)著王秋月杜治娟王硕译2017年2月短文本数据理解王仲远等编著2017年2月个人数据管理李玉坤孟小峰编著2017年3月位置大数据隐私保护潘晓霍峥孟小峰编著2017年3月移动大数据挖掘连德富张富峥王英子袁晶谢幸编著2017年3月云数据管理挑战与机遇[美]迪卫艾肯特·阿格拉沃尔(DivyakantAgrawal)苏迪皮托·达斯(SudiptoDas)阿姆鲁·埃尔·阿巴迪(AmrElAbbadi)著;马友忠等译2017年3月流数据管理[加]卢卡斯·戈拉布(LukaszGolab)[德]M·塔纳·顾兹叙(M.Tamer?zsu)著;禹晓辉译2017年3月


其他推荐