内容简介
《搜索引擎——原理技术与系统(第二版)》系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。《搜索引擎——原理技术与系统(第二版)》分三篇共13章。上篇介绍搜索引擎的基本原理和技术,讲述一个小型简单搜索引擎实现的具体细节;中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验,介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。
《搜索引擎——原理技术与系统(第二版)》层次分明,由浅入深,上篇和中篇涉及内容提供了源代码下载地址;既有深入的理论分析,也有大量的实验数据和程序,具有学习和实用双重意义。
目录
目录
第二版前言
第一版前言
第一章引论1
第一节搜索引擎的概念2
第二节搜索引擎的发展历史3
第三节一些著名的搜索引擎6
第四节小结11
上篇Web搜索引擎基本原理和技术
第二章Web搜索引擎工作原理和体系结构15
第一节基本要求15
第二节网页搜集16
第三节预处理18
第四节查询服务20
第五节体系结构23
第六节小结25
第三章Web信息的搜集26
第一节概述26
一、超文本传输协议26
二、一个小型搜索引擎系统27
第二节网页搜集30
一、定义URL类和Page类31
二、与服务器建立连接35
三、发送请求和接收数据37
四、网页信息存储的天网格式38
第三节多道搜集程序并行工作40
一、多线程并发工作41
二、控制对一个站点并发搜集线程的数目42
第四节如何避免网页的重复搜集43
一、记录未访问、已访问URL和网页内容摘要信息43
二、域名与IP的对应问题43
第五节搜集信息的类型45
第六节小结46
第四章对搜集信息的预处理47
第一节索引网页库47
第二节网页编码识别50
一、基本而重要的概念50
二、常用字符编码52
三、常用字符编码算法55
四、字符的输入和显示57
五、编码识别58
第三节中文自动分词60
第四节分析网页和建立倒排文件64
第五节小结67
第五章信息查询服务68
第一节检索的定义68
第二节查询服务的实现69
一、结果集合的形成69
二、查询结果显示70
第三节小结71
中篇对质量和性能的追求
第六章可扩展搜集子系统75
第一节天网系统概述和集中式搜集系统结构75
一、天网系统结构75
二、集中式搜集系统76
第二节利用并行处理技术高效搜集网页的一种方案82
一、节点间URL的划分策略82
二、关于性能的讨论85
三、性能测试和评价87
四、系统的动态可配置性设计90
第三节天网分布式搜集系统92
第四节对DeepWeb的认识93
一、DeepWeb的成因93
二、搜索DeepWeb的方法96
第五节小结98
第七章网页净化与消重100
第一节网页净化与元数据提取100
一、DocView模型102
二、网页的表示103
三、提取DocView模型要素的方法108
四、模型应用及实验研究112
第二节网页消重算法115
一、消重算法116
二、算法评测118
第三节小结121
第八章高性能检索子系统122
第一节检索系统基本技术122
一、系统设计与结构122
二、索引创建125
三、检索过程127
第二节适于查询的网页索引结构129
一、倒排索引结构129
二、平面位置索引131
第三节倒排索引压缩135
一、倒排索引压缩技术136
二、词典与倒排表的压缩142
第四节索引剪枝150
一、静态索引剪枝方法151
二、动态索引剪枝方法153
第五节混合索引技术168
一、混合索引的原理169
二、混合索引的实现171
第六节倒排文件缓存机制173
一、倒排文件缓存174
二、负载特性176
三、缓存策略的选择178
第七节小结178
第九章相关排序与系统质量评估180
第一节传统IR的相关排序技木180
第二节链接分析与相关排序182
一、链接分析182
二、Web查询模式下的新信息184
第三节相关排序的一种实现方案188
一、形成网页中词项的基本权重189
二、利用链接的结构190
三、收集用户反馈信息192
四、计算最终的权重194
第四节信息检索技术评估195
一、信息检索技术评估指标197
二、TREC和CWIRF信息检索评估206
三、搜索引擎技术评估213
第五节小结217
下篇Web信息资源的组织与应用服务
第十章大规模Web历史网页仓储系统的构建221
第一节国外Web历史网页保存现状221
一、InternetArchive222
二、PANDORA222
三、其他相关Web保存项目223
第二节中国Web信息博物馆的系统设计224
一、WebInfoMall的设计目标225
二、WebInfoMall的体系结构225
第三节历史网页的存储227
一、数据的组织228
二、存储结构229
三、数据管理与压缩230
四、存储性能232
第四节数据访问232
一、PageID的索引233
二、URI的索引233
三、数据服务234
四、性能与优化235
第五节网页的格式保存236
第六节小结236
第十一章大规模Web非网页信息仓储系统的构建238
第一节网络资源库藏相关工作238
一、Ibiblio239
二、InternetArchive240
三、Wikimedia240
四、中国互联网数字资源财富库藏241
第二节CDAL系统概况242
第三节CDAL系统设计244
一、系统体系结构244
二、可扩展的存储组织方案244
第四节网络资源描述信息获取246
一、Ontology概述247
二、描述信息获取机制247
三、改进查询的方法248
四、改进排序的方法249
第五节基于局部聚类思想的共现词汇算法250
一、基本定义251
二、FDC共现词汇算法251
第六节小结252
第十二章中文网页自动分类与聚类253
第一节文档自动分类算法的类型253
第二节实现中文网页自动分类的一般过程254
第三节影响分类器性能的关键因素分析256
一、实验设置256
二、训练样本258
三、特征选取262
四、分类算法265
五、截尾算法270
六、中文网页分类器的设计方案272
第四节天网目录导航服务272
一、问题的提出272
二、天网目录导航服务的体系结构273
三、天网目录的运行实例274
第五节文本聚类方法275
一、文本聚类的一般过程275
二、文本间相似性的度量276
三、常用聚类算法276
四、聚类结果的评估279
五、搜索引擎返回结果的聚类280
第六节小结281
第十三章开放域问答系统283
第一节概述283
一、问答系统的历史283
二、著名开放域问答系统介绍284
三、开放域问答系统的通用体系结构285
第二节问句的分析287
一、问句中的指代消解287
二、问句分类288
三、问句主题提取290
第三节文档和段落检索290
一、检索模型的选用291
二、查询生成291
三、查询结果排序293
四、增强索引的功能295
第四节答案提取和验证模块295
一、生成候选答案集合295
二、答案提取296
第五节问答系统的改进方法299
一、问答系统中外部资源的利用299
二、寻找特殊类问题的解决方案301
三、通过系综方法构建问答系统302
第六节问答系统的评测303
一、TREC问答系统评测303
二、问答系统评测指标304
第七节实例:天网开放域问答系统306
第八节小结308
参考文献309
附录术语322
图表目录
图1-12012年3月在Google上检索“伊拉克战争”的结果2
图1-22012年3月在OpenDirectory上检索“伊拉克战争”的结果5
图2-1搜索引擎示意图15
图2-2搜索引擎三段式工作流程16
图2-3搜索引擎的体系结构23
图3-1TSE搜索引擎界面28
图3-2TSE查询结果页面29
图3-3TSE网页快照页面29
图3-4TSE系统结构30
图3-5Web信息的搜集31
图3-6Sockets和端口35
图3-7通过Socket建立连接36
图4-1网页预处理系统结构47
图4-2原始网页库中的记录格式48
图4-3索引网页库算法49
图4-4字符的输入和显示流程57
图4-5GB2312,Big5和GBK字符编码分布58
图4-6正向减字最大匹配算法流程62
图4-7切词算法流程63
图4-8分析网页与建立倒排文件流程65
图4-9过滤网页中非正文信息算法65
图4-10正向索引表记录格式65
图4-11由正向索引建立反向索引66
图5-1信息查询的系统结构68
图5-2基本检索算法69
图5-3动态摘要算法71
图5-4用户查询日志的记录格式71
图6-1天网系统概貌76
图6-2搜集系统的主控结构77
图6-3协调进程工作算法84
图6-4分布式Web搜集系统结构85
图6-5负载方差88
图6-6并行搜集系统与集中式搜集系统的性能对比89
图6-7分布式系统效率89
图6-8URL两阶段映射91
图6-9天网分布式搜集系统P_Arthur体系结构92
图6-10人才招聘网站首页94
图7-1用DocView模型提取的网页要素104
图7-2净化后的网页104
图7-3HTMLTree结构105
图7-4内容块权值传递过程107
图7-5有主题网页DocView模型生成过程109
图7-6计算网页特征项权值的算法109
图7-7正文段落识别过程111
图7-8基于anchortext的超链选取算法111
图7-9网页净化前后分类效果对比113
图7-10查全率随选取关键词个数的变化120
图8-1检索系统集成框架结构124
图8-2天网WWW检索分布式系统构架125
图8-3倒排索引结构示意图129
图8-4按块组织的倒排链的结构130
图8-5位置索引的结构131
图8-6CLPS结构示意图135
图8-7倒排链中文档号之间的d-gaps分布图146
图8-8不同文档号分配下平均每个查询对应文档号序列的压