| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 第1章 绪论 | 第7-13页 |
| ·研究背景 | 第7-8页 |
| ·研究现状 | 第8-10页 |
| ·课题来源 | 第10-11页 |
| ·论文的贡献 | 第11页 |
| ·论文组织 | 第11-13页 |
| 第2章 Web信息检索系统的工作原理和体系结构 | 第13-19页 |
| ·Web信息检索系统的分类 | 第13-15页 |
| ·目录式搜索引擎 | 第13-14页 |
| ·Robot搜索引擎 | 第14页 |
| ·元搜索引擎 | 第14-15页 |
| ·智能搜索引擎 | 第15页 |
| ·Web信息检索系统的工作原理和结构 | 第15-17页 |
| ·Web信息检索系统的性能指标 | 第17页 |
| ·本章小结 | 第17-19页 |
| 第3章页面采集器工作原理及设计 | 第19-25页 |
| ·网络爬虫的基本原理与结构 | 第19-21页 |
| ·网络爬虫的遍历算法 | 第21页 |
| ·网络爬虫的主要技术问题 | 第21-22页 |
| ·网络爬虫的设计和实现 | 第22-24页 |
| ·本章小结 | 第24-25页 |
| 第4章 索引器工作原理及设计 | 第25-39页 |
| ·索引的组织和基本数据结构 | 第25-28页 |
| ·Hit | 第25-26页 |
| ·正向索引 | 第26页 |
| ·倒排索引 | 第26-27页 |
| ·词典 | 第27-28页 |
| ·中文分词 | 第28-31页 |
| ·中文分词中的难点问题 | 第28-29页 |
| ·常用的分词算法 | 第29-31页 |
| ·索引的建立 | 第31-36页 |
| ·页面预处理 | 第31-32页 |
| ·页面的净化 | 第32-35页 |
| ·建立正向索引 | 第35-36页 |
| ·正向表转换为倒排索引 | 第36页 |
| ·索引的更新 | 第36-37页 |
| ·本章小结 | 第37-39页 |
| 第5章 主要信息检索算法的研究 | 第39-47页 |
| ·基于关键字的检索 | 第39-40页 |
| ·布尔模型 | 第39页 |
| ·向量空间模型 | 第39-40页 |
| ·概率模型 | 第40页 |
| ·基于超链接的检索 | 第40-45页 |
| ·PageRank算法 | 第41-43页 |
| ·HITs算法 | 第43-44页 |
| ·SALSA算法 | 第44页 |
| ·贝叶斯算法 | 第44-45页 |
| ·信息检索算法的比较 | 第45页 |
| ·本章小结 | 第45-47页 |
| 第6章 向量空间模型改进及检索器的设计 | 第47-53页 |
| ·传统向量空间模型 | 第47-50页 |
| ·传统向量空间模型以及基本思想 | 第47-49页 |
| ·传统向量空间模型的优点和缺点 | 第49-50页 |
| ·对向量空间模型的改进——结构化向量空间模型 | 第50-51页 |
| ·文档索引项分段权值 | 第50-51页 |
| ·查询向量与文档向量的相似度 | 第51页 |
| ·结构化向量空间模型的特点 | 第51页 |
| ·结构化向量空间模型与PageRank相结合的检索算法 | 第51-52页 |
| ·本章小结 | 第52-53页 |
| 第7章 系统的设计与实现 | 第53-61页 |
| ·系统的整体框架 | 第53-54页 |
| ·功能模块设计 | 第54-59页 |
| ·数据源处理模块 | 第54-55页 |
| ·页面解析模块 | 第55-56页 |
| ·索引模块 | 第56-58页 |
| ·检索模块 | 第58-59页 |
| ·用户接口模块 | 第59页 |
| ·本章小结 | 第59-61页 |
| 第8章 实验及结果分析 | 第61-69页 |
| ·实验数据 | 第61页 |
| ·实验目标 | 第61-62页 |
| ·实验结果以及分析 | 第62-68页 |
| ·实验结果 | 第62-67页 |
| ·实验分析 | 第67-68页 |
| ·本章小结 | 第68-69页 |
| 结论 | 第69-71页 |
| 参考文献 | 第71-74页 |
| 攻读硕士学位期间所发表的学术论文 | 第74-75页 |
| 致谢 | 第75页 |