基于Web的文本信息检索算法的研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-15页
1．1 研究背景	第9-12页
1．2 研究现状	第12-13页
1．3 课题来源	第13页
1．4 论文的贡献	第13页
1．5 论文的组织	第13-15页
2 搜索引擎的结构	第15-19页
2．1 搜索引擎的分类	第15-17页
2．1．1 目录式搜索引擎	第15-16页
2．1．2 机器人搜索引擎	第16页
2．1．3 元搜索引擎	第16-17页
2．2 搜索引擎的性能指标	第17-18页
2．3 搜索引擎的完整结构	第18-19页
3 网络蜘蛛	第19-24页
3．1 网络蜘蛛的系统结构	第19-20页
3．2 常用的网络蜘蛛搜索算法	第20-22页
3．2．1 基于广度优先归	第21页
3．2．2 基于深度优先	第21-22页
3．2．3 基于网页评级	第22页
3．2．4 InfoSpider算法	第22页
3．3 学习算法	第22-24页
4 主要文本检索算法的研究	第24-37页
4．1 引言	第24页
4．2 基于内容的检索	第24-25页
4．3 词条位置信息检索方法	第25-26页
4．4 基于超链接分析的检索	第26-32页
4．4．1 PageRank算法	第27-28页
4．4．2 HITS算法	第28-30页
4．4．3 SALSA算法	第30-31页
4．4．4 Reputation算法	第31-32页
4．5 基于融合的检索	第32-35页
4．5．1 基于内容和超链分析的融合检索	第32-34页
4．5．2 基于分类的检索	第34页
4．5．3 相关类别的确定	第34-35页
4．5．4 检索结果的排序输出	第35页
4．6 PageRank和HITS的比较	第35-37页
5 改进的向量空间模型内容检索算法	第37-46页
5．1 传统的向量空间模型	第37-39页
5．2 向量空间模型的基本原理	第39页
5．3 向量空间模型的优点和缺点	第39-40页
5．4 传统向量空间模型失效性	第40页
5．5 改进的向量空间模型-N层向量空间模型	第40-43页
5．5．1 N层向量空间模型的定义	第40-42页
5．5．2 N层向量空间模型的检索算法	第42-43页
5．6 时间复杂度的比较分析	第43-44页
5．7 实验结果与分析	第44-46页
6 网页去噪	第46-50页
6．1 网页去噪的意义	第46页
6．2 网页的相关工作	第46-47页
6．3 网页去噪方法和算法	第47-50页
6．3．1 网页内容结构的表示	第47-48页
6．3．2 网页的量化表示	第48页
6．3．3 内容信息网页的去噪方法	第48-49页
6．3．4 网页去噪算法的空间特性	第49-50页
7 系统的设计与实现	第50-57页
7．1 系统的框架	第50页
7．2 功能模块说明	第50-54页
7．2．1 天网数据源模块	第50-51页
7．2．2 去噪分析模块	第51-52页
7．2．3 索引模块	第52-53页
7．2．4 检索器	第53-54页
7．2．5 用户接口	第54页
7．2．6 词典维护模块	第54页
7．3 主要数据对象的结构	第54-55页
7．3．1 索引数据库	第54页
7．3．2 倒排索引	第54-55页
7．4 倒排索引结构	第55-56页
7．5 检索处理步骤	第56页
7．6 排名方案	第56-57页
8 实验结果与分析	第57-59页
总结	第59-60页
参考文献	第60-63页
攻读硕士学位期间发表学术论文情况	第63-64页
致谢	第64-65页
大连理工大学学位论文版权使用授权书	第65页