基于主题的网络蜘蛛的设计与实现

中文摘要	第3-4页
ABSTRACT	第4页
引言	第8-10页
第1章搜索引擎概述	第10-24页
1.1 搜索引擎简介	第10-19页
1.1.1 搜索引擎的诞生	第13页
1.1.2 搜索引擎的分类	第13-14页
1.1.3 搜索引擎的原理	第14-17页
1.1.4 搜索引擎发展趋势	第17-19页
1.2 主题型搜索引擎概述	第19-22页
1.2.1 产生背景	第19-21页
1.2.2 主题型搜索引擎	第21-22页
1.3 主题搜索的研究与发展现况	第22页
1.4 网络蜘蛛	第22-23页
1.5 本文的主要工作	第23-24页
第2章主题蜘蛛技术概述	第24-32页
2.1 网络蜘蛛简介	第24-25页
2.2 网络蜘蛛关键技术	第25-26页
2.3 主题蜘蛛的搜索策略	第26-28页
2.3.1 基于内容评价的搜索策略	第26-27页
2.3.2 基于链接结构评价的搜索策略	第27-28页
2.4 主题相关度计算	第28-30页
2.4.1 HTML链接标签	第29页
2.4.2 本文的主题相关度计算方法	第29-30页
2.5 初始URL的选择	第30-31页
2.5.1 Web主题关联模型	第30-31页
2.5.2 初始URL的选择方法	第31页
2.6 本章小结	第31-32页
第3章页面正文提取与中文分词	第32-40页
3.1 页面正文提取技术	第32-37页
3.1.1 HTML简介	第32-33页
3.1.2 HTML文档标准化	第33-34页
3.1.3 构造标签树	第34页
3.1.4 HTML内容分块技术	第34-35页
3.1.5 正文块提取	第35-36页
3.1.6 正则表达式	第36-37页
3.2 中文分词简介	第37-39页
3.2.1 中文分词常用算法	第38-39页
3.3 本章小结	第39-40页
第4章基于主题的蜘蛛设计与实现	第40-60页
4.1 数据库主要表设计	第40-42页
4.1.1 Link表	第40-41页
4.1.2 Topic表	第41页
4.1.3 Document表	第41-42页
4.2 架构设计	第42-43页
4.3 作业管理器	第43-44页
4.4 线程管理器	第44-48页
4.4.1 多线程技术	第44-46页
4.4.2 线程管理器	第46-48页
4.5 Spider类的实现	第48-50页
4.6 重复检测技术实现	第50-51页
4.7 中文分词技术实现	第51-57页
4.7.1 词典结构设计	第52-53页
4.7.2 构建词典	第53-54页
4.7.3 切词实现	第54-57页
4.8 动态网页内容获得技术实现	第57-58页
4.9 实验效果	第58-59页
4.10 本章小结	第59-60页
第5章主题蜘蛛性能分析	第60-62页
5.1 主题蜘蛛的性能分析	第60-61页
5.2 本章小结	第61-62页
第6章主题词典	第62-65页
6.1 主题词典的建立	第62-63页
6.2 主题词典的维护	第63-64页
6.3 本章小结	第64-65页
结论	第65-66页
参考文献	第66-69页
致谢	第69页