| 摘要 | 第1-5页 |
| Abstract | 第5-10页 |
| 第一章 绪论 | 第10-16页 |
| ·课题的研究背景和意义 | 第10-11页 |
| ·垂直搜索引擎概述 | 第11-15页 |
| ·垂直搜索引擎的发展现状及发展前景 | 第11-13页 |
| ·搜索引擎的工作原理 | 第13-15页 |
| ·本文的主要工作和组织结构 | 第15-16页 |
| 第二章 主题爬虫简介 | 第16-24页 |
| ·主题爬虫的研究现状 | 第16-17页 |
| ·主题爬虫的概念 | 第17页 |
| ·主题爬虫的系统结构 | 第17-18页 |
| ·主题爬虫的工作流程 | 第18-20页 |
| ·主题爬虫的目标 | 第20页 |
| ·开源网络爬虫实例 | 第20-22页 |
| ·本章小结 | 第22-24页 |
| 第三章 主题爬虫的搜索策略 | 第24-40页 |
| ·基于文本内容的搜索策略 | 第24-32页 |
| ·主题信息在Web页面中的分布特点 | 第24-25页 |
| ·主题描述 | 第25-26页 |
| ·关键词的抽取 | 第26-27页 |
| ·主题相关度计算 | 第27-29页 |
| ·关键字的权重计算 | 第29-30页 |
| ·改进的TF-IDF算法 | 第30页 |
| ·基于文本内容的搜索算法 | 第30-32页 |
| ·基于超链接分析的搜索策略 | 第32-35页 |
| ·PageRank算法 | 第32-33页 |
| ·HITS算法 | 第33-34页 |
| ·PageRank算法和HITS算法的比较 | 第34-35页 |
| ·改进的HITS算法 | 第35页 |
| ·基于未来回报的搜索策略 | 第35-36页 |
| ·基于巩固学习的搜索策略 | 第36页 |
| ·基于语境图的搜索策略 | 第36页 |
| ·基于内容和链接的综合搜索策略 | 第36-38页 |
| ·本章小结 | 第38-40页 |
| 第四章 基于内容和链接综合搜索的主题爬虫的系统实现 | 第40-50页 |
| ·系统的设计原则 | 第40-41页 |
| ·系统稳定 | 第40页 |
| ·主题相关性 | 第40页 |
| ·抓取效率高 | 第40页 |
| ·人性化操作 | 第40-41页 |
| ·系统需求分析 | 第41页 |
| ·主题爬虫的系统结构 | 第41-47页 |
| ·选取初始URL | 第42-43页 |
| ·网页下载 | 第43-45页 |
| ·网页解析 | 第45-46页 |
| ·页面主题相关度的计算 | 第46-47页 |
| ·URL主题预测 | 第47页 |
| ·系统性能分析 | 第47-48页 |
| ·本章小结 | 第48-50页 |
| 第五章 结论 | 第50-52页 |
| ·结论 | 第50页 |
| ·展望 | 第50-52页 |
| 参考文献 | 第52-54页 |
| 附录 | 第54-60页 |
| 作者简介 | 第60页 |
| 作者在攻读硕士学位期间发表的学术论文 | 第60-62页 |
| 致谢 | 第62页 |