摘要 | 第1-5页 |
Abstract | 第5-10页 |
第一章 绪论 | 第10-16页 |
·课题的研究背景和意义 | 第10-11页 |
·垂直搜索引擎概述 | 第11-15页 |
·垂直搜索引擎的发展现状及发展前景 | 第11-13页 |
·搜索引擎的工作原理 | 第13-15页 |
·本文的主要工作和组织结构 | 第15-16页 |
第二章 主题爬虫简介 | 第16-24页 |
·主题爬虫的研究现状 | 第16-17页 |
·主题爬虫的概念 | 第17页 |
·主题爬虫的系统结构 | 第17-18页 |
·主题爬虫的工作流程 | 第18-20页 |
·主题爬虫的目标 | 第20页 |
·开源网络爬虫实例 | 第20-22页 |
·本章小结 | 第22-24页 |
第三章 主题爬虫的搜索策略 | 第24-40页 |
·基于文本内容的搜索策略 | 第24-32页 |
·主题信息在Web页面中的分布特点 | 第24-25页 |
·主题描述 | 第25-26页 |
·关键词的抽取 | 第26-27页 |
·主题相关度计算 | 第27-29页 |
·关键字的权重计算 | 第29-30页 |
·改进的TF-IDF算法 | 第30页 |
·基于文本内容的搜索算法 | 第30-32页 |
·基于超链接分析的搜索策略 | 第32-35页 |
·PageRank算法 | 第32-33页 |
·HITS算法 | 第33-34页 |
·PageRank算法和HITS算法的比较 | 第34-35页 |
·改进的HITS算法 | 第35页 |
·基于未来回报的搜索策略 | 第35-36页 |
·基于巩固学习的搜索策略 | 第36页 |
·基于语境图的搜索策略 | 第36页 |
·基于内容和链接的综合搜索策略 | 第36-38页 |
·本章小结 | 第38-40页 |
第四章 基于内容和链接综合搜索的主题爬虫的系统实现 | 第40-50页 |
·系统的设计原则 | 第40-41页 |
·系统稳定 | 第40页 |
·主题相关性 | 第40页 |
·抓取效率高 | 第40页 |
·人性化操作 | 第40-41页 |
·系统需求分析 | 第41页 |
·主题爬虫的系统结构 | 第41-47页 |
·选取初始URL | 第42-43页 |
·网页下载 | 第43-45页 |
·网页解析 | 第45-46页 |
·页面主题相关度的计算 | 第46-47页 |
·URL主题预测 | 第47页 |
·系统性能分析 | 第47-48页 |
·本章小结 | 第48-50页 |
第五章 结论 | 第50-52页 |
·结论 | 第50页 |
·展望 | 第50-52页 |
参考文献 | 第52-54页 |
附录 | 第54-60页 |
作者简介 | 第60页 |
作者在攻读硕士学位期间发表的学术论文 | 第60-62页 |
致谢 | 第62页 |