| 摘要 | 第1-6页 |
| ABSTRACT | 第6-10页 |
| 第1章 绪论 | 第10-15页 |
| ·课题背景与意义 | 第10-11页 |
| ·聚焦爬虫的研究现状 | 第11-13页 |
| ·本文主要研究的问题 | 第13页 |
| ·本文内容与结构 | 第13-15页 |
| 第2章 聚焦爬虫及相关技术 | 第15-29页 |
| ·通用爬虫的简介 | 第15-16页 |
| ·通用爬虫的原理与结构 | 第15-16页 |
| ·通用爬虫的不足 | 第16页 |
| ·聚焦爬虫模型 | 第16-20页 |
| ·聚焦爬虫的原理 | 第16-18页 |
| ·聚焦爬虫的结构 | 第18-20页 |
| ·主题页面分布特性 | 第20-21页 |
| ·Hub/Authority特性 | 第20-21页 |
| ·Linkage/SiblingLocality特性 | 第21页 |
| ·网站的主题聚集特性 | 第21页 |
| ·隧道特性 | 第21页 |
| ·其他相关技术 | 第21-29页 |
| ·HTML简介 | 第21-23页 |
| ·页面源文件采集 | 第23-24页 |
| ·页面分析与处理 | 第24-27页 |
| ·中文分词 | 第27-29页 |
| 第3章 聚焦爬虫算法研究设计 | 第29-45页 |
| ·搜索策略研究的基本方法 | 第29页 |
| ·两类站点搜索策略研究 | 第29-36页 |
| ·论坛社区类站点 | 第29-33页 |
| ·其他类型站点的搜索策略 | 第33-36页 |
| ·页面相关度分析算法的研究 | 第36-45页 |
| ·向量空间模型分类算法及改进 | 第36-40页 |
| ·文本分类概念简介 | 第40页 |
| ·朴素贝叶斯分类算法及改进 | 第40-43页 |
| ·k最近邻算法 | 第43-45页 |
| 第4章 爬虫系统的实现 | 第45-62页 |
| ·系统设计 | 第45-50页 |
| ·系统总体设计 | 第45-47页 |
| ·功能模块结构设计 | 第47-50页 |
| ·系统实现 | 第50-58页 |
| ·类结构实现 | 第50-53页 |
| ·数据库ER图 | 第53-54页 |
| ·界面设计 | 第54-58页 |
| ·实验研究 | 第58-62页 |
| ·系统测试环境 | 第58页 |
| ·评价指标 | 第58-59页 |
| ·测试站点信息及参数设定 | 第59页 |
| ·测试和结果分析 | 第59-62页 |
| 第5章 总结与展望 | 第62-63页 |
| ·论文工作总结 | 第62页 |
| ·不足与展望 | 第62-63页 |
| 参考文献 | 第63-66页 |
| 致谢 | 第66-67页 |
| 攻读学位期间发表的学术论文目录 | 第67页 |