| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 1 绪论 | 第8-11页 |
| ·课题的背景及研究意义 | 第8页 |
| ·研究现状 | 第8-10页 |
| ·本文研究内容及章节安排 | 第10-11页 |
| 2 网络爬虫概述 | 第11-17页 |
| ·网络爬虫的分类 | 第11-12页 |
| ·通用爬虫 | 第12-15页 |
| ·聚焦爬虫 | 第15-16页 |
| ·本章小结 | 第16-17页 |
| 3 聚焦爬虫的关键技术 | 第17-36页 |
| ·Web页面主题内容块提取 | 第17-25页 |
| ·页面相似度分析 | 第25-29页 |
| ·文档摘要的提取 | 第29-32页 |
| ·热点词提取 | 第32-33页 |
| ·聚焦爬虫的搜索策略 | 第33-35页 |
| ·本章小结 | 第35-36页 |
| 4 信息收集器的设计实现 | 第36-49页 |
| ·信息收集器的设计 | 第36-42页 |
| ·主题内容块的提取测试 | 第42-44页 |
| ·文本摘要的提取测试 | 第44-47页 |
| ·信息收集器的整体测试 | 第47-48页 |
| ·本章小结 | 第48-49页 |
| 5 全文总结与展望 | 第49-51页 |
| ·全文总结 | 第49-50页 |
| ·未来展望 | 第50-51页 |
| 致谢 | 第51-52页 |
| 参考文献 | 第52-55页 |
| 附录 源代码 | 第55-58页 |