网站聚焦爬虫研究
摘要 | 第1-8页 |
Abstract | 第8-9页 |
1. 绪论 | 第9-16页 |
·引言 | 第9-11页 |
·聚焦爬虫的研究现状及相关工作 | 第11-14页 |
·研究的目的及意义 | 第14页 |
·论文的主要工作和组织结构 | 第14-16页 |
2. 聚焦爬虫及相关技术 | 第16-33页 |
·通用网络爬虫模型 | 第16-19页 |
·通用网络爬虫结构 | 第16-18页 |
·通用网络爬虫的主要技术问题 | 第18-19页 |
·聚焦爬虫模型 | 第19-23页 |
·聚焦爬虫的原理 | 第19页 |
·聚焦爬虫的结构 | 第19-21页 |
·聚焦爬虫与通用爬虫的区别 | 第21-22页 |
·聚焦爬虫分类 | 第22-23页 |
·相关技术 | 第23-32页 |
·网页处理背景知识 | 第23-26页 |
·超链接分析 | 第26-28页 |
·主题页面的分布特征 | 第28-30页 |
·中文分词技术 | 第30-32页 |
·本章小结 | 第32-33页 |
3. 面向中文网站的网站聚焦爬虫 | 第33-50页 |
·网络图定义 | 第33-34页 |
·网站聚焦爬虫的任务 | 第34-35页 |
·网站聚焦爬虫体系结构 | 第35页 |
·网站聚焦爬虫的关键技术 | 第35-49页 |
·外部爬行策略 | 第35-39页 |
·内部爬行策略 | 第39页 |
·网页处理模块 | 第39-42页 |
·中文自动分词模块 | 第42-44页 |
·网页分类器模块 | 第44-46页 |
·网站分类器模块 | 第46-49页 |
·本章小结 | 第49-50页 |
4. 系统运行结果与分析 | 第50-52页 |
·系统运行结果 | 第50页 |
·外部爬行策略改进前后对比 | 第50-52页 |
5. 总结与展望 | 第52-53页 |
参考文献 | 第53-56页 |
附录 | 第56-57页 |
致谢 | 第57页 |