基于网页分块的主题爬虫方法研究
中文摘要 | 第1-4页 |
英文摘要 | 第4-8页 |
1 绪论 | 第8-12页 |
·课题研究背景 | 第8页 |
·国内外研究现状 | 第8-10页 |
·本文研究的主要内容 | 第10页 |
·研究目的 | 第10页 |
·研究内容 | 第10页 |
·论文结构 | 第10-12页 |
2 相关理论及技术 | 第12-25页 |
·搜索引擎概述 | 第12页 |
·通用搜索引擎 | 第12页 |
·垂直搜索引擎 | 第12页 |
·普通爬虫 | 第12-15页 |
·普通爬虫模型 | 第13-14页 |
·普通爬虫的爬行策略 | 第14-15页 |
·主题爬虫 | 第15-17页 |
·主题爬虫模型 | 第15-16页 |
·主题爬虫的爬行策略 | 第16页 |
·主题爬虫与普通爬虫的区别 | 第16-17页 |
·主题爬虫的关键技术 | 第17-23页 |
·中文分词技术 | 第17页 |
·文本表示模型 | 第17-18页 |
·特征提取方法 | 第18-21页 |
·文本分类技术 | 第21-23页 |
·网页分类技术 | 第23页 |
·Web 页面的结构特性及其对主题爬虫的影响 | 第23-24页 |
·Web 页面结构特性 | 第23页 |
·Web 页面结构特性对主题爬虫的影响 | 第23-24页 |
·本章小结 | 第24-25页 |
3 主题爬虫相关算法介绍 | 第25-32页 |
·主题相关度判断算法 | 第25-26页 |
·基于整个页面的相关度判断 | 第25页 |
·基于网页分块的相关度判断 | 第25-26页 |
·待爬行URL 访问优先级的预测算法 | 第26-29页 |
·基于文字内容的评价方法 | 第26-27页 |
·基于衔接的评价方法 | 第27-28页 |
·基于分类器的方法 | 第28-29页 |
·“隧道”现象的解决方法 | 第29-30页 |
·“黑色隧道”的解决方法 | 第29-30页 |
·“灰色隧道”的解决方法 | 第30页 |
·算法分析 | 第30-31页 |
·本章小结 | 第31-32页 |
4 一种基于网页分块的主题爬虫方法 | 第32-45页 |
·问题的提出 | 第32-33页 |
·基于网页分块的主题爬虫方法的思想 | 第33-34页 |
·基于网页分块的主题爬虫方法的实现 | 第34-44页 |
·训练集的选取 | 第34-35页 |
·类间转移概率的训练 | 第35-37页 |
·主题分类器的构建 | 第37-38页 |
·基于视觉特征将网页分块 | 第38-41页 |
·预测网页块中URL 的访问优先级 | 第41-44页 |
·本章小结 | 第44-45页 |
5 实验及结果比较 | 第45-50页 |
·实验介绍 | 第45-46页 |
·基准方法 | 第45页 |
·验证方法 | 第45-46页 |
·实验条件 | 第46页 |
·实验结果 | 第46-50页 |
·三种主题爬虫的实验结果比较 | 第47页 |
·三种主题爬虫在爬行过程中的实验结果比较 | 第47-50页 |
6 总结 | 第50-51页 |
致谢 | 第51-52页 |
参考文献 | 第52-56页 |
附录 | 第56页 |
A 作者在攻读硕士学位期间发表的论文目录 | 第56页 |
B 作者在攻读硕士学位期间参与的科研项目 | 第56页 |