摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
1 绪论 | 第9-15页 |
1.1 研究背景 | 第9页 |
1.2 研究目的和意义 | 第9-10页 |
1.3 国内外研究现状 | 第10-12页 |
1.4 本文主要内容 | 第12-14页 |
1.5 本文组织结构 | 第14-15页 |
2 主题爬虫概述 | 第15-21页 |
2.1 搜索引擎概述 | 第15-16页 |
2.1.1 通用搜索引擎 | 第15页 |
2.1.2 垂直搜索引擎 | 第15-16页 |
2.2 通用爬虫 | 第16-18页 |
2.2.1 通用爬虫的原理和体系结构 | 第16-17页 |
2.2.2 通用爬虫的爬行策略 | 第17-18页 |
2.3 主题爬虫 | 第18-20页 |
2.3.1 主题爬虫的原理和结构 | 第18-19页 |
2.3.2 主题爬虫的爬行策略 | 第19-20页 |
2.3.3 主题爬虫与通用爬虫的区别 | 第20页 |
2.4 本章小结 | 第20-21页 |
3 主题爬虫关键技术 | 第21-31页 |
3.1 网页预处理相关技术 | 第21-22页 |
3.1.1 HTML 网页的规范化 | 第21页 |
3.1.2 HTML 网页的内容解析 | 第21-22页 |
3.1.3 中文分词、去除停用词 | 第22页 |
3.2 主题描述及相关性计算 | 第22-25页 |
3.2.1 主题表示 | 第22-23页 |
3.2.2 构建主题向量空间 | 第23-24页 |
3.2.3 主题特征赋权 | 第24-25页 |
3.2.4 主题相关性计算 | 第25页 |
3.3 穿越“隧道”相关技术 | 第25-28页 |
3.3.1 基于网页分块的灰色隧道穿越 | 第25-27页 |
3.3.2 基于隧道技术的黑色隧道穿越 | 第27-28页 |
3.4 Web 链接结构特性的影响 | 第28-30页 |
3.4.1 PageRank 算法 | 第28-29页 |
3.4.2 HITS 算法 | 第29-30页 |
3.5 本章小结 | 第30-31页 |
4 基于主题相关概念和综合价值的主题爬虫 | 第31-55页 |
4.1 基于 ODP 的主题相关概念描述 | 第31-37页 |
4.1.1 ODP 简介 | 第32-34页 |
4.1.2 主题描述的方法及存在的问题 | 第34-35页 |
4.1.3 基于 ODP 的主题相关概念描述方法 | 第35-37页 |
4.2 基于网页分块和重复上限的隧道穿越 | 第37-44页 |
4.2.1 基于网页分块穿越灰色隧道 | 第38-43页 |
4.2.2 基于重复上限的隧道技术穿越黑色隧道 | 第43-44页 |
4.3 基于 R-HITS 算法考虑链接结构特性 | 第44-47页 |
4.3.1 R-HITS 的改进之处 | 第45页 |
4.3.2 基于 R-HITS 算法链接结构特性的方法 | 第45-47页 |
4.4 基于综合价值的候选链接优先级预测 | 第47-53页 |
4.4.1 候选链接的等级划分 | 第49-50页 |
4.4.2 基于文字内容与 R-HITS 相结合的预测方法 | 第50-53页 |
4.4.3 时间复杂度分析 | 第53页 |
4.5 本章小结 | 第53-55页 |
5 实验与分析 | 第55-65页 |
5.1 主题爬虫原型系统 | 第55-56页 |
5.2 实验评价指标 | 第56-57页 |
5.3 初始数据获取和参数设置 | 第57-58页 |
5.3.1 初始数据获取 | 第57页 |
5.3.2 参数设置 | 第57-58页 |
5.4 实验方案及结果分析 | 第58-64页 |
5.4.1 R-HITS 和 HITS 的对比实验 | 第59-61页 |
5.4.2 主题描述方法的对比实验 | 第61页 |
5.4.3 引入网页分块后的对比实验 | 第61-62页 |
5.4.4 加入 R-HITS 算法后的对比实验 | 第62-64页 |
5.5 本章小结 | 第64-65页 |
6 总结与展望 | 第65-67页 |
致谢 | 第67-69页 |
参考文献 | 第69-75页 |
附录 | 第75页 |
作者在攻读学位期间发表的论文目录 | 第75页 |