摘要 | 第5-6页 |
Abstract | 第6-7页 |
主要英文缩写与中英文对照表 | 第10-13页 |
第一章 绪论 | 第13-19页 |
1.1 研究背景 | 第13-14页 |
1.2 国内外研究现状 | 第14-16页 |
1.3 研究目的及意义 | 第16-17页 |
1.4 本文研究内容和组织结构 | 第17-19页 |
第二章 爬虫关键技术研究 | 第19-33页 |
2.1 爬虫基本概念 | 第19-23页 |
2.2 主题爬虫搜索策略 | 第23-27页 |
2.2.1 广度优先搜索 | 第24-25页 |
2.2.2 深度优先搜索策略 | 第25-26页 |
2.2.3 最佳优先搜索策略 | 第26-27页 |
2.3 主题爬虫常用算法 | 第27-33页 |
2.3.1 PageRank算法 | 第27-28页 |
2.3.2 HITS算法 | 第28-30页 |
2.3.3 Fish-Search算法 | 第30-33页 |
第三章 基于局部拓扑的分类重要网站爬取策略 | 第33-59页 |
3.1 局部拓扑算法概述 | 第33-36页 |
3.2 HTML文档解析 | 第36-42页 |
3.2.1 链接过滤 | 第37-38页 |
3.2.2 网页内容提取 | 第38-42页 |
3.3 链接价值分析模型 | 第42-47页 |
3.3.1 Learnable链接拓扑模型 | 第43-45页 |
3.3.2 链接价值评价模型 | 第45-47页 |
3.4 内容价值分析模型 | 第47-54页 |
3.4.1 网页内容爬取 | 第47-49页 |
3.4.2 关键词提取 | 第49-51页 |
3.4.3 文本相关度计算 | 第51-54页 |
3.5 基于局部拓扑最优(LTO)爬取策略 | 第54-59页 |
第四章 实验与分析 | 第59-71页 |
4.1 实验设计 | 第59-63页 |
4.1.1 系统开发环境 | 第59页 |
4.1.2 实验内容 | 第59-61页 |
4.1.3 实验数据准备 | 第61-63页 |
4.2 实验评价指标 | 第63-64页 |
4.3 实验结果与分析 | 第64-71页 |
第五章 总结与展望 | 第71-73页 |
5.1 论文工作总结 | 第71页 |
5.2 后续工作展望 | 第71-73页 |
致谢 | 第73-75页 |
参考文献 | 第75-79页 |
附录A (攻读硕士学位期间主要成果) | 第79-80页 |
附录B (主要仿真代码) | 第80-93页 |
附录B.1:仿真网络拓扑并本地持久化simultest.py | 第80-81页 |
附录B.2:LTO算法逻辑模块Viterbi.py | 第81-85页 |
附录B.3:算法可视化ShowView.py | 第85-88页 |
附录B.4:静态计算得出目标网站集合static_test.py | 第88-89页 |
附录B.5:模拟真实网络拓扑modify.py | 第89-91页 |
附录B.6:PageRank算法实现pagerank_test.py | 第91-93页 |