面向主题的Web爬取算法研究

摘要	第5-6页
Abstract	第6-7页
主要英文缩写与中英文对照表	第10-13页
第一章绪论	第13-19页
1.1 研究背景	第13-14页
1.2 国内外研究现状	第14-16页
1.3 研究目的及意义	第16-17页
1.4 本文研究内容和组织结构	第17-19页
第二章爬虫关键技术研究	第19-33页
2.1 爬虫基本概念	第19-23页
2.2 主题爬虫搜索策略	第23-27页
2.2.1 广度优先搜索	第24-25页
2.2.2 深度优先搜索策略	第25-26页
2.2.3 最佳优先搜索策略	第26-27页
2.3 主题爬虫常用算法	第27-33页
2.3.1 PageRank算法	第27-28页
2.3.2 HITS算法	第28-30页
2.3.3 Fish-Search算法	第30-33页
第三章基于局部拓扑的分类重要网站爬取策略	第33-59页
3.1 局部拓扑算法概述	第33-36页
3.2 HTML文档解析	第36-42页
3.2.1 链接过滤	第37-38页
3.2.2 网页内容提取	第38-42页
3.3 链接价值分析模型	第42-47页
3.3.1 Learnable链接拓扑模型	第43-45页
3.3.2 链接价值评价模型	第45-47页
3.4 内容价值分析模型	第47-54页
3.4.1 网页内容爬取	第47-49页
3.4.2 关键词提取	第49-51页
3.4.3 文本相关度计算	第51-54页
3.5 基于局部拓扑最优(LTO)爬取策略	第54-59页
第四章实验与分析	第59-71页
4.1 实验设计	第59-63页
4.1.1 系统开发环境	第59页
4.1.2 实验内容	第59-61页
4.1.3 实验数据准备	第61-63页
4.2 实验评价指标	第63-64页
4.3 实验结果与分析	第64-71页
第五章总结与展望	第71-73页
5.1 论文工作总结	第71页
5.2 后续工作展望	第71-73页
致谢	第73-75页
参考文献	第75-79页
附录A (攻读硕士学位期间主要成果)	第79-80页
附录B (主要仿真代码)	第80-93页
附录B.1：仿真网络拓扑并本地持久化simultest.py	第80-81页
附录B.2：LTO算法逻辑模块Viterbi.py	第81-85页
附录B.3：算法可视化ShowView.py	第85-88页
附录B.4：静态计算得出目标网站集合static_test.py	第88-89页
附录B.5：模拟真实网络拓扑modify.py	第89-91页
附录B.6：PageRank算法实现pagerank_test.py	第91-93页