首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向主题的Web爬取算法研究

摘要第5-6页
Abstract第6-7页
主要英文缩写与中英文对照表第10-13页
第一章 绪论第13-19页
    1.1 研究背景第13-14页
    1.2 国内外研究现状第14-16页
    1.3 研究目的及意义第16-17页
    1.4 本文研究内容和组织结构第17-19页
第二章 爬虫关键技术研究第19-33页
    2.1 爬虫基本概念第19-23页
    2.2 主题爬虫搜索策略第23-27页
        2.2.1 广度优先搜索第24-25页
        2.2.2 深度优先搜索策略第25-26页
        2.2.3 最佳优先搜索策略第26-27页
    2.3 主题爬虫常用算法第27-33页
        2.3.1 PageRank算法第27-28页
        2.3.2 HITS算法第28-30页
        2.3.3 Fish-Search算法第30-33页
第三章 基于局部拓扑的分类重要网站爬取策略第33-59页
    3.1 局部拓扑算法概述第33-36页
    3.2 HTML文档解析第36-42页
        3.2.1 链接过滤第37-38页
        3.2.2 网页内容提取第38-42页
    3.3 链接价值分析模型第42-47页
        3.3.1 Learnable链接拓扑模型第43-45页
        3.3.2 链接价值评价模型第45-47页
    3.4 内容价值分析模型第47-54页
        3.4.1 网页内容爬取第47-49页
        3.4.2 关键词提取第49-51页
        3.4.3 文本相关度计算第51-54页
    3.5 基于局部拓扑最优(LTO)爬取策略第54-59页
第四章 实验与分析第59-71页
    4.1 实验设计第59-63页
        4.1.1 系统开发环境第59页
        4.1.2 实验内容第59-61页
        4.1.3 实验数据准备第61-63页
    4.2 实验评价指标第63-64页
    4.3 实验结果与分析第64-71页
第五章 总结与展望第71-73页
    5.1 论文工作总结第71页
    5.2 后续工作展望第71-73页
致谢第73-75页
参考文献第75-79页
附录A (攻读硕士学位期间主要成果)第79-80页
附录B (主要仿真代码)第80-93页
    附录B.1:仿真网络拓扑并本地持久化simultest.py第80-81页
    附录B.2:LTO算法逻辑模块Viterbi.py第81-85页
    附录B.3:算法可视化ShowView.py第85-88页
    附录B.4:静态计算得出目标网站集合static_test.py第88-89页
    附录B.5:模拟真实网络拓扑modify.py第89-91页
    附录B.6:PageRank算法实现pagerank_test.py第91-93页

论文共93页,点击 下载论文
上一篇:基于Spark不平衡数据分类算法的研究
下一篇:插件式三维地下管网信息系统设计与实现