首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于分布式的主题型爬行器的研究与实现

摘要第3-4页
abstract第4页
第1章 绪论第8-17页
    1.1 研究背景及意义第8-9页
    1.2 国内外相关研究现状第9-15页
        1.2.1 主题网络爬虫的研究现状第10-11页
        1.2.2 垂直型网络爬行器相关算法第11-13页
        1.2.3 主题网络爬行器的分布式处理技术第13-14页
        1.2.4 网页保护策略的应对机制第14-15页
    1.3 论文研究的目标和内容第15-16页
        1.3.1 研究目标第15页
        1.3.2 研究内容第15-16页
    1.4 论文章节安排第16-17页
第2章 相关技术第17-27页
    2.1 基于内容的主题相关性算法第17-20页
        2.1.1 Fish-Search分析算法第17-18页
        2.1.2 Shark-Search分析算法第18-19页
        2.1.3 TF-IDF分析算法第19-20页
    2.2 网页价值链接分析算法第20-22页
        2.2.1 链接价值分析算法第20页
        2.2.2 PageRank分析算法第20-21页
        2.2.3 HITS分析算法第21-22页
    2.3 分布式处理技术第22-26页
        2.3.1 Hadoop分布式处理技术第22页
        2.3.2 基于Hadoop的分布式文件系统第22-24页
        2.3.3 并行编程模式MapReduce第24-25页
        2.3.4 消息队列MOM第25-26页
    2.4 本章小结第26-27页
第3章 关键技术的研究第27-33页
    3.1 页面主题关联度计算的分析策略第27-29页
    3.2 爬行器主题相关度分析计算的算法第29-31页
    3.3 错误恢复机制第31-32页
    3.4 本章小结第32-33页
第4章 主题爬行器的分析与设计第33-46页
    4.1 主题爬行器的工作流程第33-34页
    4.2 总体架构设计第34-37页
    4.3 基于负载均衡原则的中心控制模块的设计第37-40页
    4.4 爬行子节点模块的设计第40-41页
    4.5 主题分析模块的设计第41-43页
    4.6 分布式存储模块的设计第43-44页
    4.7 错误恢复机制模块的设计第44-45页
    4.8 本章小结第45-46页
第5章 分布式主题网络爬行器的实现与评估第46-58页
    5.1 分布式主题爬行器的实现与评估第46-50页
    5.2 主题爬行器主题分析与抓取的实现与评估第50-53页
        5.2.1 主题爬行器的页面主题相关性分析算法的实现第51页
        5.2.2 爬行器主题爬取的分析与评估第51-53页
    5.3 错误恢复机制的实现第53-57页
    5.4 本章小结第57-58页
第6章 总结与展望第58-60页
    6.1 总结第58-59页
    6.2 展望第59-60页
参考文献第60-63页
个人简历 在读期间发表的学术论文第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:基于随机模型的Open vSwitch性能分析
下一篇:Web性能监控平台的设计与实现