首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的分布式主题爬虫研究和实现

摘要第4-5页
Abstract第5页
第1章 绪论第8-12页
    1.1 研究背景第8-9页
        1.1.1 研究背景第8页
        1.1.2 研究意义第8-9页
    1.2 国内外研究现状第9-10页
        1.2.1 国内研究现状第9页
        1.2.2 国外研究现状第9-10页
    1.3 研究目标及拟解决的关键问题第10页
    1.4 论文组织结构第10-11页
    1.5 本章小结第11-12页
第2章 Nutch及主题爬虫第12-28页
    2.1 Nutch开源分布式爬虫第12-17页
        2.1.1 Nutch概述第12页
        2.1.2 Nutch数据目录结构第12-14页
        2.1.3 Nutch组件第14-15页
        2.1.4 Nutch总体架构第15-16页
        2.1.5 Nutch工作流程第16-17页
    2.2 Hadoop分布式计算平台第17-21页
        2.2.1 Hadoop概述第17-19页
        2.2.2 HDFS介绍第19-20页
        2.2.3 Map Reduce编程模型第20-21页
    2.3 主题爬虫相关技术第21-27页
        2.3.1 主题爬虫概述第21-22页
        2.3.2 爬行协议第22-23页
        2.3.3 隧道技术第23-24页
        2.3.4 支持向量机分类器第24-26页
        2.3.5 朴素贝叶斯分类器第26-27页
    2.4 本章小结第27-28页
第3章 自适应主题爬虫算法改进第28-36页
    3.1 learning automaton第28-30页
        3.1.1 变化决策集learning automaton第29-30页
    3.2 基于learning automaton的主题爬行概述第30-33页
        3.2.1 learning automaton在主题爬行中的应用第30-31页
        3.2.2 爬行过程第31-33页
        3.2.3 调整learning automaton第33页
    3.3 基于learning automaton的主题爬行算法改进第33-35页
        3.3.1 相似度计算算法改进第33-34页
        3.3.2 爬行效率改进第34-35页
    3.4 本章小结第35-36页
第4章 Nutch爬行方法改造第36-42页
    4.1 Nutch评分插件第36-37页
    4.2 爬行流程改造第37-41页
    4.3 本章小结第41-42页
第5章 Seed URL采集及网页分类策略第42-47页
    5.1 Seed URL的重要性第42页
    5.2 Seed URL采集策略第42-44页
        5.2.1 ODP第42-43页
        5.2.2 通用搜索引擎第43-44页
    5.3 网页分类策略第44-46页
        5.3.1 主题关键词选取第44-45页
        5.3.2 支持向量机分类器第45页
        5.3.3 朴素贝叶斯分类器第45-46页
    5.4 本章小结第46-47页
第6章 分布式主题爬虫实现及结果分析第47-52页
    6.1 分布式主题爬虫实现第47-49页
        6.1.1 Nutch运行环境搭建第47-48页
        6.1.2 分布式主题爬虫总体架构第48-49页
    6.2 实验仿真与结果分析第49-51页
        6.2.1 改进自适应主题爬行算法实验对比分析第49-50页
        6.2.2 分布式主题爬虫性能实验及结果分析第50-51页
    6.3 本章小结第51-52页
结论第52-53页
致谢第53-54页
参考文献第54-56页
攻读学位期间取得学术成果第56页

论文共56页,点击 下载论文
上一篇:元认知策略在大学生英语移动学习中的运用
下一篇:Model-Based Human Motion Analysis