首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的分布式爬虫系统的研究与优化

摘要第5-6页
Abstract第6-7页
第1章 绪论第10-16页
    1.1 课题研究背景第10-12页
    1.2 课题研究现状第12-13页
    1.3 课题研究内容及意义第13-14页
    1.4 论文组织结构第14-16页
第2章 Hadoop分布式平台和Nutch框架分析第16-28页
    2.1 Hadoop分布式平台第16-20页
        2.1.1 Hadoop分布式文件系统第17-18页
        2.1.2 Map/Reduce分布式计算模型第18-20页
    2.2 Nutch框架第20-28页
        2.2.1 Nutch工作原理第20-21页
        2.2.2 Nutch工作流程第21-25页
        2.2.3 Nutch插件机制第25-28页
第3章 网页去重算法和网页排序算法的研究与优化第28-56页
    3.1 网页去重算法优化第28-47页
        3.1.1 基于特征码的网页去重算法分析第28-32页
        3.1.2 中文网页去重算法分析第32-37页
        3.1.3 基于加权特征句抽取的网页去重算法设计第37-47页
    3.2 网页排序算法优化第47-56页
        3.2.1 基于网页内容的排序算法分析第48-51页
        3.2.2 基于网页链接结构的排序算法分析第51-52页
        3.2.3 基于文档指纹与页面重要性的PageRank算法设计第52-56页
第4章 分布式爬虫系统设计与实现第56-66页
    4.1 网页去重模块分析第56-60页
        4.1.1 去重模块总体设计第56-57页
        4.1.2 去重过程的Map/Reduce实现第57-60页
    4.2 网页排序模块分析第60-62页
        4.2.1 排序模块总体设计第60-61页
        4.2.2 排序过程的Map/Reduce实现第61-62页
    4.3 中文分词的实现第62-66页
第5章 实验及结果分析第66-76页
    5.1 实验环境搭载第66-70页
        5.1.1 Hadoop环境搭建第66-69页
        5.1.2 Nutch环境搭建第69-70页
    5.2 实验结果及分析第70-75页
        5.2.1 去重算法实验及分析第71-74页
        5.2.2 排序算法实验及分析第74-75页
    5.3 实验总结第75-76页
第6章 总结与展望第76-78页
    6.1 本文总结第76页
    6.2 未来展望第76-78页
参考文献第78-84页
致谢第84-86页
攻读硕士学位期间发表的论文第86页

论文共86页,点击 下载论文
上一篇:矿业MES系统物流管理模块的设计与实现
下一篇:面向虚拟机性能保障的服务组件迁移方法研究