首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

一种面向主题的分布式爬虫系统的研究与实现

摘要第5-6页
Abstract第6-7页
第1章 绪论第11-15页
    1.1 课题研究背景第11-12页
    1.2 本文的研究工作第12-13页
    1.3 本文的组织结构第13-15页
第2章 相关理论与技术第15-25页
    2.1 云计算技术架构第15-17页
        2.1.1 Google分布式文件系统GFS第15-16页
        2.1.2 hadoop分布式文件系统HDFS第16-17页
    2.2 key/value数据库——Berkeley DB第17-18页
    2.3 Heritrix分析第18-20页
    2.4 数据的判重第20-21页
    2.5 hadoop的使用第21-23页
        2.5.1 配置ssh无密码访问第21页
        2.5.2 安装hadoop第21-23页
    2.6 本章小结第23-25页
第3章 面向分布式爬虫的主题模型关键技术研究第25-35页
    3.1 基于字典的主题模型关键技术研究第25-27页
        3.1.1 基于字典的主题模型的研究方案第25-26页
        3.1.2 基于字典的主题模型的优缺点第26-27页
    3.2 基于文本分析的主题模型关键技术研究第27-30页
        3.2.1 基于文本分析的主题模型的整体结构第27-28页
        3.2.2 文本相关度检查器的研究方案第28-29页
        3.2.3 链接相关度检查的研究方案第29-30页
    3.3 基于网页结构的主题模型关键技术研究第30-33页
        3.3.1 主题模型的总体架构第30-31页
        3.3.2 主题模型抽取器的研究方案第31页
        3.3.3 主题相关度判别器的方案第31-32页
        3.3.4 链接相关性判别器的研究方案第32-33页
    3.4 本章小结第33-35页
第4章 分布式爬虫系统关键技术研究第35-45页
    4.1 面向主题的分布式爬虫系统整体架构第35-36页
    4.2 主控节点第36-41页
        4.2.1 主控节点的整体架构第37-38页
        4.2.2 URL判重第38-39页
        4.2.3 主控节点的数据管理第39-40页
        4.2.4 任务的分发第40-41页
    4.3 爬虫子节点第41-43页
        4.3.1 爬虫子节点的整体架构第41-42页
        4.3.2 抓取数据格式信息第42-43页
    4.4 本章小结第43-45页
第5章 面向主题的分布式爬虫系统设计与实现第45-65页
    5.1 数据管理第45-47页
        5.1.1 主控节点数据管理第45-46页
        5.1.2 爬虫端数据管理第46页
        5.1.3 HDFS中的数据管理第46-47页
    5.2 主控节点功能设计与实现第47-52页
        5.2.1 主控节点启动功能设计与实现第47-48页
        5.2.2 主控节点启动爬虫的设计与实现第48-49页
        5.2.3 主控节点管理模块设计与实现第49-51页
        5.2.4 BloomFilter的设计与实现第51-52页
    5.3 爬虫端的设计与实现第52-60页
        5.3.1 配置管理第52页
        5.3.2 爬虫的启动第52-54页
        5.3.3 爬取线程设计第54-55页
        5.3.4 处理器的设计与实现第55-60页
    5.4 主题算法的实现第60-63页
        5.4.1 基于字典的主题模型算法实现第60-61页
        5.4.2 基于文本分析的主题模型算法实现第61-62页
        5.4.3 基于网页结构的主题模型算法实现第62-63页
    5.5 本章小结第63-65页
第6章 系统测试和分析第65-75页
    6.1 系统测试环境第65-67页
        6.1.1 硬件/软件环境第65页
        6.1.2 软件环境安装第65-67页
    6.2 系统评价机制第67-68页
    6.3 系统性能测试及结果分析第68-72页
        6.3.1 基于字典的主题模型算法的抓取结果及分析第68-69页
        6.3.2 基于文本分析的主题模型算法的抓取结果及分析第69-70页
        6.3.3 基于网页结构的主题模型算法的爬行结果及其分析第70-71页
        6.3.4 主题爬虫系统与Heritrix爬虫的对比实验及其分析第71-72页
    6.4 HDFS的抓取结果第72-73页
    6.5 本章小结第73-75页
第7章 总结与展望第75-77页
    7.1 工作总结第75页
    7.2 下一步工作第75-77页
参考文献第77-81页
致谢第81-83页
研究生期间参与的项目及获奖情况第83页

论文共83页,点击 下载论文
上一篇:航天器在轨可更换模块设计与分析
下一篇:Ti/Co阴极催化还原结合电解氯氧化无害化去除硝酸盐氮研究