首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Hadoop的分布式网络爬虫系统的设计与实现

摘要第4-5页
Abstract第5页
1 绪论第11-15页
    1.1 课题研究背景和意义第11-12页
    1.2 国内外研究现状第12-13页
    1.3 主要研究内容第13页
    1.4 论文结构安排第13-15页
2 相关技术研究第15-28页
    2.1 Hadoop分布式平台技术第15-19页
        2.1.1 分布式文件系统HDFS第16-17页
        2.1.2 MapReduce计算框架第17-19页
    2.2 Hbase数据库第19-20页
    2.3 Storm实时处理平台第20页
    2.4 Kafka消息队列第20-22页
    2.5 网络爬虫第22-28页
        2.5.1 网络爬虫基本原理第22页
        2.5.2 页面搜索策略第22-23页
        2.5.3 网络爬虫的物理架构第23-24页
        2.5.4 DNS缓存第24-25页
        2.5.5 爬虫身份标识第25页
        2.5.6 Robots协议第25-26页
        2.5.7 解析Html和非Html文档第26页
        2.5.8 OPIC算法第26-28页
3 系统需求分析第28-36页
    3.1 项目总体目标第28页
    3.2 功能需求第28-34页
        3.2.1 需求描述第29页
        3.2.2 功能分类第29-30页
        3.2.3 确定系统范围和边界第30页
        3.2.4 确定参与者第30页
        3.2.5 构建用例第30-34页
    3.3 性能需求第34-36页
4 系统概要设计第36-48页
    4.1 网络爬虫系统架构设计第36-40页
        4.1.1 网络爬虫运行流程分析第36-38页
        4.1.2 分布式网络爬虫的物理架构设计第38-39页
        4.1.3 分布式网络爬虫的逻辑架构设计第39-40页
    4.2 分布式网络爬虫模块设计第40-41页
    4.3 关键技术设计第41-44页
        4.3.1 URL规范化第41页
        4.3.2 爬虫任务分配策略第41-42页
        4.3.3 平衡礼貌策略第42页
        4.3.4 重新访问策略第42-43页
        4.3.5 页面去重第43-44页
    4.4 分布式网络爬虫的数据库设计第44-48页
        4.4.1 分布式网络爬虫的数据库概念设计第44页
        4.4.2 分布式网络爬虫的数据库表结构设计第44-48页
5 系统详细设计和实现第48-62页
    5.1 InitializePhase模块第48-50页
    5.2 GeneratorPhase模块第50-53页
    5.3 FetcherPhase模块第53-55页
    5.4 ParserPhase模块第55-57页
    5.5 UpdatePhase模块第57-60页
    5.6 CalculateKPI模块第60-62页
6 系统测试第62-68页
    6.1 测试环境第62-63页
        6.1.1 系统软硬件环境第62-63页
        6.1.2 测试环境搭建第63页
    6.2 测试用例第63-65页
    6.3 测试结果第65-68页
7 总结与展望第68-70页
    7.1 论文总结第68页
    7.2 研究展望第68-70页
参考文献第70-72页
致谢第72-73页
个人简历第73页

论文共73页,点击 下载论文
上一篇:机器学习在推荐系统中的应用
下一篇:基于Android平台的自助旅游系统研究与实现