首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

可配置的分布式网页信息抓取系统的设计及实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-14页
    1.1 课题研究背景和意义第9-10页
    1.2 国内外研究现状第10-11页
    1.3 本文主要研究内容第11-12页
    1.4 论文组织结构第12-13页
    1.5 本章小结第13-14页
第二章 相关技术研究第14-25页
    2.1 网络爬虫技术第14-19页
        2.1.1 网络爬虫系统的工作原理第14-15页
        2.1.2 网络爬虫的抓取策略第15-17页
        2.1.3 网络爬虫系统的基本结构第17-18页
        2.1.4 分布式网络爬虫原理第18-19页
    2.2 异步加载技术第19-20页
    2.3 Hadoop分布式系统相关知识第20-23页
        2.3.1 HDFS文件系统第21-22页
        2.3.2 Map/Reduce编程模型第22-23页
    2.4 本章小结第23-25页
第三章 国内主流电商网站相关技术调研和系统需求分析第25-33页
    3.1 电商网站站点结构分析第25-30页
        3.1.1 网站三级结构化第25-28页
        3.1.2 商品信息非结构化第28-30页
    3.2 商品信息抽取面临的主要问题第30-32页
        3.2.1 AJAX技术的广泛应用第31页
        3.2.2 网页层次感和交互性加强第31-32页
    3.3 数据完备性第32页
    3.4 数据重复性第32页
    3.5 本章小结第32-33页
第四章 系统功能设计与实现第33-54页
    4.1 系统整体框架的设计第33-40页
        4.1.1 商品链接提取模块的功能设计与分布式实现第34-37页
        4.1.2 商品信息抽取模块的功能设计与分布式实现第37-40页
    4.2 自配置功能的设计与实现第40-41页
    4.3 静态页面和动态页面相结合的解析策略第41-44页
    4.4 商品信息特征库的建立第44-46页
        4.4.1 正则表达式第44页
        4.4.2 XPATH第44-46页
    4.5 商品信息抽取规则建模第46-47页
    4.6 基于自适应步长的价格区间划分算法的设计与实现第47-49页
    4.7 基于布隆过滤器的二次去重策略第49-53页
    4.8 本章小结第53-54页
第五章 系统性能分析与评价第54-61页
    5.1 系统运行结果展示第54-57页
    5.2 系统性能分析第57-59页
    5.3 本系统与单机爬虫系统的比较第59-60页
    5.4 本章小结第60-61页
第六章 总结与展望第61-63页
    6.1 论文总结第61-62页
    6.2 下一步工作第62-63页
参考文献第63-66页
致谢第66-67页
攻读学位期间发表的学术论文目录第67页

论文共67页,点击 下载论文
上一篇:缺陷检测系统中日志管理方法研究与实现
下一篇:模糊关联规则在网络告警分析中的应用研究