首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向垂直搜索的网络爬虫设计与实现

摘要第3-4页
ABSTRACT第4-5页
第一章 绪论第9-13页
    1.1 背景与意义第9-10页
    1.2 本文研究内容及贡献第10-12页
        1.2.1 面临挑战第10-11页
        1.2.2 提出问题第11页
        1.2.3 解决方案第11-12页
    1.3 论文组织结构第12-13页
第二章 相关技术研究第13-24页
    2.1 搜索引擎相关技术第13-17页
        2.1.1 网络爬虫第13-15页
        2.1.2 索引技术第15-16页
        2.1.3 排序技术第16-17页
    2.2 本文用到的开源软件第17-21页
        2.2.1 Jsoup第17-18页
        2.2.2 Gson第18-19页
        2.2.3 Nginx第19-20页
        2.2.4 Varnish第20页
        2.2.5 Lighttpd第20页
        2.2.6 Tomcat第20-21页
    2.3 爬虫选型第21-23页
        2.3.1 Nutch第21-22页
        2.3.2 Heritrix第22-23页
        2.3.3 ChangyouSpider第23页
    2.4 本章小结第23-24页
第三章 畅邮系统架构设计第24-29页
    3.1 畅邮系统架构设计第24-26页
    3.2 服务器选型第26-28页
        3.2.1 负载均衡服务器第26-27页
        3.2.2 缓存服务器第27页
        3.2.3 web服务器第27-28页
        3.2.4 图片服务器第28页
    3.3 本章小结第28-29页
第四章 Heritrix源码分析第29-41页
    4.1 Heritrix系统概况第29-30页
    4.2 Heritrix系统源码分析第30-40页
        4.2.1 Heritrix中央控制器第30-32页
        4.2.2 Heritrix调度器第32-37页
        4.2.3 Heritrix处理器链第37-39页
        4.2.4 Heritrix多线程第39-40页
    4.3 本章小结第40-41页
第五章 基于Heritrix爬虫系统的设计和实现第41-59页
    5.1 基于Heritrix的爬虫系统设计第41-44页
        5.1.1 图书搜索第41-42页
        5.1.2 视频搜索第42-44页
    5.2 基于Heritrix爬虫系统的实现第44-55页
        5.2.1 基于图书抓取的Heritrix的定制第46-50页
        5.2.2 基于视频抓取Heritrix的定制第50-54页
        5.2.3 异步加载网页的处理和抓取第54-55页
    5.3 抓取的更新策略第55-56页
        5.3.1 图书抓取更新策略第55-56页
        5.3.2 视频抓取更新策略第56页
    5.4 自动化抓取第56-57页
    5.5 爬虫报警机制第57-58页
    5.6 本章小结第58-59页
第六章 ChangyouSpider系统的设计和实现第59-63页
    6.1 ChangyouSpider系统架构第59-60页
    6.2 ChangyouSpider工作流程第60-61页
        6.2.1 数据的抓取第60-61页
        6.2.2 数据的解析第61页
        6.2.3 数据的处理第61页
    6.3 ChangyouSpider自动化抓取第61-62页
    6.4 本章小结第62-63页
第七章 抓取数据的验证第63-71页
    7.1 测试环境第63-64页
        7.1.1 测试环境平台第63页
        7.1.2 测试指标和参数第63-64页
    7.2 爬虫系统功能和性能验证第64-70页
        7.2.1 抓取的全面性第64-67页
        7.2.2 抓取的杂质率第67-68页
        7.2.3 异步加载抓取的测试第68-69页
        7.2.4 链接有效性第69-70页
    7.3 本章小结第70-71页
第八章 总结与展望第71-74页
    8.1 本文工作总结第71-72页
    8.2 今后工作展望第72-74页
参考文献第74-77页
致谢第77-78页
攻读学位期间发表的学术论文和科研情况第78页

论文共78页,点击 下载论文
上一篇:刺葡萄遗传多样性鉴定及栽培性状评价
下一篇:室内外定位接收机关键技术研究实现