首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向主题的多线程网络爬虫的设计与实现

摘要第4-5页
Abstract第5页
第1章 绪论第9-13页
    1.1 研究背景和意义第9-10页
    1.2 国内外研究现状第10-12页
        1.2.1 国外研究现状第10页
        1.2.2 国内研究现状第10-11页
        1.2.3 发展趋势第11-12页
    1.3 本文内容和安排第12-13页
第2章 相关概念及关键技术第13-25页
    2.1 网络爬虫概述第13页
    2.2 通用爬虫第13-16页
        2.2.1 体系结构第13-14页
        2.2.2 搜索策略第14-16页
    2.3 主题爬虫第16-18页
        2.3.1 体系结构与工作流程第16-17页
        2.3.2 搜索策略第17-18页
    2.4 网页预处理第18-20页
        2.4.1 网页内容结构化第18页
        2.4.2 页面内容的提取与去重第18-20页
    2.5 基于内容评价的搜索策略第20-21页
        2.5.1 Fish-Search算法第20-21页
        2.5.2 Shark-Search算法第21页
    2.6 基于链接分析的搜索策略第21-25页
        2.6.1 PageRank算法第21-23页
        2.6.2 HITS算法第23-25页
第3章 需求分析第25-28页
    3.1 业务分析第25-26页
    3.2 功能性需求第26-27页
    3.3 非功能性需求第27-28页
第4章 基本架构和总体设计第28-37页
    4.1 基本架构第28-29页
    4.2 功能模块的设计第29-34页
        4.2.1 爬行控制第29页
        4.2.2 页面采集第29-30页
        4.2.3 URL管理第30页
        4.2.4 页面分析第30-31页
        4.2.5 相关度评价第31-32页
        4.2.6 多线程管理第32-34页
    4.3 数据库设计第34-35页
    4.4 web平台设计第35-37页
第5章 功能模块的实现第37-49页
    5.1 开发环境及工具第37-38页
    5.2 网页抓取模块组的实现第38-45页
        5.2.1 爬行控制模块第38页
        5.2.2 页面采集模块第38-40页
        5.2.3 URL管理模块第40-41页
        5.2.4 页面分析模块第41-42页
        5.2.5 相关度评价模块第42-44页
        5.2.6 线程池模块第44-45页
    5.3 前端展示模块组的实现第45-49页
        5.3.1 数据存储第45-46页
        5.3.2 web应用平台第46-49页
第6章 系统测试分析第49-54页
    6.1 测试环境说明第49页
    6.2 测试结果及分析第49-52页
        6.2.1 功能测试第49-51页
        6.2.2 性能测试第51-52页
    6.3 总结第52-54页
参考文献第54-56页
在校期间的科研成果第56-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:欧亚大陆积雪在NCEP CFSv2中的可预测性研究
下一篇:基于恒星观测的中短波红外在轨辐射定标方法研究