首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

金融信贷背景下分布式信息采集策略研究

摘要第6-7页
abstract第7-8页
第一章 绪论第11-18页
    1.1 研究背景第11-12页
    1.2 研究现状及存在问题第12-15页
        1.2.1 网络爬虫研究现状及问题第12-13页
        1.2.2 精准信息采集研究现状及问题第13-15页
    1.3 主要研究内容第15-16页
    1.4 论文结构安排第16-18页
第二章 相关技术基础第18-29页
    2.1 引言第18页
    2.2 网络爬虫工作原理第18-25页
        2.2.1 网络爬虫基本结构第18-20页
        2.2.2 网络爬虫分类第20-23页
        2.2.3 增量爬取策略简介第23页
        2.2.4 常见网络爬虫简介第23-25页
    2.3 多线程下载技术第25-26页
        2.3.1 多线程下载必要性第25-26页
        2.3.2 多线程下载引起问题与解决方法第26页
    2.4 网页分析第26-28页
        2.4.1 HTTP协议简介第27页
        2.4.2 页面链接的提取第27-28页
    2.5 本章小结第28-29页
第三章 通用型分布式爬虫关键技术第29-57页
    3.1 引言第29页
    3.2 爬虫总体结构设计第29-33页
        3.2.1 爬虫体系结构简介第29-31页
        3.2.2 改进的体系结构第31-33页
    3.3 各功能模块详解第33-50页
        3.3.1 控制器模块设计第34-43页
        3.3.2 爬虫器模拟设计第43-46页
        3.3.3 代理器模块设计第46-47页
        3.3.4 通信模块设计第47-50页
    3.4 异常处理机制第50-52页
    3.5 系统评测第52-56页
        3.5.1 布隆过滤器实验分析第52-55页
        3.5.2 分布式爬虫实验分析第55-56页
    3.6 本章小结第56-57页
第四章 精准信息采集关键技术第57-70页
    4.1 引言第57页
    4.2 数据源第57-61页
        4.2.1 数据源简介第57-59页
        4.2.2 数据源分类第59-61页
        4.2.3 目标数据源第61页
    4.3 有效链接获取第61-66页
        4.3.1 基于特征选择的策略第62-64页
        4.3.2 基于前后页相关的策略第64-65页
        4.3.3 有效链接获取策略第65-66页
    4.4 采集效果评测第66-69页
    4.5 本章小结第69-70页
第五章 总结与展望第70-72页
    5.1 本文工作总结第70-71页
    5.2 进一步工作第71-72页
参考文献第72-75页
致谢第75-76页
附录第76-77页

论文共77页,点击 下载论文
上一篇:一种基于用户聚合的双词主题模型及其在短文本推荐中的应用研究
下一篇:基于多标签新闻语料的阅读者情感分析