首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

一种增量式并行Web信息采集系统

第一章 引言第1-11页
   ·背景第8-9页
   ·本文安排第9-11页
第二章 WEB信息采集概述第11-22页
   ·WEB信息采集系统的基本原理第11页
   ·WEB信息采集系统的基本结构第11-13页
     ·URL处理模块第11-12页
     ·协议处理模块第12页
     ·重复内容检测模块第12-13页
     ·提取模块第13页
     ·Meta信息获取模块第13页
     ·数据库第13页
   ·WEB信息采集面临的主要困难和相应的技术手段第13-15页
     ·Web的特点第13-14页
     ·Web采集面临的技术困难和相应手段第14-15页
   ·一个典型的WEB信息采集器第15-16页
   ·WEB信息采集的研究现状第16-22页
     ·基于整个Web的信息采集第16-17页
     ·增量式Web信息采集第17-18页
     ·基于主题的Web信息采集第18-19页
     ·基于元搜索的信息采集第19-20页
     ·基于用户个性化的Web信息采集第20页
     ·基于Agent的信息采集第20-21页
     ·迁移的信息采集第21-22页
第三章 并行WEB信息采集研究第22-32页
   ·引言第22页
   ·并行WEBCRAWLER架构第22-26页
     ·并行采集模型第22-24页
     ·URL调度策略第24-26页
   ·并行策略第26-27页
     ·处理模式第26-27页
     ·区间划分方法第27页
   ·评估指标第27-28页
   ·一种增量式并行WEBCRAWLER模型第28-32页
     ·各摸块功能描述第29-30页
     ·模型分析第30-32页
第四章 主要算法分析第32-43页
   ·采集算法第32页
   ·URL的调度策略第32-36页
     ·线程池模型与URL队列第32-34页
     ·每个工作线程的抓取流程第34-35页
     ·页面抓取处理第35-36页
   ·页面分析第36-38页
     ·HTML语法分析第36-37页
     ·页面中正方的提取第37页
     ·页面中链接的提取第37-38页
   ·指纹判别算法第38-43页
     ·Rabin's fingerprinting算法及其特性第38-39页
     ·不可约分多项式第39-40页
     ·算法实现第40-41页
     ·算法性能测试效果第41-43页
第五章 增量式并行WEBCRAWLER系统设计第43-54页
   ·系统架构设计第43-44页
   ·数据库设计第44-46页
     ·数据模型第44-45页
     ·sql脚本第45-46页
   ·需求分析与用例设计第46页
   ·系统详细设计第46-54页
     ·顺序图第47-50页
     ·交互图第50-52页
     ·类图第52-54页
第六章 实现与总结第54-70页
   ·JAVA并发编程的设计原则第54-60页
     ·Java内存模型第54-55页
     ·Java并发机制第55-59页
     ·util.concurrent包简介第59-60页
   ·系统实现第60-66页
     ·工作线程与线程池的实现第60-62页
     ·页面解析第62-65页
     ·指纹识别类第65-66页
   ·系统测试与总结第66-70页
     ·测试集的选择第66页
     ·衡量指标第66-67页
     ·程序运行示意图第67-68页
     ·性能测试第68页
     ·结论第68-70页
参考文献第70-72页
附录:在校期间所发表的论文第72-73页
致谢第73页

论文共73页,点击 下载论文
上一篇:邓老冠心胶囊改善冠心病患者生活质量的临床研究
下一篇:J/ψ→γπ~+π~-π~+π~-的分波振幅分析