一种增量式并行Web信息采集系统

第一章引言	第1-11页
·背景	第8-9页
·本文安排	第9-11页
第二章 WEB信息采集概述	第11-22页
·WEB信息采集系统的基本原理	第11页
·WEB信息采集系统的基本结构	第11-13页
·URL处理模块	第11-12页
·协议处理模块	第12页
·重复内容检测模块	第12-13页
·提取模块	第13页
·Meta信息获取模块	第13页
·数据库	第13页
·WEB信息采集面临的主要困难和相应的技术手段	第13-15页
·Web的特点	第13-14页
·Web采集面临的技术困难和相应手段	第14-15页
·一个典型的WEB信息采集器	第15-16页
·WEB信息采集的研究现状	第16-22页
·基于整个Web的信息采集	第16-17页
·增量式Web信息采集	第17-18页
·基于主题的Web信息采集	第18-19页
·基于元搜索的信息采集	第19-20页
·基于用户个性化的Web信息采集	第20页
·基于Agent的信息采集	第20-21页
·迁移的信息采集	第21-22页
第三章并行WEB信息采集研究	第22-32页
·引言	第22页
·并行WEBCRAWLER架构	第22-26页
·并行采集模型	第22-24页
·URL调度策略	第24-26页
·并行策略	第26-27页
·处理模式	第26-27页
·区间划分方法	第27页
·评估指标	第27-28页
·一种增量式并行WEBCRAWLER模型	第28-32页
·各摸块功能描述	第29-30页
·模型分析	第30-32页
第四章主要算法分析	第32-43页
·采集算法	第32页
·URL的调度策略	第32-36页
·线程池模型与URL队列	第32-34页
·每个工作线程的抓取流程	第34-35页
·页面抓取处理	第35-36页
·页面分析	第36-38页
·HTML语法分析	第36-37页
·页面中正方的提取	第37页
·页面中链接的提取	第37-38页
·指纹判别算法	第38-43页
·Rabin's fingerprinting算法及其特性	第38-39页
·不可约分多项式	第39-40页
·算法实现	第40-41页
·算法性能测试效果	第41-43页
第五章增量式并行WEBCRAWLER系统设计	第43-54页
·系统架构设计	第43-44页
·数据库设计	第44-46页
·数据模型	第44-45页
·sql脚本	第45-46页
·需求分析与用例设计	第46页
·系统详细设计	第46-54页
·顺序图	第47-50页
·交互图	第50-52页
·类图	第52-54页
第六章实现与总结	第54-70页
·JAVA并发编程的设计原则	第54-60页
·Java内存模型	第54-55页
·Java并发机制	第55-59页
·util.concurrent包简介	第59-60页
·系统实现	第60-66页
·工作线程与线程池的实现	第60-62页
·页面解析	第62-65页
·指纹识别类	第65-66页
·系统测试与总结	第66-70页
·测试集的选择	第66页
·衡量指标	第66-67页
·程序运行示意图	第67-68页
·性能测试	第68页
·结论	第68-70页
参考文献	第70-72页
附录：在校期间所发表的论文	第72-73页
致谢	第73页