动态自适应的资源采集系统的设计与实现

摘要	第5-6页
Abstract	第6页
第一章绪论	第13-22页
1.1 研究背景和意义	第13-17页
1.1.1 网络情况对资源采集的影响	第14-15页
1.1.2 链接资源的发现与分布	第15-17页
1.2 国内外研究现状	第17-20页
1.2.1 大规模网页资源采集的影响因素	第18-19页
1.2.2 搜索引擎对动态链接的收录	第19-20页
1.3 主要研究工作和内容	第20-21页
1.4 论文组织结构	第21-22页
第二章相关理论知识	第22-32页
2.1 搜索引擎的基本原理	第22-23页
2.1.1 搜索引擎简介	第22-23页
2.1.2 搜索引擎的工作原理	第23页
2.2 信息采集的基本原理	第23-28页
2.2.1 URL 库	第24页
2.2.2 遵守 Robots 协议	第24页
2.2.3 搜索策略	第24-26页
2.2.4 网页下载	第26-27页
2.2.5 网页解析	第27页
2.2.6 URL 消重	第27-28页
2.2.7 URL 调度	第28页
2.3 网页 URL 的编码	第28-29页
2.4 网页的编码技术	第29-30页
2.5 网页解析	第30-31页
2.6 本章小结	第31-32页
第三章动态自适应的资源采集系统的总体设计	第32-46页
3.1 系统的设计目标	第32-33页
3.2 系统的体系结构	第33-34页
3.3 系统的模块组成	第34-36页
3.4 系统的工作流程	第36-39页
3.5 动态自适应采集策略	第39-45页
3.5.1 基于启发式的实时过滤	第39-41页
3.5.2 基于 URL 特征的网页资源预测发现	第41-42页
3.5.3 相关算法描述	第42-45页
3.6 本章小结	第45-46页
第四章系统的设计与实现	第46-65页
4.1 实时过滤的网页下载模块	第46-54页
4.1.1 网页下载	第46-48页
4.1.2 网页采集情况实时统计模块	第48-52页
4.1.3 实时过滤模块	第52-54页
4.2 网页解析之 URL 抽取	第54-57页
4.2.1 URL 抽取结果的聚类	第55-56页
4.2.2 URL 抽取结果的分类	第56-57页
4.3 URL 过滤模块	第57页
4.4 URL 消重模块	第57-58页
4.5 URL 分析预测模块	第58-63页
4.5.1 挖掘已采集信息的 URL 参数特征	第58-60页
4.5.2 URL 预测的方法及实现机制	第60-63页
4.6 URL 调度模块	第63-64页
4.7 本章小结	第64-65页
第五章系统测试及分析	第65-79页
5.1 系统测试环境	第65页
5.2 系统的运行	第65-66页
5.3 实时过滤的采集测试	第66-72页
5.3.1 评估方法	第67-68页
5.3.2 测试数据	第68-71页
5.3.3 结果分析	第71-72页
5.4 URL 预测方法的效果测试	第72-78页
5.4.1 评估方法	第72页
5.4.2 测试数据	第72-78页
5.4.3 结果分析	第78页
5.5 系统的整体分析	第78页
5.6 本章小结	第78-79页
总结与展望	第79-80页
参考文献	第80-83页
攻读硕士学位期间取得的研究成果	第83-84页
致谢	第84-85页
附件	第85页