基于规则引擎的个性化网页爬虫研究

摘要	第4-5页
ABSTRACT	第5-6页
目录	第7-9页
第一章绪论	第9-15页
1.1 研究目的和意义	第9-11页
1.2 研究背景和现状	第11-12页
1.3 主要研究工作内容	第12-13页
1.4 研究内容与论文构成	第13-15页
第二章网络爬虫	第15-24页
2.1 爬虫结构	第15-16页
2.2 爬行算法	第16-19页
2.2.1 广度优先爬行算法	第17-18页
2.2.2 深度优先爬行算法	第18-19页
2.2.3 最佳优先爬行算法	第19页
2.3 页面分析算法	第19-21页
2.3.1 基于网络拓扑的分析算法	第19-20页
2.3.2 基于网页内容分析算法	第20-21页
2.4 基于规则引擎的个性化爬虫	第21-23页
2.5 小结	第23-24页
第三章基于规则引擎的个性化爬虫设计	第24-31页
3.1 基于规则引擎的个性化爬虫架构	第24-28页
3.1.1 功能分析	第24-25页
3.1.2 形式化描述	第25-26页
3.1.3 基本流程	第26-28页
3.2 个性化爬虫规则设计	第28-30页
3.3 小结	第30-31页
第四章个性化爬虫实现	第31-44页
4.1 Heritrix爬虫结构	第31-33页
4.2 整合规则引擎	第33-36页
4.2.1 消息转换器	第33-34页
4.2.2 规则引擎与网络爬虫的整合	第34-36页
4.3 爬行规则库	第36-39页
4.3.1 个性化设置规则转换器	第36-38页
4.3.2 爬行算法规则库	第38-39页
4.3.3 网页识别规则库	第39页
4.4 任务管理	第39-41页
4.5 抓取处理	第41-43页
4.6 小结	第43-44页
第五章实验数据及分析	第44-55页
5.1 基于规则引擎的个性化爬虫使用	第44-50页
5.2 传统个性化爬虫与基于规则引擎对比	第50-54页
5.3 小结	第54-55页
第六章总结与展望	第55-58页
6.1 总结	第55-56页
6.2 展望	第56-58页
参考文献	第58-62页
致谢	第62-63页
攻读学位期间主要的研究成果目录	第63页