基于蚁群算法的主题爬虫技术研究与实现

摘要	第1-6页
Abstract	第6-10页
第1章引言	第10-14页
·选题背景及研究意义	第10-11页
·选题背景	第10页
·选题意义	第10-11页
·国内外发展现状	第11-12页
·本论文的主要工作及结构	第12-14页
·本论文的主要工作	第12页
·论文结构	第12-14页
第2章搜索引擎基础	第14-19页
·搜索引擎发展状况	第14-16页
·搜索引擎的发展历程	第14-15页
·搜索引擎的分类	第15-16页
·垂直搜索引擎	第16页
·垂直搜索引擎原理	第16-19页
·垂直搜索引擎的体系结构	第16-18页
·垂直搜索引擎的工作原理	第18-19页
第3章主题爬虫技术理论	第19-31页
·主题爬虫搜索策略	第19-20页
·网页质量对主题爬虫的影响	第20-24页
·网页质量的标准	第20-22页
·超链接分析技术PageRank 算法	第22-24页
·主题爬虫技术	第24-31页
·主题爬虫概念	第24页
·主题爬虫的理论基础	第24页
·主题相关度分析	第24-26页
·主题爬虫的分类模块	第26-29页
·主题爬虫的流程	第29-31页
第4章蚁群算法指导主题爬虫的相关理论	第31-43页
·蚁群算法	第31-33页
·蚁群算法产生的背景	第31页
·蚁群算法的原理	第31-33页
·蚁群算法的实现	第33-37页
·蚁群算法的基本思想	第33-34页
·蚁群算法的实现（java）	第34-37页
·服务器日志分析	第37-39页
·Web 服务器日志	第37-38页
·日志格式解析	第38-39页
·Web 服务器日志挖掘	第39-41页
·Web 日志挖掘	第39-40页
·Web 日志挖掘中的会话识别	第40-41页
·蚁群算法在日志挖掘中模型定义	第41-43页
第5章主题爬虫的实现及实验分析	第43-56页
·观点提出的依据	第43-44页
·从用户角度分析	第43页
·从日志挖掘角度分析	第43-44页
·从蚁群算法本身分析	第44页
·网络爬虫Heritrix	第44-47页
·Heritrix 介绍	第44-45页
·Heritrix 架构设计分析	第45-47页
·主题爬虫实现	第47-53页
·选择爬取的网站	第47页
·在Heritrix 中为爬虫开发抓取所需的定制类	第47-53页
·蚁群算法指导主题爬虫策略	第53-55页
·实验结果分析	第55-56页
结论	第56-58页
本论文总结	第56页
主题爬虫未来展望	第56-58页
致谢	第58-59页
参考文献	第59-61页
攻读学位期间取得学术成果	第61页