面向电子商务网站的增量爬虫设计与实现

摘要	第1-6页
Abstract	第6-9页
插图索引	第9-10页
附表索引	第10-11页
第1章绪论	第11-17页
·课题研究背景及意义	第11-12页
·国内外研究现状	第12-15页
·国外研究现状	第12-14页
·国内研究现状	第14-15页
·本文的研究内容	第15-16页
·论文结构	第16-17页
第2章搜索引擎及网络爬虫相关技术	第17-29页
·搜索引擎的发展	第17-18页
·购物搜索引擎	第18-19页
·网络爬虫	第19-21页
·网络爬虫的工作原理	第19-20页
·网络爬虫的搜索策略	第20-21页
·增量抓取技术	第21-24页
·开源网络爬虫 Heritrix	第24-27页
·Heritrix 爬虫的架构	第24-25页
·抓取任务控制组件CrawlController	第25-26页
·URL 提取组件Frontier	第26页
·处理链接队列Processors	第26-27页
·Heritrix 的多线程机制	第27页
·本章小结	第27-29页
第3章网页增量抓取策略及爬虫系统设计	第29-42页
·电子商务网站的总体特征	第29-30页
·电子商务网站的页面变化规律	第30-31页
·网页变化的特征	第30页
·网页变化的时新性	第30页
·网页变化分析方法	第30-31页
·基于 URL 分类的网页增量抓取策略	第31-34页
·URL 的分类	第31-32页
·基于 URL 分类的网页增量抓取策略	第32-34页
·增量爬虫的系统结构	第34-35页
·系统各模块设计	第35-38页
·用户接口模块	第35-36页
·链接生成模块	第36-37页
·任务控制模块	第37-38页
·中央处理器模块	第38页
·数据模块	第38页
·增量抓取的关键技术	第38-41页
·多线程下载	第38-39页
·网页分析	第39页
·页面检测及更新	第39-41页
·本章小结	第41-42页
第4章基于Heritrix 的增量爬虫系统实现	第42-55页
·开发环境	第42页
·基于 Heritrix 进行扩展	第42-44页
·Heritrix 的配置和运行	第42-43页
·Eclipse 中 Heritrix 的配置	第43-44页
·增量抓取功能的实现	第44-46页
·页面的变化检测	第44-45页
·页面更新的实现	第45-46页
·针对电子商务网站页面分析技术实现	第46-49页
·从列表页获取产品详细页的实现	第46-47页
·产品信息抽取的实现	第47-49页
·URL 的过滤和分类	第49-51页
·URL 过滤规则的实现	第49-50页
·URL 的分类实现	第50-51页
·实验及结果分析	第51-54页
·本章小结	第54-55页
结论与展望	第55-57页
参考文献	第57-61页
致谢	第61-62页
附录A 作者攻读硕士学位期间的主要研究成果	第62页