首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向电子商务网站的增量爬虫设计与实现

摘要第1-6页
Abstract第6-9页
插图索引第9-10页
附表索引第10-11页
第1章 绪论第11-17页
   ·课题研究背景及意义第11-12页
   ·国内外研究现状第12-15页
     ·国外研究现状第12-14页
     ·国内研究现状第14-15页
   ·本文的研究内容第15-16页
   ·论文结构第16-17页
第2章 搜索引擎及网络爬虫相关技术第17-29页
   ·搜索引擎的发展第17-18页
   ·购物搜索引擎第18-19页
   ·网络爬虫第19-21页
     ·网络爬虫的工作原理第19-20页
     ·网络爬虫的搜索策略第20-21页
   ·增量抓取技术第21-24页
   ·开源网络爬虫 Heritrix第24-27页
     ·Heritrix 爬虫的架构第24-25页
     ·抓取任务控制组件CrawlController第25-26页
     ·URL 提取组件Frontier第26页
     ·处理链接队列Processors第26-27页
     ·Heritrix 的多线程机制第27页
   ·本章小结第27-29页
第3章 网页增量抓取策略及爬虫系统设计第29-42页
   ·电子商务网站的总体特征第29-30页
   ·电子商务网站的页面变化规律第30-31页
     ·网页变化的特征第30页
     ·网页变化的时新性第30页
     ·网页变化分析方法第30-31页
   ·基于 URL 分类的网页增量抓取策略第31-34页
     ·URL 的分类第31-32页
     ·基于 URL 分类的网页增量抓取策略第32-34页
   ·增量爬虫的系统结构第34-35页
   ·系统各模块设计第35-38页
     ·用户接口模块第35-36页
     ·链接生成模块第36-37页
     ·任务控制模块第37-38页
     ·中央处理器模块第38页
     ·数据模块第38页
   ·增量抓取的关键技术第38-41页
     ·多线程下载第38-39页
     ·网页分析第39页
     ·页面检测及更新第39-41页
   ·本章小结第41-42页
第4章 基于Heritrix 的增量爬虫系统实现第42-55页
   ·开发环境第42页
   ·基于 Heritrix 进行扩展第42-44页
     ·Heritrix 的配置和运行第42-43页
     ·Eclipse 中 Heritrix 的配置第43-44页
   ·增量抓取功能的实现第44-46页
     ·页面的变化检测第44-45页
     ·页面更新的实现第45-46页
   ·针对电子商务网站页面分析技术实现第46-49页
     ·从列表页获取产品详细页的实现第46-47页
     ·产品信息抽取的实现第47-49页
   ·URL 的过滤和分类第49-51页
     ·URL 过滤规则的实现第49-50页
     ·URL 的分类实现第50-51页
   ·实验及结果分析第51-54页
   ·本章小结第54-55页
结论与展望第55-57页
参考文献第57-61页
致谢第61-62页
附录A 作者攻读硕士学位期间的主要研究成果第62页

论文共62页,点击 下载论文
上一篇:基于HTTP长连接的服务器推送技术研究
下一篇:基于原生XML数据库与GML的WebGIS应用研究