面向电子商务网站的增量爬虫设计与实现
摘要 | 第1-6页 |
Abstract | 第6-9页 |
插图索引 | 第9-10页 |
附表索引 | 第10-11页 |
第1章 绪论 | 第11-17页 |
·课题研究背景及意义 | 第11-12页 |
·国内外研究现状 | 第12-15页 |
·国外研究现状 | 第12-14页 |
·国内研究现状 | 第14-15页 |
·本文的研究内容 | 第15-16页 |
·论文结构 | 第16-17页 |
第2章 搜索引擎及网络爬虫相关技术 | 第17-29页 |
·搜索引擎的发展 | 第17-18页 |
·购物搜索引擎 | 第18-19页 |
·网络爬虫 | 第19-21页 |
·网络爬虫的工作原理 | 第19-20页 |
·网络爬虫的搜索策略 | 第20-21页 |
·增量抓取技术 | 第21-24页 |
·开源网络爬虫 Heritrix | 第24-27页 |
·Heritrix 爬虫的架构 | 第24-25页 |
·抓取任务控制组件CrawlController | 第25-26页 |
·URL 提取组件Frontier | 第26页 |
·处理链接队列Processors | 第26-27页 |
·Heritrix 的多线程机制 | 第27页 |
·本章小结 | 第27-29页 |
第3章 网页增量抓取策略及爬虫系统设计 | 第29-42页 |
·电子商务网站的总体特征 | 第29-30页 |
·电子商务网站的页面变化规律 | 第30-31页 |
·网页变化的特征 | 第30页 |
·网页变化的时新性 | 第30页 |
·网页变化分析方法 | 第30-31页 |
·基于 URL 分类的网页增量抓取策略 | 第31-34页 |
·URL 的分类 | 第31-32页 |
·基于 URL 分类的网页增量抓取策略 | 第32-34页 |
·增量爬虫的系统结构 | 第34-35页 |
·系统各模块设计 | 第35-38页 |
·用户接口模块 | 第35-36页 |
·链接生成模块 | 第36-37页 |
·任务控制模块 | 第37-38页 |
·中央处理器模块 | 第38页 |
·数据模块 | 第38页 |
·增量抓取的关键技术 | 第38-41页 |
·多线程下载 | 第38-39页 |
·网页分析 | 第39页 |
·页面检测及更新 | 第39-41页 |
·本章小结 | 第41-42页 |
第4章 基于Heritrix 的增量爬虫系统实现 | 第42-55页 |
·开发环境 | 第42页 |
·基于 Heritrix 进行扩展 | 第42-44页 |
·Heritrix 的配置和运行 | 第42-43页 |
·Eclipse 中 Heritrix 的配置 | 第43-44页 |
·增量抓取功能的实现 | 第44-46页 |
·页面的变化检测 | 第44-45页 |
·页面更新的实现 | 第45-46页 |
·针对电子商务网站页面分析技术实现 | 第46-49页 |
·从列表页获取产品详细页的实现 | 第46-47页 |
·产品信息抽取的实现 | 第47-49页 |
·URL 的过滤和分类 | 第49-51页 |
·URL 过滤规则的实现 | 第49-50页 |
·URL 的分类实现 | 第50-51页 |
·实验及结果分析 | 第51-54页 |
·本章小结 | 第54-55页 |
结论与展望 | 第55-57页 |
参考文献 | 第57-61页 |
致谢 | 第61-62页 |
附录A 作者攻读硕士学位期间的主要研究成果 | 第62页 |