林产品供求WEB信息增量获取

摘要	第4-5页
ABSTRACT	第5页
1 引言	第8-14页
1.1 研究背景	第8-9页
1.2 研究意义	第9-10页
1.3 研究现状	第10-12页
1.3.1 基于HTTP协议的增量抓取	第10-11页
1.3.2 基于预测网页变化的增量抓取	第11页
1.3.3 基于网页分类的增量抓取	第11-12页
1.4 本文研究的主要内容与技术路线	第12-14页
1.4.1 主要研究内容	第12页
1.4.2 技术路线	第12-14页
2 网络爬虫相关理论与技术基础	第14-19页
2.1 Web的组成	第14页
2.2 爬虫运行的基本原理	第14-15页
2.3 并行抓取	第15-16页
2.4 网页更新与增量爬虫	第16页
2.5 处理HTML页面	第16-18页
2.5.1 页面解析	第16-17页
2.5.2 正则表达式	第17页
2.5.3 HtmlParser	第17-18页
2.6 信息指纹	第18页
2.7 本章小结	第18-19页
3 林产品贸易主题页面采集与指纹信息提取	第19-30页
3.1 林产品贸易网站结构特点	第19-20页
3.2 基于模版的主题页面抓取	第20-23页
3.2.1 使用模版的优势	第20-21页
3.2.2 模版设计与实现	第21-23页
3.3 网页去噪	第23-29页
3.3.1 林产品贸易Web信息特点	第23-25页
3.3.2 林产品贸易Web信息去噪流程	第25-26页
3.3.3 解析页面并生成节点序列	第26-28页
3.3.4 获取噪音模版	第28页
3.3.5 删除网页噪音	第28页
3.3.6 实验设计及结果分析	第28-29页
3.4 指纹生成	第29页
3.5 本章小结	第29-30页
4 网页增量抓取策略	第30-37页
4.1 林产品贸易网站更新特点	第30页
4.2 网页更新检测	第30-32页
4.2.1 新增URL的发现	第30-31页
4.2.2 网页内容更新的检测	第31-32页
4.3 基于URL的增量爬取	第32-33页
4.4 基于内容更新的增量爬取	第33-36页
4.4.1 基于泊松模型的更新时间预测	第33页
4.4.2 网页更新概率的动态调整	第33-34页
4.4.3 增量抓取的过程	第34-35页
4.4.4 主要算法描述	第35-36页
4.5 本章小结	第36-37页
5 系统实现与结果分析	第37-45页
5.1 系统功能模块设计	第37页
5.2 系统活动图	第37-40页
5.3 系统数据库设计	第40-42页
5.4 系统实现	第42页
5.5 实验	第42-44页
5.6 本章小结	第44-45页
6 总结与展望	第45-47页
6.1 总结	第45页
6.2 展望	第45-47页
参考文献	第47-50页
个人简介	第50-51页
导师简介	第51-52页
获得成果目录	第52-53页
致谢	第53页