首页--经济论文--农业经济论文--中国农业经济论文--农业部门经济论文--林业论文

林产品供求WEB信息增量获取

摘要第4-5页
ABSTRACT第5页
1 引言第8-14页
    1.1 研究背景第8-9页
    1.2 研究意义第9-10页
    1.3 研究现状第10-12页
        1.3.1 基于HTTP协议的增量抓取第10-11页
        1.3.2 基于预测网页变化的增量抓取第11页
        1.3.3 基于网页分类的增量抓取第11-12页
    1.4 本文研究的主要内容与技术路线第12-14页
        1.4.1 主要研究内容第12页
        1.4.2 技术路线第12-14页
2 网络爬虫相关理论与技术基础第14-19页
    2.1 Web的组成第14页
    2.2 爬虫运行的基本原理第14-15页
    2.3 并行抓取第15-16页
    2.4 网页更新与增量爬虫第16页
    2.5 处理HTML页面第16-18页
        2.5.1 页面解析第16-17页
        2.5.2 正则表达式第17页
        2.5.3 HtmlParser第17-18页
    2.6 信息指纹第18页
    2.7 本章小结第18-19页
3 林产品贸易主题页面采集与指纹信息提取第19-30页
    3.1 林产品贸易网站结构特点第19-20页
    3.2 基于模版的主题页面抓取第20-23页
        3.2.1 使用模版的优势第20-21页
        3.2.2 模版设计与实现第21-23页
    3.3 网页去噪第23-29页
        3.3.1 林产品贸易Web信息特点第23-25页
        3.3.2 林产品贸易Web信息去噪流程第25-26页
        3.3.3 解析页面并生成节点序列第26-28页
        3.3.4 获取噪音模版第28页
        3.3.5 删除网页噪音第28页
        3.3.6 实验设计及结果分析第28-29页
    3.4 指纹生成第29页
    3.5 本章小结第29-30页
4 网页增量抓取策略第30-37页
    4.1 林产品贸易网站更新特点第30页
    4.2 网页更新检测第30-32页
        4.2.1 新增URL的发现第30-31页
        4.2.2 网页内容更新的检测第31-32页
    4.3 基于URL的增量爬取第32-33页
    4.4 基于内容更新的增量爬取第33-36页
        4.4.1 基于泊松模型的更新时间预测第33页
        4.4.2 网页更新概率的动态调整第33-34页
        4.4.3 增量抓取的过程第34-35页
        4.4.4 主要算法描述第35-36页
    4.5 本章小结第36-37页
5 系统实现与结果分析第37-45页
    5.1 系统功能模块设计第37页
    5.2 系统活动图第37-40页
    5.3 系统数据库设计第40-42页
    5.4 系统实现第42页
    5.5 实验第42-44页
    5.6 本章小结第44-45页
6 总结与展望第45-47页
    6.1 总结第45页
    6.2 展望第45-47页
参考文献第47-50页
个人简介第50-51页
导师简介第51-52页
获得成果目录第52-53页
致谢第53页

论文共53页,点击 下载论文
上一篇:土壤增水剂在大青山山地造林中应用效果研究
下一篇:番茄幼苗耐低地温综合评价及成株耐低地温能力比较研究