林产品贸易“暗网”信息获取方法研究

摘要	第1-4页
ABSTRACT	第4-7页
1 绪论	第7-14页
·研究背景	第7-9页
·林产品贸易概述	第7页
·林产品贸易信息化现状	第7-9页
·研究现状	第9-11页
·研究内容和预期成果	第11-12页
·技术路线	第12-14页
2 相关概念与技术综述	第14-19页
·林产品	第14页
·贸易	第14页
·门户网站	第14页
·暗网	第14-15页
·网页URL	第15页
·相对URL	第15页
·网络爬虫	第15-16页
·聚焦爬虫	第16页
·robots.txt文件	第16页
·链接去重	第16页
·进程	第16页
·多线程	第16-17页
·例行性任务	第17页
·正则表达式	第17页
·CSS类	第17页
·MD5算法	第17-18页
·sleep机制	第18页
·网站特征	第18-19页
3 林产品贸易信息获取与实现	第19-32页
·林产品分类及编码方式	第19-27页
·信息源的选择	第27页
·国内主流林产品网站分类	第27-29页
·对象处理方案	第29-32页
·具有两级分类结构的网站	第30页
·分类结构混乱与无分类结构的网站	第30-32页
4 实现与结果分析	第32-49页
·开发运行环境	第32-33页
·开发语言及开发环境	第32-33页
·运行环境	第33页
·体系结构	第33-34页
·数据存储设计	第34-39页
·林产品数据及网站特征数据存储	第34-37页
·待抓取产品链接数据	第37-38页
·林产品详细信息	第38-39页
·信息获取程序流程	第39-40页
·功能实现	第40-46页
·网站特征的增加和修改	第40-41页
·供应/求购链接的定位	第41-42页
·分类链接/产品列表链接的定位	第42-43页
·具有两级分类结构的网站产品信息获取	第43-44页
·分类结构混乱/无分类结构网站产品信息获取	第44页
·产品链接存储以及待抓取链接文件的生成	第44-46页
·抓取过程及对链接文件的处理	第46页
·林产品信息的存储	第46页
·关键问题及解决方案	第46-47页
·多线程抓取	第46-47页
·信息质量保障	第47页
·结果分析	第47-49页
·运行效率	第48页
·信息质量	第48-49页
5 结论	第49-51页
参考文献	第51-55页
个人简介	第55-56页
导师简介	第56-57页
获得成果目录	第57-58页
致谢	第58页