面向农业信息的主题爬虫的研究与设计

摘要	第1-5页
ABSTRACT	第5-8页
第一章绪论	第8-10页
·研究的背景与意义	第8页
·课题任务	第8-9页
·论文结构	第9-10页
第二章相关技术	第10-14页
·搜索引擎NUTCH	第10-12页
·nutch已实现的功能和优势	第10页
·nutch架构及其工作流程	第10-11页
·nutch的插件机制	第11-12页
·CYGWIN	第12页
·LUKE	第12页
·JAVACC	第12-13页
·本章小结	第13-14页
第三章面向农业信息的主题爬虫的的系统设计	第14-23页
·系统设计环境	第14-15页
·系统的需求和设计目标	第15-16页
·主题爬虫的工作原理和流程	第16-22页
·创建用例	第19-21页
·系统动态模型	第21-22页
·本章小结	第22-23页
第四章主题爬虫的具体实现	第23-41页
·系统实现的准备工作	第23-28页
·开源项目的选择	第23-24页
·nutch的相关研究	第24-28页
·中文分词技术	第28-30页
·中文分词分类	第28-30页
·中文分词介绍	第30页
·基于NUTCH工作流程的修改	第30-32页
·初选模块的实现	第32-37页
·html页面相关分析	第32-34页
·爬取内容页的思路	第34-37页
·实现图片下载	第37-38页
·对爬取网页URL的分析	第38-39页
·正则表达式相关概念	第38-39页
·提取主站url的具体实现	第39页
·实现编码的统一	第39-40页
·编码介绍	第39-40页
·如何判断其编码	第40页
·本章小结	第40-41页
第五章系统的安装和测试	第41-54页
·NUTCH的安装与配置	第41-46页
·nutch配置过程	第41-43页
·部署Web前端	第43-45页
·将nutch导入Eclipse	第45-46页
·在NUTCH中加入中文分词模块	第46-49页
·nutch的Analysis包分析	第46-48页
·以插件的形式加入中文分词	第48-49页
·NUTCH爬取工作实现	第49-53页
·小结	第53-54页
第六章总结与展望	第54-56页
·论文工作总结	第54页
·本文主要工作和贡献	第54页
·论文的不足	第54页
·展望进一步的工作	第54-56页
附录1:如何判断编码	第56-58页
附录2:配置文件NUTCH-SITE.XML	第58-59页
附录3:导入MYECLIPSE对代码进行修改	第59-60页
附录4:中文分词插件的部分代码	第60-63页
参考文献	第63-64页
致谢	第64页