首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向农业信息的主题爬虫的研究与设计

摘要第1-5页
ABSTRACT第5-8页
第一章 绪论第8-10页
   ·研究的背景与意义第8页
   ·课题任务第8-9页
   ·论文结构第9-10页
第二章 相关技术第10-14页
   ·搜索引擎NUTCH第10-12页
     ·nutch已实现的功能和优势第10页
     ·nutch架构及其工作流程第10-11页
     ·nutch的插件机制第11-12页
   ·CYGWIN第12页
   ·LUKE第12页
   ·JAVACC第12-13页
   ·本章小结第13-14页
第三章 面向农业信息的主题爬虫的的系统设计第14-23页
   ·系统设计环境第14-15页
   ·系统的需求和设计目标第15-16页
   ·主题爬虫的工作原理和流程第16-22页
     ·创建用例第19-21页
     ·系统动态模型第21-22页
   ·本章小结第22-23页
第四章 主题爬虫的具体实现第23-41页
   ·系统实现的准备工作第23-28页
     ·开源项目的选择第23-24页
     ·nutch的相关研究第24-28页
   ·中文分词技术第28-30页
     ·中文分词分类第28-30页
     ·中文分词介绍第30页
   ·基于NUTCH工作流程的修改第30-32页
   ·初选模块的实现第32-37页
     ·html页面相关分析第32-34页
     ·爬取内容页的思路第34-37页
   ·实现图片下载第37-38页
   ·对爬取网页URL的分析第38-39页
     ·正则表达式相关概念第38-39页
     ·提取主站url的具体实现第39页
   ·实现编码的统一第39-40页
     ·编码介绍第39-40页
     ·如何判断其编码第40页
   ·本章小结第40-41页
第五章 系统的安装和测试第41-54页
   ·NUTCH的安装与配置第41-46页
     ·nutch配置过程第41-43页
     ·部署Web前端第43-45页
     ·将nutch导入Eclipse第45-46页
   ·在NUTCH中加入中文分词模块第46-49页
     ·nutch的Analysis包分析第46-48页
     ·以插件的形式加入中文分词第48-49页
   ·NUTCH爬取工作实现第49-53页
   ·小结第53-54页
第六章 总结与展望第54-56页
   ·论文工作总结第54页
   ·本文主要工作和贡献第54页
   ·论文的不足第54页
   ·展望进一步的工作第54-56页
附录1:如何判断编码第56-58页
附录2:配置文件NUTCH-SITE.XML第58-59页
附录3:导入MYECLIPSE对代码进行修改第59-60页
附录4:中文分词插件的部分代码第60-63页
参考文献第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:基于用户交互的web图像标注框架设计与实现
下一篇:网络业务控制系统设计与实现