面向农业信息的主题爬虫的研究与设计
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-8页 |
| 第一章 绪论 | 第8-10页 |
| ·研究的背景与意义 | 第8页 |
| ·课题任务 | 第8-9页 |
| ·论文结构 | 第9-10页 |
| 第二章 相关技术 | 第10-14页 |
| ·搜索引擎NUTCH | 第10-12页 |
| ·nutch已实现的功能和优势 | 第10页 |
| ·nutch架构及其工作流程 | 第10-11页 |
| ·nutch的插件机制 | 第11-12页 |
| ·CYGWIN | 第12页 |
| ·LUKE | 第12页 |
| ·JAVACC | 第12-13页 |
| ·本章小结 | 第13-14页 |
| 第三章 面向农业信息的主题爬虫的的系统设计 | 第14-23页 |
| ·系统设计环境 | 第14-15页 |
| ·系统的需求和设计目标 | 第15-16页 |
| ·主题爬虫的工作原理和流程 | 第16-22页 |
| ·创建用例 | 第19-21页 |
| ·系统动态模型 | 第21-22页 |
| ·本章小结 | 第22-23页 |
| 第四章 主题爬虫的具体实现 | 第23-41页 |
| ·系统实现的准备工作 | 第23-28页 |
| ·开源项目的选择 | 第23-24页 |
| ·nutch的相关研究 | 第24-28页 |
| ·中文分词技术 | 第28-30页 |
| ·中文分词分类 | 第28-30页 |
| ·中文分词介绍 | 第30页 |
| ·基于NUTCH工作流程的修改 | 第30-32页 |
| ·初选模块的实现 | 第32-37页 |
| ·html页面相关分析 | 第32-34页 |
| ·爬取内容页的思路 | 第34-37页 |
| ·实现图片下载 | 第37-38页 |
| ·对爬取网页URL的分析 | 第38-39页 |
| ·正则表达式相关概念 | 第38-39页 |
| ·提取主站url的具体实现 | 第39页 |
| ·实现编码的统一 | 第39-40页 |
| ·编码介绍 | 第39-40页 |
| ·如何判断其编码 | 第40页 |
| ·本章小结 | 第40-41页 |
| 第五章 系统的安装和测试 | 第41-54页 |
| ·NUTCH的安装与配置 | 第41-46页 |
| ·nutch配置过程 | 第41-43页 |
| ·部署Web前端 | 第43-45页 |
| ·将nutch导入Eclipse | 第45-46页 |
| ·在NUTCH中加入中文分词模块 | 第46-49页 |
| ·nutch的Analysis包分析 | 第46-48页 |
| ·以插件的形式加入中文分词 | 第48-49页 |
| ·NUTCH爬取工作实现 | 第49-53页 |
| ·小结 | 第53-54页 |
| 第六章 总结与展望 | 第54-56页 |
| ·论文工作总结 | 第54页 |
| ·本文主要工作和贡献 | 第54页 |
| ·论文的不足 | 第54页 |
| ·展望进一步的工作 | 第54-56页 |
| 附录1:如何判断编码 | 第56-58页 |
| 附录2:配置文件NUTCH-SITE.XML | 第58-59页 |
| 附录3:导入MYECLIPSE对代码进行修改 | 第59-60页 |
| 附录4:中文分词插件的部分代码 | 第60-63页 |
| 参考文献 | 第63-64页 |
| 致谢 | 第64页 |