基于Nutch的农业垂直搜索引擎的研究

摘要	第4-5页
Abstract	第5-6页
1 引言	第9-14页
1.1 研究背景	第9-10页
1.2 研究现状	第10-12页
1.2.1 国外研究现状	第10-11页
1.2.2 国内研究现状	第11-12页
1.3 本文的可行性分析与主要工作	第12-13页
1.4 本文结构安排	第13-14页
2 搜索引擎相关技术	第14-23页
2.1 网页抓取策略	第14-15页
2.2 网页信息提取技术	第15-17页
2.2.1 信息提取概述	第15-16页
2.2.2 信息提取技术	第16-17页
2.3 中文分词方法	第17-18页
2.3.1 中文分词方法	第17页
2.3.2 Lucene中文分词器介绍	第17-18页
2.4 网页索引的建立方法	第18-19页
2.5 摘要提取技术	第19-21页
2.5.1 摘要的概述	第19-20页
2.5.2 摘要提取技术	第20-21页
2.6 查询扩展方法	第21-22页
2.6.1 查询扩展概述	第21页
2.6.2 查询扩展方法	第21-22页
2.7 本章小结	第22-23页
3 基于Nutch的农业垂直搜索引擎的技术	第23-36页
3.1 基于广度优先的网页抓取技术	第23-24页
3.2 基于STU-DOM树模型的网页解析技术	第24-28页
3.2.1 网页解析技术的各部分介绍	第24-27页
3.2.2 网页解析技术的的具体流程	第27-28页
3.3 基于统计的摘要提取技术	第28-33页
3.4 基于农业领域本体的查询扩展技术	第33-35页
3.4.1 构建农业领域本体	第33-34页
3.4.2 查询扩展技术	第34-35页
3.5 本章小结	第35-36页
4 农业搜索引擎的设计与实现	第36-52页
4.1 农业搜索的总体设计	第36页
4.2 开发环境	第36-37页
4.2.1 开发平台	第36-37页
4.2.2 开发语言	第37页
4.2.3 开发工具	第37页
4.3 农业搜索引擎的实现	第37-47页
4.3.1 基于广度优先的网页抓取的实现	第37-41页
4.3.2 基于STU-DOM树模型的网页解析的实现	第41页
4.3.3 基于IK Analyzer分词器的中文分词的实现	第41-43页
4.3.4 基于Lucene的倒排索引的实现	第43-44页
4.3.5 信息检索的实现	第44-47页
4.4 结果分析	第47-51页
4.5 本章小结	第51-52页
5 总结与展望	第52-54页
5.1 总结	第52页
5.2 展望	第52-54页
参考文献	第54-56页
作者简历	第56-57页
致谢	第57页