基于Nutch的医疗搜索引擎的研究与开发

摘要	第4-5页
Abstract	第5-6页
第一章引言	第9-13页
1.1 研究背景	第9-10页
1.2 国内外研究现状	第10-11页
1.3 研究目的与意义	第11页
1.4 论文的主要内容	第11-12页
1.5 小结	第12-13页
第二章基于 Nutch 的医疗搜索引擎的相关技术	第13-27页
2.1 搜索引擎工作原理	第13-16页
2.2 垂直搜索引擎工作原理	第16-18页
2.2.1 垂直搜索引擎的结构	第16-17页
2.2.2 垂直搜索引擎信息采集策略	第17-18页
2.3 垂直搜索引擎技术特点	第18-21页
2.3.1 与通用搜索引擎比较	第18-19页
2.3.2 垂直搜索引擎的研究重点	第19-21页
2.4 Nutch 相关技术	第21-25页
2.4.1 Nutch 简介	第21页
2.4.2 Lucene 简介	第21-23页
2.4.3 Nutch 的系统架构	第23-25页
2.5 其它相关知识介绍	第25-26页
2.5.1 HTMLParser	第25-26页
2.5.2 Cygwin	第26页
2.5.3 Tomcat	第26页
2.6 小结	第26-27页
第三章中文分词技术及 Nutch 中文分词功能的实现	第27-32页
3.1 中文分词技术	第27页
3.2 中文分词算法	第27-29页
3.2.1 基于机械匹配的分词算法	第27-28页
3.2.2 基于语言统计模型的分词算法	第28页
3.2.3 基于人工智能的分词算法	第28-29页
3.3 Nutch 中文分词的实现	第29-31页
3.4 小结	第31-32页
第四章医疗搜索引擎的设计与实现	第32-54页
4.1 系统设计的需求分析	第32页
4.2 系统用例模型	第32-34页
4.2.1 角色分析	第32-33页
4.2.2 创建用例	第33-34页
4.3 系统结构及工作流程	第34-37页
4.4 起始 UTL 列表生成	第37-40页
4.4.1 起始 URL 的选取要求	第37-38页
4.4.2 URL 列表的获得	第38-39页
4.4.3 具体实现策略	第39-40页
4.5 主题相关性判断的实现	第40-51页
4.5.1 主题特征向量的产生方法	第40-43页
4.5.2 主题相关性判断的方法	第43-46页
4.5.3 主题网页提取的实现流程	第46-47页
4.5.4 主题特征向量的生成	第47-48页
4.5.5 网页主题相关性判断的实现	第48-51页
4.6 结果排序的改进	第51-53页
4.7 小结	第53-54页
第五章系统运行与性能分析	第54-61页
5.1 开发环境	第54页
5.2 实际运行步骤	第54-58页
5.2.1 运行流程	第54-55页
5.2.2 运行前准备	第55页
5.2.3 运行系统抓取相关信息	第55-57页
5.2.4 检索页面	第57-58页
5.3 测试结果分析	第58-60页
5.3.1 分词模块测试	第58-59页
5.3.2 系统主题相关性测试与比较	第59-60页
5.4 小结	第60-61页
第六章总结与展望	第61-63页
6.1 论文工作总结	第61页
6.2 后续工作展望	第61-63页
参考文献	第63-66页
在读期间发表论文清单	第66-67页
致谢	第67页