基于Nutch技术的主题搜索引擎实现
| 提要 | 第1-7页 |
| 第一章 绪论 | 第7-11页 |
| ·通用搜索引擎和主题搜索引擎的比较 | 第7-8页 |
| ·主题搜索引擎的产生和发展前景 | 第8-9页 |
| ·选题的意义 | 第9页 |
| ·本文的主要研究内容和结构安排 | 第9-11页 |
| 第二章 搜索引擎相关技术 | 第11-23页 |
| ·搜索引擎的工作原理 | 第11-18页 |
| ·页面采集模块的工作原理 | 第12-14页 |
| ·页面分析和建立索引 | 第14-16页 |
| ·数据检索模块的工作原理 | 第16-18页 |
| ·主题搜索引擎工作原理 | 第18-19页 |
| ·主题搜索引擎的特点 | 第18-19页 |
| ·主题搜索引擎的信息采集技术 | 第19页 |
| ·开源搜索引擎—Nutch | 第19-22页 |
| ·Nutch 的特点 | 第21-22页 |
| ·小结 | 第22-23页 |
| 第三章 基于Nutch 主题搜索引擎设计 | 第23-35页 |
| ·系统体系结构 | 第23-26页 |
| ·信息抓取部分 | 第24页 |
| ·信息预处理部分 | 第24-26页 |
| ·查询服务部分 | 第26页 |
| ·系统用例模型 | 第26-28页 |
| ·角色的确定 | 第26-27页 |
| ·创建用例 | 第27-28页 |
| ·系统动态模型 | 第28-30页 |
| ·系统整体工作说明 | 第30-31页 |
| ·系统整体工作图解 | 第30-31页 |
| ·系统总体工作流程描述 | 第31页 |
| ·系统数据说明 | 第31-32页 |
| ·主题过滤说明 | 第32-35页 |
| 第四章 系统实现技术难题和比较实验 | 第35-61页 |
| ·系统实现问题 | 第35-36页 |
| ·中文问题 | 第36-37页 |
| ·segmentCN 模块解决中文问题 | 第36-37页 |
| ·主题相关性判别问题 | 第37-54页 |
| ·根据元数据的判定(元数据演算) | 第37-41页 |
| ·根据扩展元数据的判定 | 第41-45页 |
| ·根据页面间链接分析的判断 | 第45-51页 |
| ·根据页面语义信息的判定 | 第51-54页 |
| ·本系统主题表示问题的解决办法 | 第54-55页 |
| ·出错处理和遗留问题 | 第55-56页 |
| ·出错处理 | 第55页 |
| ·遗留问题 | 第55-56页 |
| ·单机实验测试与并行测试资源消耗对照与结论 | 第56-60页 |
| ·分析摘要 | 第60页 |
| ·附录 | 第60-61页 |
| 第五章 结论和工作展望 | 第61-62页 |
| 参考文献 | 第62-64页 |
| 摘要 | 第64-67页 |
| Abstract | 第67-70页 |
| 致谢 | 第70-71页 |
| 导师和作者简介 | 第71页 |