摘要 | 第4-6页 |
Abstract | 第6-7页 |
1 绪论 | 第13-17页 |
1.1 研究背景和意义 | 第13-14页 |
1.2 国内外研究现状 | 第14页 |
1.3 本文研究内容 | 第14-15页 |
1.4 本文组织结构 | 第15-17页 |
2 站内搜索及通用搜索引擎关键技术 | 第17-26页 |
2.1 站内搜索概述 | 第17-19页 |
2.1.1 站内搜索引擎的实现技术 | 第17-18页 |
2.1.2 方案选择及优势 | 第18-19页 |
2.2 通用搜索引擎的发展及分类 | 第19-21页 |
2.2.1 通用搜索引擎的发展 | 第19-20页 |
2.2.2 通用搜索引擎的分类 | 第20-21页 |
2.3 通用搜索引擎的组成 | 第21-23页 |
2.4 通用搜索引擎中的关键技术 | 第23-25页 |
2.4.1 搜索引擎中的分词技术 | 第23-24页 |
2.4.2 通用搜索引擎中的排序技术 | 第24-25页 |
2.5 本章小结 | 第25-26页 |
3 通用搜索搭建方式介绍及原生系统搭建 | 第26-38页 |
3.1 用户搭建通用搜索的主要技术路线 | 第26-27页 |
3.1.1 多开源工具的结合 | 第26页 |
3.1.2 开源搜索引擎框架 | 第26-27页 |
3.1.3 两种构建方式对比 | 第27页 |
3.2 Nutch 简介 | 第27-32页 |
3.2.1 Nutch 架构 | 第27-29页 |
3.2.2 Nutch 工作原理及流程 | 第29-30页 |
3.2.3 Nutch 插件机制 | 第30-32页 |
3.3 原生 Nutch 系统的实现 | 第32-37页 |
3.3.1 Nutch 运行环境搭建 | 第32页 |
3.3.2 Nutch 基本配置 | 第32-33页 |
3.3.3 Nutch 抓取页面配置与执行 | 第33页 |
3.3.4 Nutch 在 Tomcat 下配置 | 第33-37页 |
3.4 本章小结 | 第37-38页 |
4 基于双分词器站内搜索系统实现 | 第38-51页 |
4.1 原生系统的不足 | 第38-41页 |
4.1.1 单字切分的分词程序 | 第38页 |
4.1.2 低效复杂的 Nutch 排序算法 | 第38-41页 |
4.2 基于双分词器站内搜索模型的提出 | 第41-44页 |
4.2.1 对用户输入查询的分析 | 第41-42页 |
4.2.2 基于双分词器站内搜索模型定义 | 第42-44页 |
4.3 基于双分词器站内搜索模型的实现 | 第44-50页 |
4.3.1 模型中 StandardTokenizer 的实现 | 第44-47页 |
4.3.2 模型中 SpecialTokenizer 的实现 | 第47-50页 |
4.4 本章小结 | 第50-51页 |
5 对比实验 | 第51-60页 |
5.1 查询结果数和查询时间对比 | 第51-54页 |
5.2 查准率和排序合理性对比 | 第54-58页 |
5.3 拼音及模糊查询对比 | 第58-59页 |
5.4 本章小结 | 第59-60页 |
6 总结与展望 | 第60-62页 |
6.1 本文工作总结 | 第60-61页 |
6.2 下一步工作展望 | 第61-62页 |
参考文献 | 第62-63页 |
致谢 | 第63页 |