基于多源特征挖掘的查询纠错方法研究
摘要 | 第3-4页 |
Abstract | 第4-5页 |
第一章 绪论 | 第8-13页 |
1.1 研究背景 | 第8-9页 |
1.2 国内外研究现状及趋势 | 第9-10页 |
1.3 主要研究内容 | 第10-11页 |
1.4 论文的组织结构 | 第11-13页 |
第二章 相关技术介绍 | 第13-19页 |
2.1 搜索引擎概述 | 第13-16页 |
2.1.1 搜索引擎原理 | 第13-14页 |
2.1.2 搜索引擎的技术目标 | 第14-15页 |
2.1.3 搜索引擎存在的问题 | 第15-16页 |
2.2 中文查询纠错技术 | 第16-19页 |
2.2.1 自然语言处理 | 第16-17页 |
2.2.2 自然语言处理与搜索引擎 | 第17页 |
2.2.3 中文查询纠错技术 | 第17-19页 |
第三章 数据处理 | 第19-22页 |
3.1 搜索引擎查询日志处理 | 第19页 |
3.2 词典与语料库 | 第19-20页 |
3.3 训练集 | 第20页 |
3.4 测试集 | 第20-22页 |
第四章 查询纠错模型研究 | 第22-32页 |
4.1 混淆集生成模型 | 第22-24页 |
4.2 混淆集排序模型 | 第24-28页 |
4.2.1 N元语法模型 | 第25-26页 |
4.2.2 查询词点击率 | 第26页 |
4.2.3 N-gram相似度 | 第26-27页 |
4.2.4 编辑距离 | 第27页 |
4.2.5 混淆集排序模型的建立 | 第27-28页 |
4.3 实验过程及结果分析 | 第28-32页 |
4.3.1 评测指标 | 第28页 |
4.3.2 实验过程及结果分析 | 第28-32页 |
第五章 BadCase挖掘模型研究 | 第32-39页 |
5.1 日志特征分析 | 第32-33页 |
5.2 量化建模 | 第33-35页 |
5.2.1 关联关系模型 | 第34-35页 |
5.2.2 点击记录模型 | 第35页 |
5.3 实验过程及结果分析 | 第35-39页 |
5.3.1 实验过程及结果 | 第35-38页 |
5.3.2 实验结果分析 | 第38-39页 |
第六章 系统的设计与实现 | 第39-49页 |
6.1 系统架构设计 | 第39-42页 |
6.1.1 工具介绍 | 第39-41页 |
6.1.2 系统核心模块 | 第41页 |
6.1.3 系统总体设计 | 第41-42页 |
6.2 系统实现 | 第42-49页 |
6.2.1 Nutch抓取数据 | 第42-43页 |
6.2.2 Solr查询检索服务 | 第43页 |
6.2.3 查询纠错示例 | 第43-49页 |
第七章 总结与展望 | 第49-50页 |
参考文献 | 第50-53页 |
在学期间的研究成果 | 第53-54页 |
致谢 | 第54页 |