垂直搜索引擎在烟草行业的研究与应用
摘要 | 第4-6页 |
Abstract | 第6-8页 |
第一章 绪论 | 第12-23页 |
1.1 研究背景及意义 | 第12-14页 |
1.2 国内外研究现状 | 第14-17页 |
1.3 搜索模型概述 | 第17-20页 |
1.3.1 布尔搜索模型 | 第17-18页 |
1.3.2 向量空间搜索模型 | 第18-19页 |
1.3.3 概率搜索模型 | 第19-20页 |
1.3.4 元搜索模型 | 第20页 |
1.3.5 四种搜索模型的对比 | 第20页 |
1.4 研究内容 | 第20-22页 |
1.5 本文组织结构 | 第22-23页 |
第二章 搜索引擎的整体架构与关键技术 | 第23-44页 |
2.1 搜索引擎的体系结构 | 第23-28页 |
2.1.1 爬虫模块 | 第24-26页 |
2.1.2 预处理模块 | 第26-27页 |
2.1.3 查询服务模块 | 第27-28页 |
2.2 中文分词 | 第28-35页 |
2.2.1 基于词典的分词 | 第28-30页 |
2.2.2 基于统计的分词 | 第30-35页 |
2.3 倒排索引 | 第35-40页 |
2.3.1 索引结构 | 第35-38页 |
2.3.2 文档评分 | 第38-40页 |
2.4 链接分析 | 第40-44页 |
2.4.1 PageRank算法 | 第41页 |
2.4.2 HITS算法 | 第41-44页 |
第三章 PageRank算法的适应性改进 | 第44-53页 |
3.1 引言 | 第44页 |
3.2 PageRank的原始求和方法 | 第44-46页 |
3.3“黑洞”问题 | 第46-47页 |
3.4 马尔科夫修正 | 第47-52页 |
3.5 本章小结 | 第52-53页 |
第四章 针对烟草行业的主题判别 | 第53-61页 |
4.1 引言 | 第53页 |
4.2 种子URL的选取 | 第53-54页 |
4.3 超链接判别 | 第54-56页 |
4.4 元信息判别 | 第56-59页 |
4.5 词库判别 | 第59-60页 |
4.6 本章小结 | 第60-61页 |
第五章 垂直搜索引擎的设计与实现 | 第61-83页 |
5.1 需求分析 | 第61-64页 |
5.1.1 功能需求 | 第61-62页 |
5.1.2 性能需求 | 第62-63页 |
5.1.3 可靠性和可用性需求 | 第63页 |
5.1.4 开发平台 | 第63-64页 |
5.2 主题爬虫的设计与实现 | 第64-71页 |
5.2.1 网页抓取 | 第64-68页 |
5.2.2 异步I/O | 第68-71页 |
5.3 文档评分及排序 | 第71-77页 |
5.3.1 Lucene工具包 | 第71-72页 |
5.3.2 向量空间模型 | 第72-74页 |
5.3.3 适用于烟草行业的评分公式 | 第74-77页 |
5.4 查询交互页面 | 第77-79页 |
5.4.1 高亮显示技术 | 第77-78页 |
5.4.2 页面设计 | 第78-79页 |
5.5 搜索引擎的评价原则 | 第79-82页 |
5.5.1 查全率与查准率 | 第79-80页 |
5.5.2 本系统与通用搜索引擎的对比 | 第80-82页 |
5.6 本章小结 | 第82-83页 |
第六章 总结与展望 | 第83-85页 |
6.1 全文总结 | 第83-84页 |
6.2 研究展望 | 第84-85页 |
参考文献 | 第85-89页 |
致谢 | 第89-90页 |
攻读学位期间的研究成果 | 第90页 |