摘要 | 第1-5页 |
Abstract | 第5-10页 |
第一章 绪论 | 第10-15页 |
·论文研究目的和意义 | 第10-11页 |
·垂直搜索引擎概述 | 第11-13页 |
·垂直搜索引擎介绍 | 第11-12页 |
·垂直搜索引擎特点 | 第12-13页 |
·本文主要工作 | 第13-14页 |
·本文组织结构 | 第14-15页 |
第二章 搜索引擎综述 | 第15-21页 |
·WEB 信息搜索概述 | 第15-18页 |
·搜索的三种形式 | 第15-16页 |
·Web 信息检索系统的分类 | 第16-18页 |
·搜索引擎体系结构 | 第18-20页 |
·搜索引擎的结构 | 第18-19页 |
·搜索引擎工作的体系结构 | 第19-20页 |
·搜索引擎的排序算法 | 第20页 |
·本章小结 | 第20-21页 |
第三章 面向行业的聚焦网络爬虫 | 第21-34页 |
·搜索引擎网络爬虫介绍 | 第21-22页 |
·网络爬虫的陷阱 | 第21页 |
·网络爬虫的评价指标 | 第21-22页 |
·搜索引擎网络爬虫的分类及其工作方式 | 第22-24页 |
·行业内网络爬虫的搜索策略 | 第24-26页 |
·广度优先搜索策略 | 第24-25页 |
·最佳优先的搜索策略 | 第25-26页 |
·偏好“烟草”的爬虫 | 第25-26页 |
·基于内容评价的搜索策略 | 第26页 |
·爬虫的增量爬取 | 第26-29页 |
·网页重访策略 | 第26-28页 |
·烟草行业的网页重访策略 | 第28-29页 |
·构建烟草行业网页库 | 第29-31页 |
·网页库的云存储研究 | 第29-31页 |
·业务数据采集 | 第31-33页 |
·数据源 | 第32页 |
·业务数据的抽取 | 第32-33页 |
·本章小结 | 第33-34页 |
第四章 企业搜索引擎的数据处理 | 第34-57页 |
·行业内网页查重技术 | 第34-37页 |
·网页查重技术发展历史 | 第34-35页 |
·网页查重实现方法 | 第35-37页 |
·中文分词技术 | 第37-44页 |
·基于词典的分词法 | 第37-39页 |
·最大匹配法(Maximum Match based approach) | 第38页 |
·逆向最大匹配法(Backward Maximum Matching method, BMM 法) | 第38-39页 |
·双向匹配法(Bi-direction Matching method, BM 法) | 第39页 |
·基于理解的分词 | 第39页 |
·基于统计的分词 | 第39-44页 |
·生成式统计分词 | 第39-42页 |
·判别式统计分词 | 第42-44页 |
·构建烟草行业本体词典 | 第44-50页 |
·基于本体的关键词扩展策略 | 第44-46页 |
·扩展方法 | 第46-50页 |
·查询关键词转换为概念集 | 第47页 |
·构造概念子树 | 第47-49页 |
·语义相似度计算 | 第49-50页 |
·搜索引擎的索引系统 | 第50-53页 |
·网页重要性排序计算 | 第53-56页 |
·PageRank 算法 | 第54-56页 |
·PageRank 算法分析 | 第56页 |
·本章小结 | 第56-57页 |
第五章 企业搜索引擎的查询系统 | 第57-68页 |
·网页信息检索 | 第57-59页 |
·向量空间模型的算法 | 第57-58页 |
·编辑距离算法(Levenshtein Distance) | 第58-59页 |
·本文检索算法 | 第59页 |
·查询结果排序 | 第59-61页 |
·词条相关性的评分标准 | 第60-61页 |
·烟草行业的排序模型 | 第61页 |
·生成搜索结果页 | 第61-62页 |
·基于烟草行业的查询结果重排序 | 第62-67页 |
·查询日志分析 | 第62-63页 |
·重排序框架 | 第63-67页 |
·二分图模型 | 第64-65页 |
·用户点击日志的分析 | 第65-67页 |
·本章小结 | 第67-68页 |
第六章 浙江中烟搜索引擎系统 | 第68-76页 |
·引言 | 第68页 |
·浙江中烟搜索引擎系统设计 | 第68-71页 |
·烟草领域本体构建 | 第70-71页 |
·系统开发环境 | 第71页 |
·系统展示 | 第71-75页 |
·行业内专题搜索 | 第72-75页 |
·本章总结 | 第75-76页 |
第七章 总结与展望 | 第76-78页 |
·全文总结 | 第76-77页 |
·研究展望 | 第77-78页 |
参考文献 | 第78-81页 |
致谢 | 第81-82页 |
攻读学位期间的研究成果 | 第82页 |