基于企业深度挖掘型垂直搜索引擎的研究与应用
摘要 | 第1-6页 |
Abstract | 第6-10页 |
第一章 绪论 | 第10-17页 |
·研究背景、意义 | 第10-11页 |
·垂直搜索引擎的服务市场 | 第11-14页 |
·搜索引擎服务市场背景 | 第11-13页 |
·企业搜索引擎服务市场趋势 | 第13-14页 |
·本文研究内容 | 第14-15页 |
·本文组织结构 | 第15-17页 |
第二章 垂直搜索引擎研究 | 第17-21页 |
·垂直搜索引擎的概述 | 第17页 |
·垂直搜索引擎结构及工作原理 | 第17-19页 |
·垂直搜索引擎的优势 | 第19页 |
·构建良好深度挖掘型垂直搜索引擎的要求 | 第19-20页 |
·本章小结 | 第20-21页 |
第三章 面向主题的数据采集 | 第21-30页 |
·网络主题爬虫概述 | 第21-26页 |
·网络主题爬虫定义 | 第21-22页 |
·网络主题爬虫搜索策略 | 第22-24页 |
·主题爬虫网页的搜集 | 第24-26页 |
·主题相关性算法及改进 | 第26-27页 |
·偏好主题 PageRank 算法 | 第26-27页 |
·元数据管理模块 | 第27-29页 |
·元数据管理 | 第27-29页 |
·本章小结 | 第29-30页 |
第四章 数据的压缩索引和 HBase 云存储 | 第30-42页 |
·数据的压缩 | 第30-34页 |
·范式哈夫曼算法 | 第30-34页 |
·压缩索引的方法 | 第34-36页 |
·倒排文件压缩算法 | 第34-36页 |
·HBase 云存储 | 第36-41页 |
·引言 | 第36-37页 |
·文件存储系统 HDFS | 第37-39页 |
·海量数据处理 MapReduce | 第39-41页 |
·协同服务管理 Zookeeper | 第41页 |
·本章小结 | 第41-42页 |
第五章 企业搜索引擎的用户查询 | 第42-61页 |
·引言 | 第42页 |
·网页信息匹配和检索 | 第42-50页 |
·烟草本体词典的构建 | 第42-45页 |
·中文分词技术 | 第45-48页 |
·语义相似度计算 | 第48-49页 |
·面向特征的网页查重删除技术 | 第49-50页 |
·索引库的建立 | 第50-51页 |
·检索模块 | 第51-57页 |
·概率模型算法 | 第51-53页 |
·检索结果的排序 | 第53-56页 |
·检索结果文档摘要 | 第56-57页 |
·检索结果的特点分析 | 第57-60页 |
·本章总结 | 第60-61页 |
第六章 企业搜索引擎系统设计及实现 | 第61-69页 |
·引言 | 第61-62页 |
·浙江中烟营销搜索引擎系统设计 | 第62-65页 |
·系统的需求分析 | 第62页 |
·系统的总体架构 | 第62-64页 |
·系统架构设计 | 第64-65页 |
·系统开发环境 | 第65页 |
·烟草领域本体构建 | 第65-66页 |
·人机交互界面 | 第66-68页 |
·本章总结 | 第68-69页 |
第七章 总结与展望 | 第69-71页 |
·全文总结 | 第69-70页 |
·研究展望 | 第70-71页 |
参考文献 | 第71-73页 |
致谢 | 第73-74页 |
攻读学位期间的研究成果 | 第7页 |