基于分布式计算的全文检索关键技术研究

摘要	第4-5页
ABSTRACT	第5-6页
目录	第7-9页
第一章绪论	第9-16页
1.1 研究背景及意义	第9-11页
1.1.1 研究背景	第9-10页
1.1.2 分布式全文检索课题研究意义	第10-11页
1.2 国内外研究现状	第11-14页
1.3 论文的主要研究内容	第14-15页
1.4 论文的组织结构	第15-16页
第二章相关理论基础	第16-26页
2.1 全文检索技术	第16-18页
2.1.1 文本预处理	第16-17页
2.1.2 倒排索引模型	第17-18页
2.2 分布式计算技术	第18-23页
2.2.2 分布式文件系统HDFS	第19-20页
2.2.3 分布式计算模型MapReduce	第20-23页
2.3 文本聚类介绍	第23-25页
2.3.1 文本聚类概述	第23页
2.3.2 主要的文本聚类算法	第23-25页
2.4 本章小结	第25-26页
第三章文本聚类下的分布式索引建立	第26-41页
3.1 分布式环境下的全文索引的划分组织	第26-28页
3.1.1 基于词表的索引划分组织方式	第26-27页
3.1.2 基于文档的索引划分组织方式	第27-28页
3.2 基于聚类方法的索引划分组织	第28-32页
3.2.1 文本特征向量表示	第29-30页
3.2.2 文本聚类下的索引划分组织方式	第30-32页
3.3 基于MapReduce的分布式索引建立	第32-40页
3.3.1 Lucene全文索引机制	第33页
3.3.2 MapReduce下并行索引构建方法	第33-37页
3.3.3 MapReduce下Lucene并行索引构建实现	第37-40页
3.4 本章小结	第40-41页
第四章基于词语相似度的分布式全文检索	第41-50页
4.1 分布式全文检索流程	第41-42页
4.2 分布式检索中索引集合选择	第42-44页
4.3 基词语相似度的索引集合选择算法	第44-49页
4.3.1 词语相似度及其计算方法	第44页
4.3.2 利用《知网》进行词语相似度计算	第44-46页
4.3.3 基于词语相似度的索引集合选择算法设计	第46-49页
4.4 本章小结	第49-50页
第五章实验及其分析	第50-60页
5.1 实验设计	第50页
5.2 实验环境与数据集	第50-53页
5.2.1 实验硬件与软件配置	第50-51页
5.2.2 Hadoop分布式平台搭建	第51-52页
5.2.3 实验数据集介绍	第52-53页
5.3 分布式全文索引构建	第53-56页
5.3.1 单机环境下集中式索引的构建效率	第53-54页
5.3.2 分布式集群并行索引的构建效率	第54-56页
5.3.3 分布式集群并行索引建立的性能分析	第56页
5.4 词语相似度计算下的聚类集合选择结果分析	第56-59页
5.4.1 实验评测指标	第56-57页
5.4.2 集合选择算法性能结果与分析	第57-59页
5.5 本章小结	第59-60页
第六章总结与展望	第60-63页
6.1 本文工作总结	第60-61页
6.2 未来展望	第61-63页
参考文献	第63-66页
致谢	第66-67页
攻读硕士学位期间参与的科研项目	第67页