基于MapReduce的高效Top-k查询算法研究

摘要	第3-4页
ABSTRACT	第4-5页
第一章引言	第9-15页
1.1 研究背景及意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 研究内容及论文组织结构	第12-15页
第二章 Top-k查询技术和实现平台综述	第15-27页
2.1 影响Top-k查询算法的设计维度	第15-18页
2.1.1 查询模型	第15-16页
2.1.2 数据源和查询的确定性	第16页
2.1.3 对数据源的访问方式	第16-17页
2.1.4 排名函数	第17-18页
2.2 经典Top-k查询算法介绍	第18-20页
2.2.1 朴素算法NA	第18页
2.2.2 Fagin's算法FA	第18页
2.2.3 阈值算法TA	第18-19页
2.2.4 三阶段均匀阈值算法TPUT	第19-20页
2.3 Hadoop实现平台概述	第20-23页
2.3.1 Hadoop基本结构	第20-22页
2.3.2 Hadoop工作流程	第22页
2.3.3 Hadoop的优势	第22-23页
2.4 分布式并行编程模型MapReduce介绍	第23-25页
2.4.1 MapReduce概述	第23-24页
2.4.2 MapReduce运行流程	第24-25页
2.5 本章小结	第25-27页
第三章基于MapReduce的一种新阈值设定算法NTA	第27-39页
3.1 新阈值设定算法NTA	第27-31页
3.1.1 相关概念	第27-28页
3.1.2 阈值设定	第28页
3.1.3 上界设定	第28-29页
3.1.4 算法在单机环境下的工作步骤及流程图	第29-30页
3.1.5 NTA算法阈值和上界合理性分析	第30-31页
3.2 NTA算法和其它阈值算法的处理对比	第31-35页
3.2.1 TA算法、TPUT算法和NTA算法处理过程	第31-34页
3.2.2 三种算法对比分析	第34-35页
3.3 NTA算法在MapReduce中的实现	第35-38页
3.3.1 数据的存储格式	第35-36页
3.3.2 算法的流程图和核心代码	第36-38页
3.4 本章小结	第38-39页
第四章 NTA算法的实现和性能评估	第39-51页
4.1 Hadoop集群环境搭建	第39-43页
4.1.1 安装JDK和配置环境变量	第39-40页
4.1.2 安装Hadoop和配置环境变量	第40-43页
4.2 实验以及性能分析	第43-44页
4.2.1 对比实验和实验环境	第43页
4.2.2 实验数据集	第43页
4.2.3 性能指标	第43-44页
4.3 实验评估	第44-48页
4.3.1 单机环境下实验性能分析	第44-45页
4.3.2 分布式环境下实验性能分析	第45-48页
4.4 本章小结	第48-51页
第五章总结与未来的工作	第51-53页
5.1 总结	第51页
5.2 未来的工作	第51-53页
参考文献	第53-57页
致谢	第57页