| 摘要 | 第4-6页 |
| abstract | 第6-8页 |
| 第1章 绪论 | 第13-23页 |
| 1.1 研究背景及意义 | 第13-14页 |
| 1.2 Hadoop集群中负载均衡研究现状 | 第14-17页 |
| 1.2.1 HDFS负载均衡国内外研究现状 | 第15-16页 |
| 1.2.2 MapReduce负载均衡国内外研究现状 | 第16-17页 |
| 1.3 Hadoop平台应用研究现状 | 第17-20页 |
| 1.3.1 国内Hadoop应用现状 | 第17-18页 |
| 1.3.2 国外Hadoop应用现状 | 第18-20页 |
| 1.4 论文的主要工作 | 第20-21页 |
| 1.5 论文的组织结构 | 第21-23页 |
| 第2章 相关理论及技术原理 | 第23-34页 |
| 2.1 Hadoop介绍 | 第23-27页 |
| 2.1.1 HDFS介绍 | 第24-25页 |
| 2.1.2 MapReduce介绍 | 第25-27页 |
| 2.2 集群介绍 | 第27-28页 |
| 2.2.1 集群定义 | 第27页 |
| 2.2.2 集群分类 | 第27-28页 |
| 2.3 负载均衡技术 | 第28-30页 |
| 2.3.1 负载均衡意义 | 第28页 |
| 2.3.2 负载均衡策略介绍 | 第28-29页 |
| 2.3.3 负载均衡策略评价 | 第29-30页 |
| 2.4 不同应用环境下的Hadoop平台介绍 | 第30-32页 |
| 2.4.1 存储密集型环境下的Hadoop | 第30-31页 |
| 2.4.2 网络密集型环境下的Hadoop | 第31页 |
| 2.4.3 运算密集型环境下的Hadoop | 第31-32页 |
| 2.5 Hadoop平台的应用优势 | 第32-33页 |
| 2.6 本章小结 | 第33-34页 |
| 第3章 HDFS负载均衡优化 | 第34-51页 |
| 3.1 问题阐述 | 第34-35页 |
| 3.2 预测模型介绍 | 第35-38页 |
| 3.2.1 GM(1,1)模型 | 第35-37页 |
| 3.2.2 马尔科夫修正模型 | 第37-38页 |
| 3.3 基于预测模型的文件属性分析 | 第38-40页 |
| 3.3.1 预测指标定义 | 第38页 |
| 3.3.2 文件属性预估 | 第38-40页 |
| 3.4 基于动态阈值分析的均衡优化策略 | 第40-46页 |
| 3.4.1 动态阈值计算 | 第40-41页 |
| 3.4.2 建立基于预测值的节点繁忙程度函数计算模型 | 第41-43页 |
| 3.4.3 均衡优化策略确定 | 第43-46页 |
| 3.5 实验与分析 | 第46-50页 |
| 3.5.1 实验环境配置 | 第46页 |
| 3.5.2 实验内容 | 第46-47页 |
| 3.5.3 实验结果分析 | 第47-50页 |
| 3.6 本章总结 | 第50-51页 |
| 第4章 MapReduce负载均衡优化 | 第51-76页 |
| 4.1 问题阐述 | 第51-54页 |
| 4.2 采样预处理 | 第54-60页 |
| 4.2.1 Reduce负载统计 | 第54-55页 |
| 4.2.2 基于负载反馈的采样规模分析 | 第55-57页 |
| 4.2.3 采样方法设计 | 第57-60页 |
| 4.3 基于采样分析和节点性能的Reducer任务数目确定 | 第60-63页 |
| 4.3.1 基于节点性能的Reducer数据处理能力分析 | 第61-62页 |
| 4.3.2 Reducer数目确定 | 第62-63页 |
| 4.4 基于采样分区和负载反馈的动态划分分析 | 第63-68页 |
| 4.4.1 基于中间值采样的分区分析 | 第63-64页 |
| 4.4.2 动态划分策略确定 | 第64-68页 |
| 4.5 实验与分析 | 第68-75页 |
| 4.5.1 实验环境配置 | 第68页 |
| 4.5.2 实验内容 | 第68-70页 |
| 4.5.3 实验结果分析 | 第70-75页 |
| 4.6 本章总结 | 第75-76页 |
| 第5章 优化后的Hadoop集群平台应用 | 第76-101页 |
| 5.1 应用背景及需求介绍 | 第76-77页 |
| 5.2 朵漫世家论坛模块介绍 | 第77-79页 |
| 5.2.1 论坛常见模块介绍 | 第77-78页 |
| 5.2.2 论坛正常帖子与非正常帖子结构分析 | 第78-79页 |
| 5.3 常见的信息过滤技术 | 第79-81页 |
| 5.3.1 基于主题或关键字的分类过滤技术 | 第79页 |
| 5.3.2 基于行为的过滤技术 | 第79页 |
| 5.3.3 基于规则的过滤技术 | 第79-80页 |
| 5.3.4 基于统计的过滤方式 | 第80页 |
| 5.3.5 基于散列值的过滤方式 | 第80页 |
| 5.3.6 本课题过滤技术选择 | 第80-81页 |
| 5.4 实战中Hadoop集群的搭建 | 第81-85页 |
| 5.4.1 java环境安装 | 第81-82页 |
| 5.4.2 Hadoop安装 | 第82-84页 |
| 5.4.3 SSH配置 | 第84页 |
| 5.4.4 集群环境的测试 | 第84-85页 |
| 5.5 帖子分类在优化的Hadoop集群中设计与实现 | 第85-96页 |
| 5.5.1 分类目标数据 | 第85-86页 |
| 5.5.2 帖子分类算法选择 | 第86-87页 |
| 5.5.3 帖子分类过程概述 | 第87-89页 |
| 5.5.4 基于Hadoop平台的帖子分类 | 第89-91页 |
| 5.5.5 帖子分类相关核心代码设计与实现 | 第91-96页 |
| 5.6 应用实现及效果分析 | 第96-100页 |
| 5.6.1 帖子数据上传及结果查询 | 第96-97页 |
| 5.6.2 帖子分类评价指标 | 第97-98页 |
| 5.6.3 帖子分类结果评估 | 第98-99页 |
| 5.6.4 默认与优化平台性能对比 | 第99-100页 |
| 5.7 本章小结 | 第100-101页 |
| 第6章 总结和展望 | 第101-104页 |
| 6.1 本课题总结 | 第101-102页 |
| 6.2 本课题展望 | 第102-104页 |
| 参考文献 | 第104-112页 |
| 致谢 | 第112-114页 |
| 在学期间发表的学术论文及其他科研成果 | 第114页 |