基于Hadoop的应用可视化研究与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-17页
1.1 课题研究背景	第9-11页
1.1.1 大数据研究背景及现状	第9-10页
1.1.2 文本挖掘领域的研究及现状	第10-11页
1.2 分布式计算系统的研究及现状	第11-12页
1.3 文本聚类的研究及现状	第12-15页
1.4 论文主要工作	第15页
1.5 论文内容结构	第15-17页
第二章关键技术介绍	第17-33页
2.1 Hadoop平台	第17-24页
2.1.1 HDFS(Hadoop分布式文件系统)	第17-19页
2.1.2 MapReduce(分布式计算框架)	第19-22页
2.1.3 Sqoop(Hadoop传输工具)	第22-24页
2.2 LDA主题模型相关研究	第24-31页
2.2.1 概率主题模型	第24-26页
2.2.2 LDA模型	第26-28页
2.2.3 Gibbs抽样近似计算LDA	第28-29页
2.2.4 Gibbs更新法则	第29-30页
2.2.5 Gibbs抽样算法	第30-31页
2.3 本章小结	第31-33页
第三章基于Hadoop的分布式LDA算法与优化	第33-57页
3.1 分布式LDA主题模型	第33-34页
3.1.1 分布式LDA的可行性	第33-34页
3.1.2 主流分布式LDA模型框架	第34页
3.2 基于Hadoop的分布式LDA实现与优化	第34-44页
3.2.1 优化后分布式LDA框架	第34-36页
3.2.2 词典生成模块优化	第36-38页
3.2.3 模型初始化	第38-39页
3.2.4 模型参数融合	第39-40页
3.2.5 分布式Gibbs抽样	第40-41页
3.2.6 自定义类型	第41-42页
3.2.7 序列化文件	第42-44页
3.2.8 中断重建的实现	第44页
3.3 实验环境	第44-45页
3.3.1 实验环境说明	第44-45页
3.4 实验结果与分析	第45-56页
3.4.1 集群规模、数据量的影响	第45-46页
3.4.2 集群稳定性测试	第46-48页
3.4.3 分布式LDA正确性验证	第48-50页
3.4.4 实验参数的影响	第50-52页
3.4.5 数据倾斜的影响	第52-53页
3.4.6 集群聚集度的影响	第53-55页
3.4.7 数据集差异的影响	第55-56页
3.5 本章小结	第56-57页
第四章 Hadoop可视化管理平台	第57-73页
4.1 平台需求分析	第57-58页
4.2 总体设计架构	第58页
4.2.1 设计框架	第58页
4.3 后台关键技术和实现	第58-64页
4.3.1 后台中间数据的准备	第58-59页
4.3.2 基于RBAC的权限控制	第59-61页
4.3.3 MVC架构与应用	第61-62页
4.3.4 Servlet及其环境配置	第62-64页
4.4 界面设计与实现	第64-72页
4.4.1 应用层布局与实现	第64-65页
4.4.2 界面设计及效果	第65-72页
4.5 本章小结	第72-73页
第五章总结与展望	第73-75页
5.1 总结	第73页
5.2 展望	第73-75页
参考文献	第75-79页
致谢	第79页