基于Spark的基因数据聚类分析及可视化

摘要	第5-6页
Abstract	第6页
第一章绪论	第11-18页
1.1 研究背景	第11-12页
1.2 国内外研究现状	第12-16页
1.2.1 国内研究现状	第13-15页
1.2.2 国外研究现状	第15-16页
1.3 研究内容	第16-17页
1.4 论文组织结构	第17-18页
第二章 Spark系统环境搭建	第18-29页
2.1 整体架构	第18-19页
2.2 Hadoop架构	第19-23页
2.2.1 HDFS分布式文件系统	第20-21页
2.2.2 MapReduce分布式计算框架	第21-22页
2.2.3 YARN资源管理器	第22-23页
2.3 Spark架构	第23-24页
2.3.1 Spark SQL	第24页
2.3.2 Spark Streaming	第24页
2.3.3 MLib	第24页
2.3.4 GraphX	第24页
2.4 Spark开发环境搭建	第24-29页
2.4.1 硬件系统要求	第25页
2.4.2 构造Hadoop分布式集群	第25-26页
2.4.3 构造分布式Spark集群	第26-27页
2.4.4 配置Spark开发环境	第27-29页
第三章基因数据处理与可视化	第29-36页
3.1 基因数据来源	第29-30页
3.2 初步处理数据	第30-31页
3.3 SparkSQL处理数据	第31-33页
3.3.1 SparkSQL存储数据	第31-32页
3.3.2 SparkSQL查询数据	第32页
3.3.3 SparkSQL与Hive	第32-33页
3.4 SparkStreaming处理数据	第33-36页
3.4.1 架构与抽象	第33-34页
3.4.2 SparkStreaming与SparkSQL	第34页
3.4.3 数据可视化	第34-36页
第四章基因数据聚类分析	第36-49页
4.1 Spark MLlib	第36-37页
4.1.1 常用算法及优势	第36-37页
4.2 K均值聚类	第37-42页
4.2.1 聚类分析步骤	第37-39页
4.2.2 聚类分析结果	第39-40页
4.2.3 选择K值后聚类	第40-42页
4.3 高斯混合模型聚类	第42-47页
4.3.1 高斯分布与参数估计	第43页
4.3.2 高斯混合模型及EM算法	第43-44页
4.3.3 高斯混合模型聚类分析	第44-47页
4.4 实验总结	第47-49页
4.4.1 实验环境	第47页
4.4.2 数据分析	第47-49页
第五章实验结果展示	第49-54页
5.1 基因信息展示	第49-50页
5.2 基因数据可视化展示	第50-51页
5.3 K均值聚类结果	第51-52页
5.4 高斯混合模型聚类结果	第52-54页
结论	第54-56页
工作总结	第54页
工作展望	第54-56页
参考文献	第56-59页
致谢	第59页