基于Hadoop海量电子病历的存储方法研究

摘要	第5-6页
abstract	第6-7页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-15页
1.2.1 电子病历的研究现状	第12页
1.2.2 基于MapReduce的文本聚类研究现状	第12-14页
1.2.3 HDFS小文件存储研究现状	第14-15页
1.3 论文的主要研究内容	第15-16页
1.4 论文的章节安排	第16-17页
第二章基于Hadoop的文件合并存储技术研究	第17-29页
2.1 Hadoop分布式系统	第17-21页
2.1.1 HDFS的高可用性	第17-19页
2.1.2 新一代MapReduce框架Yarn	第19-21页
2.2 文本聚类算法	第21-25页
2.2.1 文本向量化	第21-22页
2.2.2 文本聚类算法的流程	第22-23页
2.2.3 文本相似性度量	第23-25页
2.3 全文检索引擎Solr	第25-28页
2.3.1 Solr的简介与特点	第25-26页
2.3.2 分布式检索方案SolrCloud	第26-28页
2.4 本章小结	第28-29页
第三章面向EMR资源的分布式文本聚类	第29-43页
3.1 基于MapReduce的EMR特征向量提取	第29-32页
3.1.1 EMR小文件的并行预处理过程	第29页
3.1.2 基于文档频次和词性的特征选取	第29-30页
3.1.3 基于改进TF-IDF构建EMR小文件的特征向量	第30-32页
3.2 基于Hash函数的EMR样本抽样	第32-34页
3.2.1 Hash样本抽样	第32-33页
3.2.2 样本个数的确定	第33页
3.2.3 基于Hash函数的EMR样本抽样过程	第33-34页
3.3 PAM聚类算法	第34-37页
3.3.1 PAM算法的核心思想	第34-35页
3.3.2 PAM算法运行流程	第35-36页
3.3.3 改进的PAM算法	第36-37页
3.4 基于改进K-means算法的EMR小文件聚类过程	第37-42页
3.4.1 算法的基本思想	第37-38页
3.4.2 算法的执行流程	第38-39页
3.4.3 算法的并行实现	第39-41页
3.4.4 时间复杂度分析	第41-42页
3.5 本章小结	第42-43页
第四章海量EMR小文件的存储和检索方法研究	第43-51页
4.1 EMR小文件存取方案总体设计	第43-44页
4.2 EMR小文件优化存储方案	第44-45页
4.3 基于SolrCloud的EMR小文件检索方案	第45-46页
4.4 基于Redis的EMR小文件预取和缓存方案	第46-49页
4.4.1 Redis缓存	第46-47页
4.4.2 EMR小文件的预取和缓存策略设计	第47-48页
4.4.3 缓存分片与缓存清理	第48-49页
4.5 EMR小文件删除方案	第49-50页
4.6 本章小结	第50-51页
第五章实验验证分析与系统实现	第51-63页
5.1 实验环境及数据	第51-52页
5.1.1 实验环境	第51页
5.1.2 实验数据	第51-52页
5.2 实验评价标准	第52-53页
5.3 实验结果与分析	第53-60页
5.3.1 改进算法的有效性验证	第53-54页
5.3.2 合并文件内存占用对比	第54-56页
5.3.3 读取EMR小文件的速率对比	第56-58页
5.3.4 写入EMR小文件效率对比	第58-60页
5.4 系统实现	第60-62页
5.5 本章小结	第62-63页
第六章总结与展望	第63-65页
6.1 工作总结	第63-64页
6.2 展望	第64-65页
参考文献	第65-69页
攻读学位期间所取得的相关科研成果	第69-71页
致谢	第71-72页