首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop海量电子病历的存储方法研究

摘要第5-6页
abstract第6-7页
第一章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 国内外研究现状第12-15页
        1.2.1 电子病历的研究现状第12页
        1.2.2 基于MapReduce的文本聚类研究现状第12-14页
        1.2.3 HDFS小文件存储研究现状第14-15页
    1.3 论文的主要研究内容第15-16页
    1.4 论文的章节安排第16-17页
第二章 基于Hadoop的文件合并存储技术研究第17-29页
    2.1 Hadoop分布式系统第17-21页
        2.1.1 HDFS的高可用性第17-19页
        2.1.2 新一代MapReduce框架Yarn第19-21页
    2.2 文本聚类算法第21-25页
        2.2.1 文本向量化第21-22页
        2.2.2 文本聚类算法的流程第22-23页
        2.2.3 文本相似性度量第23-25页
    2.3 全文检索引擎Solr第25-28页
        2.3.1 Solr的简介与特点第25-26页
        2.3.2 分布式检索方案SolrCloud第26-28页
    2.4 本章小结第28-29页
第三章 面向EMR资源的分布式文本聚类第29-43页
    3.1 基于MapReduce的EMR特征向量提取第29-32页
        3.1.1 EMR小文件的并行预处理过程第29页
        3.1.2 基于文档频次和词性的特征选取第29-30页
        3.1.3 基于改进TF-IDF构建EMR小文件的特征向量第30-32页
    3.2 基于Hash函数的EMR样本抽样第32-34页
        3.2.1 Hash样本抽样第32-33页
        3.2.2 样本个数的确定第33页
        3.2.3 基于Hash函数的EMR样本抽样过程第33-34页
    3.3 PAM聚类算法第34-37页
        3.3.1 PAM算法的核心思想第34-35页
        3.3.2 PAM算法运行流程第35-36页
        3.3.3 改进的PAM算法第36-37页
    3.4 基于改进K-means算法的EMR小文件聚类过程第37-42页
        3.4.1 算法的基本思想第37-38页
        3.4.2 算法的执行流程第38-39页
        3.4.3 算法的并行实现第39-41页
        3.4.4 时间复杂度分析第41-42页
    3.5 本章小结第42-43页
第四章 海量EMR小文件的存储和检索方法研究第43-51页
    4.1 EMR小文件存取方案总体设计第43-44页
    4.2 EMR小文件优化存储方案第44-45页
    4.3 基于SolrCloud的EMR小文件检索方案第45-46页
    4.4 基于Redis的EMR小文件预取和缓存方案第46-49页
        4.4.1 Redis缓存第46-47页
        4.4.2 EMR小文件的预取和缓存策略设计第47-48页
        4.4.3 缓存分片与缓存清理第48-49页
    4.5 EMR小文件删除方案第49-50页
    4.6 本章小结第50-51页
第五章 实验验证分析与系统实现第51-63页
    5.1 实验环境及数据第51-52页
        5.1.1 实验环境第51页
        5.1.2 实验数据第51-52页
    5.2 实验评价标准第52-53页
    5.3 实验结果与分析第53-60页
        5.3.1 改进算法的有效性验证第53-54页
        5.3.2 合并文件内存占用对比第54-56页
        5.3.3 读取EMR小文件的速率对比第56-58页
        5.3.4 写入EMR小文件效率对比第58-60页
    5.4 系统实现第60-62页
    5.5 本章小结第62-63页
第六章 总结与展望第63-65页
    6.1 工作总结第63-64页
    6.2 展望第64-65页
参考文献第65-69页
攻读学位期间所取得的相关科研成果第69-71页
致谢第71-72页

论文共72页,点击 下载论文
上一篇:面向中文专利的功能信息自动抽取与分类方法研究
下一篇:基于特征迁移的跨语言情感分析技术研究