首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Spark平台的医疗文本数据结构化处理研究与实现

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第12-17页
    1.1 研究背景及意义第12-13页
    1.2 国内外研究现状第13-15页
    1.3 本文的研究内容第15-16页
    1.4 本文的组织架构第16-17页
第二章 相关技术分析与研究第17-26页
    2.1 文本结构化第17页
    2.2 中文分词第17-19页
        2.2.1 中文分词第17-18页
        2.2.2 中文分词软件第18-19页
    2.3 Word2vec简介第19-21页
    2.4 新词发现第21-22页
    2.5 信息抽取第22页
    2.6 Spark简介第22-25页
        2.6.1 Spark简述第22页
        2.6.2 Spark框架第22-23页
        2.6.3 HDFS简介第23-24页
        2.6.4 MapReduce原理第24-25页
        2.6.5 Spark和MapReduce比较第25页
    2.7 本章小结第25-26页
第三章 医疗文本数据特点分析第26-31页
    3.1 结构特点第26-28页
        3.1.1 病程与记录情况文本的结构特点第26-27页
        3.1.2 穿刺文本的结构特点第27-28页
    3.2 语言特点第28-30页
        3.2.1 分词结构特点第29-30页
        3.2.2 信息抽取特点第30页
    3.3 本章小结第30-31页
第四章 基于词向量的结构化处理方法第31-46页
    4.1 医疗文本数据预处理第31-33页
        4.1.1 数据清洗第32页
        4.1.2 数据集成与转换第32-33页
        4.1.3 数据规约第33页
    4.2 新词发现方法第33-38页
        4.2.1 基本定义第33-34页
        4.2.2 词向量第34-35页
        4.2.3 GetScore算法第35-38页
    4.3 信息抽取方法第38-40页
        4.3.1 基于词库的信息抽取第38-39页
        4.3.2 基于词性的信息抽取第39页
        4.3.3 两种信息抽取方法区别第39-40页
    4.4 分布式信息提取第40-45页
        4.4.1 文本预处理第40-41页
        4.4.2 中文分词第41-42页
        4.4.3 词向量第42-43页
        4.4.4 新词发现第43-44页
        4.4.5 信息抽取第44-45页
    4.5 本章小结第45-46页
第五章 实验验证第46-55页
    5.1 实验环境第46-47页
        5.1.1 单机实验环境第46页
        5.1.2 Spark平台实验环境第46-47页
    5.2 实验数据第47页
        5.2.1 单机实验数据第47页
        5.2.2 Spark平台实验数据第47页
    5.3 性能测试与结果分析第47-54页
        5.3.1 词长度分析第48页
        5.3.2 新词发现性能对比实验第48-52页
        5.3.3 信息抽取性能对比实验第52-54页
    5.4 本章小结第54-55页
第六章 总结与展望第55-57页
    6.1 工作总结第55-56页
    6.2 展望第56-57页
参考文献第57-61页
攻读学位期间的研究成果目录第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:高磁晶各向异性合金及其矫顽力研究
下一篇:ZnO基薄膜的掺杂、异质结制备与应用研究