首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Spark云计算架构的云南省生物医药专利数据的聚类分析研究

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 论文主要研究内容第14-16页
    1.4 论文组织结构第16-17页
第二章 关键技术介绍第17-27页
    2.1 云计算概述第17页
    2.2 分布式文件系统HDFS第17-18页
    2.3 Spark框架第18-21页
        2.3.1 Spark生态系统第18-19页
        2.3.2 Spark运行架构及基本流程第19-20页
        2.3.3 弹性分布式数据集RDD第20-21页
    2.4 聚类分析概述第21-25页
        2.4.1 聚类算法分类第21-22页
        2.4.2 文本聚类体系结构第22-25页
    2.5 本章小结第25-27页
第三章 实验环境搭建与数据处理第27-35页
    3.1 Spark开发环境搭建第27-32页
        3.1.1 运行环境第27-28页
        3.1.2 设置系统环境第28-30页
        3.1.3 Hadoop与Spark的文件配置第30-32页
    3.2 专利数据获取与处理第32-34页
        3.2.1 构建检索式第32-33页
        3.2.2 数据预处理第33-34页
    3.3 本章小结第34-35页
第四章 生物医药专利聚类分析第35-47页
    4.1 聚类变量设定与算法选择第35-37页
    4.2 基于Spark的聚类算法并行化设计第37-38页
    4.3 基于Spark的聚类算法并行化实现第38页
    4.4 聚类结果分析第38-44页
        4.4.1 年度发展状况第38-41页
        4.4.2 IPC分类号第41-42页
        4.4.3 专利高产申请人第42-44页
    4.5 专利文本聚类第44-46页
    4.6 本章小结第46-47页
第五章 基于LDA主题模型的专利技术主题挖掘第47-63页
    5.1 专利技术主题第47-48页
    5.2 LDA建模第48-53页
        5.2.1 LDA主题模型第48-49页
        5.2.2 LDA参数估计第49-50页
        5.2.3 确定语义主题数第50-51页
        5.2.4 LDA主题模型构建与实现第51-53页
    5.3 生物医药专利技术主题挖掘第53-58页
        5.3.1 专利名称主题挖掘第53-55页
        5.3.2 专利摘要主题挖掘第55-56页
        5.3.3 技术主题演化趋势分析第56-58页
    5.4 生物医药技术主题分析第58-62页
    5.5 本章小结第62-63页
第六章 总结与展望第63-65页
    6.1 总结第63-64页
    6.2 展望第64-65页
致谢第65-67页
参考文献第67-71页
附录A 攻读硕士期间取得成果第71-72页
附录B 攻读硕士期间参与的科研项目第72页

论文共72页,点击 下载论文
上一篇:云南建设面向南亚东南亚科技创新中心的问题研究
下一篇:两类非局部扩散方程(组)解的渐近性态分析