基于Spark云计算架构的云南省生物医药专利数据的聚类分析研究

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 论文主要研究内容	第14-16页
1.4 论文组织结构	第16-17页
第二章关键技术介绍	第17-27页
2.1 云计算概述	第17页
2.2 分布式文件系统HDFS	第17-18页
2.3 Spark框架	第18-21页
2.3.1 Spark生态系统	第18-19页
2.3.2 Spark运行架构及基本流程	第19-20页
2.3.3 弹性分布式数据集RDD	第20-21页
2.4 聚类分析概述	第21-25页
2.4.1 聚类算法分类	第21-22页
2.4.2 文本聚类体系结构	第22-25页
2.5 本章小结	第25-27页
第三章实验环境搭建与数据处理	第27-35页
3.1 Spark开发环境搭建	第27-32页
3.1.1 运行环境	第27-28页
3.1.2 设置系统环境	第28-30页
3.1.3 Hadoop与Spark的文件配置	第30-32页
3.2 专利数据获取与处理	第32-34页
3.2.1 构建检索式	第32-33页
3.2.2 数据预处理	第33-34页
3.3 本章小结	第34-35页
第四章生物医药专利聚类分析	第35-47页
4.1 聚类变量设定与算法选择	第35-37页
4.2 基于Spark的聚类算法并行化设计	第37-38页
4.3 基于Spark的聚类算法并行化实现	第38页
4.4 聚类结果分析	第38-44页
4.4.1 年度发展状况	第38-41页
4.4.2 IPC分类号	第41-42页
4.4.3 专利高产申请人	第42-44页
4.5 专利文本聚类	第44-46页
4.6 本章小结	第46-47页
第五章基于LDA主题模型的专利技术主题挖掘	第47-63页
5.1 专利技术主题	第47-48页
5.2 LDA建模	第48-53页
5.2.1 LDA主题模型	第48-49页
5.2.2 LDA参数估计	第49-50页
5.2.3 确定语义主题数	第50-51页
5.2.4 LDA主题模型构建与实现	第51-53页
5.3 生物医药专利技术主题挖掘	第53-58页
5.3.1 专利名称主题挖掘	第53-55页
5.3.2 专利摘要主题挖掘	第55-56页
5.3.3 技术主题演化趋势分析	第56-58页
5.4 生物医药技术主题分析	第58-62页
5.5 本章小结	第62-63页
第六章总结与展望	第63-65页
6.1 总结	第63-64页
6.2 展望	第64-65页
致谢	第65-67页
参考文献	第67-71页
附录A 攻读硕士期间取得成果	第71-72页
附录B 攻读硕士期间参与的科研项目	第72页