首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于云计算的文本聚类算法研究

摘要第1-4页
Abstract第4-9页
1 绪论第9-16页
   ·研究背景第9-14页
     ·云计算的介绍第9-12页
       ·云计算的国内外研究现状第9-10页
       ·云计算的应用及Hadoop平台第10-12页
     ·数据挖掘的内容第12-13页
     ·大文本集聚类的意义与研究现状第13-14页
   ·分布式聚类介绍第14页
   ·本文结构第14-16页
2 聚类算法的介绍第16-20页
   ·聚类相似度计算方法第16-17页
   ·聚类算法的概念与过程第17页
   ·聚类算法的分类第17-19页
     ·层次方法(Hierarchical Method)第18页
     ·划分方法(Parti tioni ng Method)第18页
     ·基于密度的方法第18-19页
     ·基于网格的方法第19页
     ·基于模型的方法第19页
     ·基于约束的方法第19页
     ·基于模糊的聚类算法第19页
   ·本章小结第19-20页
3 Hadoop分布式平台介绍第20-24页
   ·Hadoop平台的起源第20页
   ·Hadoop子项目构成第20-21页
   ·HDFS架构介绍第21-22页
   ·MapReduce编程模式第22-23页
   ·本章小结第23-24页
4 基于HIVE的K-means文本聚类算法设计与实现第24-31页
   ·Hive简介第24-25页
   ·K-means算法介绍第25-26页
   ·基于HIVE的K-means算法的分布式实现第26-28页
   ·系统主要实现类第28页
   ·实验环境与评价标准第28-29页
   ·实验结果与分析第29-30页
   ·本章小结第30-31页
5 基于Hadoop环境的CURE文本聚类算法设计第31-46页
   ·文本的特征表示第31页
   ·特征值计算公式——TFIDF公式第31-35页
     ·TFIDF公式介绍第31-32页
     ·一般的TFIDF公式的缺点第32-33页
     ·一种改进的TFIDF公式介绍第33-35页
   ·CURE聚类算法的介绍第35-37页
   ·基于Hadoop的CURE聚类算法的具体设计第37-44页
     ·基于Hadoop的CURE聚类算法框架第38-39页
     ·参数计算第39-41页
     ·文本权值TFIDF值的计算第41-42页
     ·文本间余弦距离的计算第42-43页
     ·CURE文本聚类算法的设计第43-44页
   ·本章小结第44-46页
6 基于Hadoop环境的CURE文本聚类算法的实验结果与分析第46-59页
   ·基于Hadoop实验环境部署第46-48页
   ·系统主要实现类第48-50页
     ·主要实现类第48页
     ·MapReduce代码框架第48-50页
   ·实验结果及分析第50-56页
     ·计算TFIDF值结果第50-53页
     ·计算余弦距离值结果第53-54页
     ·CURE聚类计算结果第54-56页
   ·实验结果分析第56-58页
     ·CURE聚类算法实验结果分析第57页
     ·与基于HIVE的K-means算法实验结果的比较第57-58页
   ·本章小结第58-59页
7 总结与展望第59-61页
   ·论文工作总结第59页
   ·研究展望第59-61页
致谢第61-62页
参考文献第62-65页
附录第65页

论文共65页,点击 下载论文
上一篇:多模态教学视频语义分析及实现
下一篇:某低空移动目标瞄准与跟踪系统研究