首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Mapreduce的大规模中文短文本聚类算法的设计与实现

摘要第1-8页
Abstract第8-9页
插图索引第9-10页
附表索引第10-11页
第1章 绪论第11-16页
   ·课题的背景与意义第11页
   ·数据挖掘及聚类概述第11-13页
     ·数据挖掘的基本过程第12页
     ·聚类概述第12-13页
   ·国内外研究现状第13-15页
   ·本文的主要工作以及结构第15-16页
第2章 Hadoop分布式平台以及Mapreduce计算框架概述第16-29页
   ·Hadoop分布式平台第16-18页
     ·Hadoop的产生背景第16页
     ·Hadoop平台的理论基础第16-18页
   ·Hadoop分布式平台的整体构架第18-21页
     ·Hadoop分布式文件系统(HDFS)第18-20页
     ·Hadoop分布式数据库(Hbase)第20-21页
   ·Mapreduce计算框架第21-28页
     ·Mapreduce框架的基本思想第21-22页
     ·Mapreduce的优势和缺点第22-23页
     ·Mapreduce作业的运行机制第23-26页
     ·Mapreduce的性能调优第26-28页
   ·本章小结第28-29页
第3章 文本聚类第29-37页
   ·文本聚类的一般流程第29-30页
   ·文本的表示模型第30-33页
     ·布尔检索模型第30页
     ·向量空间模型第30-32页
     ·两种模型的比较分析第32-33页
   ·文本的预处理过程第33-34页
     ·分词阶段第33-34页
     ·停词阶段第34页
   ·文本聚类的主要方法第34-36页
     ·基于划分的方法第34-35页
     ·基于层次的方法第35-36页
     ·基于密度的方法第36页
     ·基于模型的方法第36页
   ·本章小结第36-37页
第4章 基于Mapreduce的文本聚类的实现第37-56页
   ·平台部署第37-39页
     ·硬件配置第37页
     ·软件配置第37页
     ·实验运行环境搭建第37-39页
   ·设计思路第39-51页
     ·主要的Java包和类第39-40页
     ·系统的相关程序结构第40-41页
     ·设计思路代码结构第41-51页
   ·性能的提升与优化第51-53页
   ·实验结果及性能分析第53-55页
     ·实验数据集第53-54页
     ·实验结果分析第54-55页
   ·本章小结第55-56页
结论与展望第56-57页
参考文献第57-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:数据流频繁项集挖掘算法的研究
下一篇:云环境下远程用户身份认证技术研究