首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Hadoop的文本分类研究

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-17页
   ·课题研究的背景及意义第10-11页
   ·国内外相关的研究第11-15页
     ·文本分类算法研究现状第11-12页
     ·海量数据处理的研究现状第12-15页
   ·本文的主要研究内容第15页
   ·论文的组织第15-17页
第二章 云计算和Hadoop 平台第17-34页
   ·云计算第17-23页
     ·云计算的概念和特点第17-18页
     ·云计算的关键技术第18-21页
     ·云计算架构与交付模式第21-23页
   ·Hadoop 平台概述第23-24页
     ·Hadoop 平台特点第23页
     ·Hadoop 生态系统第23-24页
   ·HDFS第24-29页
     ·HDFS 设计理念第24-26页
     ·HDFS 结构组成第26-28页
     ·HDFS 容错性第28-29页
   ·MapReduce第29-33页
     ·MapReduce 设计原理第29-31页
     ·MapReduce 作业流程第31-33页
     ·MapReduce 容错性第33页
   ·本章小结第33-34页
第三章 文本分类原理与实现第34-48页
   ·文本分类概述第34-35页
   ·预处理第35-38页
     ·中文分词算法第35-37页
     ·中文分词的难题第37页
     ·中文分词工具第37-38页
   ·文本表示第38-40页
     ·向量空间模型第38-39页
     ·权重计算第39-40页
   ·特征提取第40-43页
     ·文档频率第41页
     ·互信息第41-42页
     ·信息增益第42页
     ·卡方统计第42-43页
   ·分类算法第43-44页
     ·朴素贝叶斯第43-44页
     ·K 近邻第44页
     ·支持向量机第44页
   ·评价指标第44-45页
   ·单机文本分类系统的实现第45-47页
     ·程序设计第45-46页
     ·实验结果第46-47页
   ·本章小结第47-48页
第四章 基于MapReduce 的并行化文本分类第48-62页
   ·基本算法的设计和实现第48-55页
     ·算法设计前的准备工作第48-50页
     ·并行化分词第50页
     ·TFIDF 的计算和词袋子的建立第50-52页
     ·特征词提取第52-53页
     ·建立向量空间模型第53-54页
     ·KNN 分类第54页
     ·评价指标的计算第54-55页
   ·Hadoop 平台的搭建第55-59页
   ·并行算法实验第59-61页
   ·本章小结第61-62页
第五章 基于近邻元分析的文本分类算法及其并行化研究第62-75页
   ·近邻元分析距离测度学习算法第62-65页
     ·距离测度学习算法第62-63页
     ·近邻元分析算法第63-65页
   ·近邻元分析分类算法第65-68页
     ·原始NCA 分类算法第66-67页
     ·K-NCA 分类算法第67-68页
     ·算法流程第68页
   ·实验仿真结果第68-71页
     ·不同的K 值下各类算法性能第69-70页
     ·不同的d 值对各类算法性能第70页
     ·数据可视化第70-71页
   ·NCA 系列算法的并行化研究第71-74页
     ·NCA 距离测度学习算法的并行化第72-73页
     ·K-NCA 分类算法的并行化第73-74页
   ·本章小结第74-75页
第六章 总结与展望第75-77页
   ·全文总结第75页
   ·未来研究展望第75-77页
参考文献第77-81页
致谢第81-82页
攻读硕士学位期间的主要学术成果第82-84页

论文共84页,点击 下载论文
上一篇:多源图像配准系统及硬件实现
下一篇:物联网认证及密钥管理算法探讨与方案设计