首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Map-Reduce构建高效文本聚类系统

摘要第1-7页
ABSTRACT第7-14页
第一章 绪论第14-20页
   ·研究背景和意义第14-15页
   ·国内外相关研究第15-18页
     ·文本聚类技术研究现状第15-17页
     ·Map-Reduce 研究现状第17页
     ·基于Map-Reduce 进行文本聚类第17-18页
   ·本文的组织第18页
   ·论文研究的成绩和贡献第18-20页
第二章 文本聚类概述第20-28页
   ·文本的预处理第20-22页
     ·中文文本特征项的表示第20-21页
     ·分词第21页
     ·停用词第21-22页
   ·文本表示模型第22-23页
     ·向量空间模型第22-23页
     ·概率检索模型第23页
   ·聚类算法第23-25页
     ·划分方法第23-24页
     ·层次方法第24页
     ·基于密度的方法第24页
     ·基于网格的方法第24-25页
     ·基于模型的方法第25页
   ·文本聚类效果评价指标第25-27页
   ·本章小结第27-28页
第三章 MAP-REDUCE 概述第28-37页
   ·执行流程第29-30页
   ·编程模型第30-33页
     ·Map 和Reduce 操作第30-32页
     ·编程模型示例第32-33页
   ·分布式计算框架第33-36页
     ·容错性第33-35页
     ·任务的本地化执行第35页
     ·任务调度第35页
     ·任务备份第35-36页
   ·本章小结第36-37页
第四章 基于MAP-REDUCE 构建文本聚类系统第37-56页
   ·文本聚类系统设计第37-42页
     ·系统总体框架第37-39页
     ·中文分词第39-40页
     ·词频统计和停用词移除第40页
     ·特征提取第40页
     ·TF-IDF 权值计算第40-41页
     ·聚类分析第41-42页
     ·结果输出第42页
   ·应用MAP-REDUCE第42-49页
     ·应用于中文分词模块第43页
     ·应用于词频统计模块第43-44页
     ·应用于特征提取模块第44-47页
     ·应用于聚类分析模块第47-49页
   ·系统执行流程第49-55页
     ·中文分词和词频统计过程第51-52页
     ·特征提取过程第52-53页
     ·聚类分析过程第53-55页
   ·本章小结第55-56页
第五章 系统测试及结果分析第56-64页
   ·实验环境第56-57页
   ·性能调优第57-59页
     ·调整分片大小第57-58页
     ·调整单节点的并发Map 任务数第58-59页
     ·调整Reduce Worker 的数量第59页
   ·聚类准确度调优第59-61页
     ·参数K 的影响第60页
     ·随机种子的影响第60-61页
   ·可扩展性分析第61-62页
   ·本章小结第62-64页
第六章 全文总结与展望第64-66页
   ·主要结论第64页
   ·未来研究展望第64-66页
参考文献第66-69页
符号与标记(附录1)第69-70页
致谢第70-71页
攻读硕士学位期间已录用的论文第71页

论文共71页,点击 下载论文
上一篇:基于椭圆曲线离散对数难题的RFID安全协议设计与分析
下一篇:基于时空特征和词袋模型的多模态视频内容识别算法研究