首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于频繁模式的消息文本聚类研究

摘要第1-5页
Abstract第5-12页
第一章 引言第12-20页
 1.1 研究背景第12-13页
 1.2 研究意义第13-15页
  1.2.1 话题自动识别第13-14页
  1.2.2 用户模式分析和异常检测第14页
  1.2.3 社会网络分析和在线社区发现第14-15页
 1.3 研究现状第15-17页
  1.3.1 消息文本特性分析第15-16页
  1.3.2 动态话题识别研究概述第16-17页
 1.4 研究内容和组织第17-20页
第二章 文本聚类及效果评价概述第20-36页
 2.1 文本表示与计算第20-28页
  2.1.1 预处理第20页
  2.1.2 文档标引第20-21页
  2.1.3 维数约简(降维)第21-22页
  2.1.4 文本表示模型第22-28页
 2.2 文本聚类算法总结第28-33页
  2.2.1 层次式聚类第29-30页
  2.2.2 划分式聚类第30-33页
 2.3 聚类有效性评价第33-35页
  2.3.1 熵(Entropy)第33-34页
  2.3.2 F 值(F-Measure)第34页
  2.3.3 总体相似度(Overall Similarity)第34-35页
 2.4 本章小结第35-36页
第三章 文本中的频繁模式及其发现第36-52页
 3.1 网络非正规语言的挑战第36-37页
 3.2 频繁模式的基本概念第37-38页
 3.3 重复串发现算法第38-49页
  3.3.1 后缀树第38-41页
  3.3.2 后缀数组第41-42页
  3.3.3 基于后缀树的重复串发现算法第42-44页
  3.3.4 基于后缀数组的重复串发现算法第44-47页
  3.3.5 算法实现第47-48页
  3.3.6 性能评测第48-49页
 3.4 频繁词集发现算法第49-50页
  3.4.1 基本概念第49-50页
  3.4.2 Aprior 算法第50页
 3.5 本章小结第50-52页
第四章 基于频繁模式的文本特征提取和特征选择第52-70页
 4.1 文档标引中特征项选取第52-54页
  4.1.1 向量空间模型的缺陷第52页
  4.1.2 短语标引(Phrase Indexing)第52-54页
 4.2 关键频繁模式及其界定第54-56页
  4.2.1 关键频繁模式的界定第54-55页
  4.2.2 频繁模式的属性第55-56页
 4.3 基于关键频繁模式的特征提取第56-58页
  4.3.1 算法描述第56-57页
  4.3.2 参数选取第57-58页
  4.3.3 算法输出示例第58页
 4.4 基于关键频繁模式的特征选择算法第58-62页
  4.4.1 常用的特征选择方法第58-61页
  4.4.2 基于频繁模式的特征选择算法第61-62页
 4.5 实验评测第62-68页
 4.6 本章小结第68-70页
第五章 基于频繁模式的文本聚类第70-79页
 5.1 Web 文档聚类的挑战第70-71页
 5.2 基于频繁模式的文本聚类算法第71-75页
  5.2.1 基于共享短语的文本聚类算法第71-73页
  5.2.2 基于频繁项集的文本聚类算法第73-75页
  5.2.3 比较总结第75页
 5.3 消息文本数据集上的实验比较第75-78页
  5.3.1 数据集第75-76页
  5.3.2 实验方案第76页
  5.3.3 结果及分析第76-78页
 5.4 本章小结第78-79页
第六章 结束语第79-81页
 6.1 论文工作总结第79页
 6.2 下一步研究方向第79-81页
参考文献第81-89页
致谢第89-91页
作者简历第91页

论文共91页,点击 下载论文
上一篇:关于中国死刑存废之思考
下一篇:隔离升压全桥DC-DC变换器拓扑理论和控制技术研究