首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本聚类中参数自动设置技术的研究与实现

独创性声明第1页
学位论文版权使用授权书第5-6页
摘要第6-7页
ABSTRACT第7-9页
目录第9-12页
第一章 前言第12-19页
 1.1 数据挖掘和文本挖掘第12-13页
 1.2 文本聚类及其应用第13-15页
  1.2.1 文本聚类的定义及分类第13-14页
  1.2.2 文本聚类的应用第14-15页
 1.3 文本聚类的挑战第15-16页
 1.4 本文的研究内容第16-17页
 1.5 全文的组织结构第17-19页
第二章 文本聚类过程第19-32页
 2.1 预处理第19-24页
  2.1.1 分词第19-20页
  2.1.2 Stemming第20-21页
  2.1.3 停用词处理第21页
  2.1.4 特征选取第21-23页
   2.1.4.1 TFIDF第22页
   2.1.4.2 潜在语义索引(Latent semantic indexing,LSI)第22-23页
  2.1.5 背景知识的应用第23-24页
  2.1.6 文本表示第24页
 2.2 相似度的计算第24-26页
  2.2.1 Minkowski距离第24-25页
  2.2.2 Cosine距离第25页
  2.2.3 Pearson距离第25-26页
  2.2.4 扩展Jaccard距离第26页
  2.2.5 Kullback-Leibler(KL)距离第26页
 2.3 文本聚类算法第26-29页
  2.3.1 基于划分的算法第26-27页
  2.3.2 基于层次的算法第27-28页
  2.3.3 基于密度的算法第28-29页
  2.3.4 基于神经元网络的算法第29页
  2.3.5 基于模型的算法第29页
 2.4 聚类质量的评价标准第29-31页
  2.4.1 模糊矩阵第30页
  2.4.2 熵第30页
  2.4.3 Macro-F1第30-31页
  2.4.4 整体相似度第31页
 2.5 本章小结第31-32页
第三章 基于最大序列频繁词组挖掘的特征选取第32-41页
 3.1 最大序列词组第32-33页
 3.2 最大序列频繁词组的提取第33-35页
 3.3 性能评价第35-40页
  3.3.1 数据集和评估标准第35-36页
  3.3.2 实验结果及解释第36-40页
 3.4 本章小结第40-41页
第四章 自动确定K值的增强K-MEANS算法第41-53页
 4.1 问题的提出第41-42页
 4.2 K-Means算法第42-43页
 4.3 SOM算法第43-44页
 4.4 参数K的确定第44-47页
  4.4.1 对取样进行聚类第45-46页
  4.4.2 多次取样聚类结果的合并第46-47页
 4.5 在K-Means中引入衰减因子第47-49页
 4.6 性能评价第49-52页
  4.6.1 20-Newsgroup数据集第49页
  4.6.2 测试数据集第49-50页
  4.6.3 实验结果及解释第50-52页
 4.7 本章小结第52-53页
第五章 自动设置参数的基于密度的文本聚类算法第53-64页
 5.1 问题的提出第53-54页
 5.2 DBSCAN聚类算法第54-55页
 5.3 自动阈值确定第55-57页
 5.4 细化簇的发现第57-59页
 5.5 对细化簇进行聚类第59-60页
 5.6 性能评价第60-62页
  5.6.1 测试数据集第60-61页
  5.6.2 实验结果及分析第61-62页
 5.7 本章小结第62-64页
第六章 结束语第64-66页
参考文献第66-69页
致谢第69-70页
攻硕期间参与项目及发表论文第70页

论文共70页,点击 下载论文
上一篇:逆工业化:历史视角下的我国货币经济及农村金融
下一篇:积极发展我国银团贷款市场