首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本聚类分析若干问题研究

摘要第1-3页
ABSTRACT第3-10页
第一章 绪论第10-30页
   ·本文选题背景与研究意义第10-11页
   ·数据挖掘与文本挖掘概论第11-21页
     ·数据挖掘第11-14页
       ·数据挖掘的概念第11-12页
       ·数据挖掘的功能第12-13页
       ·数据挖掘的方法第13-14页
       ·数据挖掘的对象第14页
     ·文本挖掘第14-19页
       ·文本挖掘的概念第14-15页
       ·文本挖掘的内容第15-16页
       ·文本挖掘的过程第16-17页
       ·文本挖掘要解决的几个问题第17-18页
       ·文本挖掘的应用背景第18-19页
     ·文本特征表示第19-21页
       ·向量空间模型第19页
       ·其它表示方法第19-20页
       ·ontology第20-21页
   ·特征降维第21-22页
     ·特征选择第21-22页
       ·基于评估函数的特征筛选第21页
       ·考虑特征依赖的特征选择第21-22页
     ·特征提取第22页
   ·文本聚类第22-25页
     ·主要聚类方法第22-24页
       ·基于划分的方法(Partitioning Method)第22-23页
       ·基于层次的方法(Hierarchical Method)第23页
       ·基于密度的方法(Density-Based Method)第23-24页
       ·基于网格的方法(Grid-Based Method)第24页
       ·基于模型的方法(Model-Based Method)第24页
       ·孤立点分析(Model-Based Method)第24页
     ·文本聚类的应用第24-25页
   ·聚类方法的研究进展第25-27页
   ·本文的主要内容及创新点第27-30页
第二章 文本聚类算法及相关问题第30-47页
   ·文本特征表示第30-35页
     ·向量空间模型第31-32页
       ·文本特征的选择与表示第31页
       ·词频特征矩阵TF.IDF 表示第31-32页
       ·规一化处理第32页
     ·后缀树模型第32-35页
       ·后缀树第32-34页
       ·广义后缀树第34-35页
       ·后缀树构造算法第35页
   ·特征降维方法第35-39页
     ·特征选择方法第36-39页
       ·基于评估函数的特征筛选第36-38页
       ·考虑特征依赖的特征选择第38-39页
     ·特征提取方法第39页
   ·文本相似度与聚类质量评价第39-43页
     ·文档相似性的度量第39-41页
     ·聚类质量的评价第41-43页
       ·熵第41页
       ·特征测量第41-42页
       ·平均准确率第42页
       ·整体相似度第42-43页
       ·纯度第43页
   ·几种主要的文本聚类方法第43-46页
     ·k-means 方法第43-44页
     ·层次聚类方法第44-45页
     ·竞争学习聚类方法第45-46页
   ·本章小结第46-47页
第三章 基于遗传算法的投影寻踪文本聚类方法第47-59页
   ·引言第47-48页
   ·投影寻踪模型第48-49页
   ·投影寻踪文本聚类模型第49-53页
     ·投影寻踪文本聚类模型第49-51页
       ·文本特征向量空间表示第49-50页
       ·线性投影第50页
       ·投影指标(即目标函数)第50-51页
       ·优化投影方向第51页
       ·综合评价分析第51页
     ·遗传算法优化投影方向第51-53页
     ·算法性能分析第53页
   ·聚类参数选取与优化过程第53-55页
     ·单调减函数和密度窗宽参数的选取第53-54页
     ·投影方向优化第54-55页
   ·实验过程与结果第55-58页
     ·实验文本数据第55页
     ·可视化结果第55-56页
       ·最佳投影方向的表示第55页
       ·目标函数变化过程的表示第55页
       ·文本聚类结果的表示第55-56页
     ·实验结果及分析第56-58页
   ·本章小结第58-59页
第四章 基于LSA、CI 等降维的RPCL 文本聚类方法第59-74页
   ·引言第59-60页
   ·RPCL 算法第60-63页
     ·简单的竞争学习网络第60-61页
     ·RPCL 算法模型第61-62页
     ·二维数据实验第62-63页
   ·特征降维方法第63-68页
     ·隐含语义分析LSA(Latent Semantic Analysis)第63-64页
     ·概念索引CI第64-66页
     ·随机投影RP第66页
     ·非负矩阵分解NMF第66-67页
     ·几种方法的对比分析第67-68页
   ·基于LSA、CI、RP 和NMF 降维的RPCL 文本聚类模型第68页
   ·实验结果与分析第68-72页
     ·实验文本集第68-69页
     ·实验过程第69-72页
       ·特征建立与降维第69页
       ·相似度计算第69-70页
       ·实验方案第70页
       ·实验结果第70-71页
       ·实验一的分析第71页
       ·实验二的分析第71-72页
   ·本章小结第72-74页
第五章 双词关联特征选择模型第74-81页
   ·问题的提出第74-75页
   ·双词关联的基本概念第75页
   ·基本性质第75页
   ·双词关联特征选择模型第75-76页
   ·基于双词关联模型的LSA 特征降维第76-77页
   ·仿真实验第77-80页
     ·实验一第77-79页
       ·实验数据第77页
       ·实验过程第77-79页
     ·实验二第79-80页
       ·实验数据第79页
       ·实验过程第79-80页
     ·结果分析第80页
   ·本章小结第80-81页
第六章 文档标引图特征模型及相似度计算第81-94页
   ·问题的提出第81-82页
   ·文档标引图(DIG)的基本概念第82-83页
     ·文档结构分析第82页
     ·文档标引图第82-83页
   ·文档标引图特征模型第83-90页
     ·文档中语义层次的划分第83-84页
     ·文档标引图的构建第84-85页
       ·DIG 存储结构第84页
       ·文档子图(Document Subgraph)第84-85页
       ·累积DIG(Cumulative DIG)第85页
       ·短语匹配(Phrase Matching.)第85页
     ·基于短语的文档相似度的计算第85-90页
       ·相似度计算:Hammouda 的策略第85-86页
       ·相似度计算:新策略第86-90页
   ·仿真实验第90-93页
     ·实验数据第90-91页
     ·实验过程第91-92页
     ·结果分析第92-93页
   ·本章小结第93-94页
第七章 基于后缀树的文本聚类方法第94-103页
   ·引言第94-95页
   ·后缀树聚类模型第95-98页
     ·几个基本概念第95页
     ·文本分析第95-96页
     ·短语类簇识别第96页
     ·短语类簇合并第96-98页
       ·短语类簇相似度第96-97页
       ·画短语类簇关联图第97-98页
       ·依短语类簇关联图得出聚类结果第98页
   ·仿真实验第98-102页
     ·实验数据及其预处理第98-99页
     ·构建后缀树第99-100页
     ·计算短语类簇相似度第100-101页
     ·画短语类簇关联图得聚类结果第101-102页
     ·STC 的过程第102页
   ·本章小结第102-103页
总结与展望第103-106页
 1 全文总结第103-104页
 2 存在的问题和研究前景展望第104-106页
参考文献第106-119页
攻读博士期间发表论文和参加科研情况第119-121页
 一、发表的论文第119-120页
 二、参加的科研项目第120-121页
致谢第121页

论文共121页,点击 下载论文
上一篇:基于GIS的河流动力学模型及风险图制作应用研究
下一篇:空间问题与文化批评--当代西方马克思主义空间理论与文化批评