文本聚类分析若干问题研究

摘要	第1-3页
ABSTRACT	第3-10页
第一章绪论	第10-30页
·本文选题背景与研究意义	第10-11页
·数据挖掘与文本挖掘概论	第11-21页
·数据挖掘	第11-14页
·数据挖掘的概念	第11-12页
·数据挖掘的功能	第12-13页
·数据挖掘的方法	第13-14页
·数据挖掘的对象	第14页
·文本挖掘	第14-19页
·文本挖掘的概念	第14-15页
·文本挖掘的内容	第15-16页
·文本挖掘的过程	第16-17页
·文本挖掘要解决的几个问题	第17-18页
·文本挖掘的应用背景	第18-19页
·文本特征表示	第19-21页
·向量空间模型	第19页
·其它表示方法	第19-20页
·ontology	第20-21页
·特征降维	第21-22页
·特征选择	第21-22页
·基于评估函数的特征筛选	第21页
·考虑特征依赖的特征选择	第21-22页
·特征提取	第22页
·文本聚类	第22-25页
·主要聚类方法	第22-24页
·基于划分的方法（Partitioning Method）	第22-23页
·基于层次的方法（Hierarchical Method）	第23页
·基于密度的方法（Density-Based Method）	第23-24页
·基于网格的方法（Grid-Based Method）	第24页
·基于模型的方法（Model-Based Method）	第24页
·孤立点分析（Model-Based Method）	第24页
·文本聚类的应用	第24-25页
·聚类方法的研究进展	第25-27页
·本文的主要内容及创新点	第27-30页
第二章文本聚类算法及相关问题	第30-47页
·文本特征表示	第30-35页
·向量空间模型	第31-32页
·文本特征的选择与表示	第31页
·词频特征矩阵TF.IDF 表示	第31-32页
·规一化处理	第32页
·后缀树模型	第32-35页
·后缀树	第32-34页
·广义后缀树	第34-35页
·后缀树构造算法	第35页
·特征降维方法	第35-39页
·特征选择方法	第36-39页
·基于评估函数的特征筛选	第36-38页
·考虑特征依赖的特征选择	第38-39页
·特征提取方法	第39页
·文本相似度与聚类质量评价	第39-43页
·文档相似性的度量	第39-41页
·聚类质量的评价	第41-43页
·熵	第41页
·特征测量	第41-42页
·平均准确率	第42页
·整体相似度	第42-43页
·纯度	第43页
·几种主要的文本聚类方法	第43-46页
·k-means 方法	第43-44页
·层次聚类方法	第44-45页
·竞争学习聚类方法	第45-46页
·本章小结	第46-47页
第三章基于遗传算法的投影寻踪文本聚类方法	第47-59页
·引言	第47-48页
·投影寻踪模型	第48-49页
·投影寻踪文本聚类模型	第49-53页
·投影寻踪文本聚类模型	第49-51页
·文本特征向量空间表示	第49-50页
·线性投影	第50页
·投影指标（即目标函数）	第50-51页
·优化投影方向	第51页
·综合评价分析	第51页
·遗传算法优化投影方向	第51-53页
·算法性能分析	第53页
·聚类参数选取与优化过程	第53-55页
·单调减函数和密度窗宽参数的选取	第53-54页
·投影方向优化	第54-55页
·实验过程与结果	第55-58页
·实验文本数据	第55页
·可视化结果	第55-56页
·最佳投影方向的表示	第55页
·目标函数变化过程的表示	第55页
·文本聚类结果的表示	第55-56页
·实验结果及分析	第56-58页
·本章小结	第58-59页
第四章基于LSA、CI 等降维的RPCL 文本聚类方法	第59-74页
·引言	第59-60页
·RPCL 算法	第60-63页
·简单的竞争学习网络	第60-61页
·RPCL 算法模型	第61-62页
·二维数据实验	第62-63页
·特征降维方法	第63-68页
·隐含语义分析LSA（Latent Semantic Analysis）	第63-64页
·概念索引CI	第64-66页
·随机投影RP	第66页
·非负矩阵分解NMF	第66-67页
·几种方法的对比分析	第67-68页
·基于LSA、CI、RP 和NMF 降维的RPCL 文本聚类模型	第68页
·实验结果与分析	第68-72页
·实验文本集	第68-69页
·实验过程	第69-72页
·特征建立与降维	第69页
·相似度计算	第69-70页
·实验方案	第70页
·实验结果	第70-71页
·实验一的分析	第71页
·实验二的分析	第71-72页
·本章小结	第72-74页
第五章双词关联特征选择模型	第74-81页
·问题的提出	第74-75页
·双词关联的基本概念	第75页
·基本性质	第75页
·双词关联特征选择模型	第75-76页
·基于双词关联模型的LSA 特征降维	第76-77页
·仿真实验	第77-80页
·实验一	第77-79页
·实验数据	第77页
·实验过程	第77-79页
·实验二	第79-80页
·实验数据	第79页
·实验过程	第79-80页
·结果分析	第80页
·本章小结	第80-81页
第六章文档标引图特征模型及相似度计算	第81-94页
·问题的提出	第81-82页
·文档标引图（DIG）的基本概念	第82-83页
·文档结构分析	第82页
·文档标引图	第82-83页
·文档标引图特征模型	第83-90页
·文档中语义层次的划分	第83-84页
·文档标引图的构建	第84-85页
·DIG 存储结构	第84页
·文档子图（Document Subgraph）	第84-85页
·累积DIG（Cumulative DIG）	第85页
·短语匹配（Phrase Matching.）	第85页
·基于短语的文档相似度的计算	第85-90页
·相似度计算：Hammouda 的策略	第85-86页
·相似度计算：新策略	第86-90页
·仿真实验	第90-93页
·实验数据	第90-91页
·实验过程	第91-92页
·结果分析	第92-93页
·本章小结	第93-94页
第七章基于后缀树的文本聚类方法	第94-103页
·引言	第94-95页
·后缀树聚类模型	第95-98页
·几个基本概念	第95页
·文本分析	第95-96页
·短语类簇识别	第96页
·短语类簇合并	第96-98页
·短语类簇相似度	第96-97页
·画短语类簇关联图	第97-98页
·依短语类簇关联图得出聚类结果	第98页
·仿真实验	第98-102页
·实验数据及其预处理	第98-99页
·构建后缀树	第99-100页
·计算短语类簇相似度	第100-101页
·画短语类簇关联图得聚类结果	第101-102页
·STC 的过程	第102页
·本章小结	第102-103页
总结与展望	第103-106页
1 全文总结	第103-104页
2 存在的问题和研究前景展望	第104-106页
参考文献	第106-119页
攻读博士期间发表论文和参加科研情况	第119-121页
一、发表的论文	第119-120页
二、参加的科研项目	第120-121页
致谢	第121页