| 摘要 | 第1-3页 |
| ABSTRACT | 第3-10页 |
| 第一章 绪论 | 第10-30页 |
| ·本文选题背景与研究意义 | 第10-11页 |
| ·数据挖掘与文本挖掘概论 | 第11-21页 |
| ·数据挖掘 | 第11-14页 |
| ·数据挖掘的概念 | 第11-12页 |
| ·数据挖掘的功能 | 第12-13页 |
| ·数据挖掘的方法 | 第13-14页 |
| ·数据挖掘的对象 | 第14页 |
| ·文本挖掘 | 第14-19页 |
| ·文本挖掘的概念 | 第14-15页 |
| ·文本挖掘的内容 | 第15-16页 |
| ·文本挖掘的过程 | 第16-17页 |
| ·文本挖掘要解决的几个问题 | 第17-18页 |
| ·文本挖掘的应用背景 | 第18-19页 |
| ·文本特征表示 | 第19-21页 |
| ·向量空间模型 | 第19页 |
| ·其它表示方法 | 第19-20页 |
| ·ontology | 第20-21页 |
| ·特征降维 | 第21-22页 |
| ·特征选择 | 第21-22页 |
| ·基于评估函数的特征筛选 | 第21页 |
| ·考虑特征依赖的特征选择 | 第21-22页 |
| ·特征提取 | 第22页 |
| ·文本聚类 | 第22-25页 |
| ·主要聚类方法 | 第22-24页 |
| ·基于划分的方法(Partitioning Method) | 第22-23页 |
| ·基于层次的方法(Hierarchical Method) | 第23页 |
| ·基于密度的方法(Density-Based Method) | 第23-24页 |
| ·基于网格的方法(Grid-Based Method) | 第24页 |
| ·基于模型的方法(Model-Based Method) | 第24页 |
| ·孤立点分析(Model-Based Method) | 第24页 |
| ·文本聚类的应用 | 第24-25页 |
| ·聚类方法的研究进展 | 第25-27页 |
| ·本文的主要内容及创新点 | 第27-30页 |
| 第二章 文本聚类算法及相关问题 | 第30-47页 |
| ·文本特征表示 | 第30-35页 |
| ·向量空间模型 | 第31-32页 |
| ·文本特征的选择与表示 | 第31页 |
| ·词频特征矩阵TF.IDF 表示 | 第31-32页 |
| ·规一化处理 | 第32页 |
| ·后缀树模型 | 第32-35页 |
| ·后缀树 | 第32-34页 |
| ·广义后缀树 | 第34-35页 |
| ·后缀树构造算法 | 第35页 |
| ·特征降维方法 | 第35-39页 |
| ·特征选择方法 | 第36-39页 |
| ·基于评估函数的特征筛选 | 第36-38页 |
| ·考虑特征依赖的特征选择 | 第38-39页 |
| ·特征提取方法 | 第39页 |
| ·文本相似度与聚类质量评价 | 第39-43页 |
| ·文档相似性的度量 | 第39-41页 |
| ·聚类质量的评价 | 第41-43页 |
| ·熵 | 第41页 |
| ·特征测量 | 第41-42页 |
| ·平均准确率 | 第42页 |
| ·整体相似度 | 第42-43页 |
| ·纯度 | 第43页 |
| ·几种主要的文本聚类方法 | 第43-46页 |
| ·k-means 方法 | 第43-44页 |
| ·层次聚类方法 | 第44-45页 |
| ·竞争学习聚类方法 | 第45-46页 |
| ·本章小结 | 第46-47页 |
| 第三章 基于遗传算法的投影寻踪文本聚类方法 | 第47-59页 |
| ·引言 | 第47-48页 |
| ·投影寻踪模型 | 第48-49页 |
| ·投影寻踪文本聚类模型 | 第49-53页 |
| ·投影寻踪文本聚类模型 | 第49-51页 |
| ·文本特征向量空间表示 | 第49-50页 |
| ·线性投影 | 第50页 |
| ·投影指标(即目标函数) | 第50-51页 |
| ·优化投影方向 | 第51页 |
| ·综合评价分析 | 第51页 |
| ·遗传算法优化投影方向 | 第51-53页 |
| ·算法性能分析 | 第53页 |
| ·聚类参数选取与优化过程 | 第53-55页 |
| ·单调减函数和密度窗宽参数的选取 | 第53-54页 |
| ·投影方向优化 | 第54-55页 |
| ·实验过程与结果 | 第55-58页 |
| ·实验文本数据 | 第55页 |
| ·可视化结果 | 第55-56页 |
| ·最佳投影方向的表示 | 第55页 |
| ·目标函数变化过程的表示 | 第55页 |
| ·文本聚类结果的表示 | 第55-56页 |
| ·实验结果及分析 | 第56-58页 |
| ·本章小结 | 第58-59页 |
| 第四章 基于LSA、CI 等降维的RPCL 文本聚类方法 | 第59-74页 |
| ·引言 | 第59-60页 |
| ·RPCL 算法 | 第60-63页 |
| ·简单的竞争学习网络 | 第60-61页 |
| ·RPCL 算法模型 | 第61-62页 |
| ·二维数据实验 | 第62-63页 |
| ·特征降维方法 | 第63-68页 |
| ·隐含语义分析LSA(Latent Semantic Analysis) | 第63-64页 |
| ·概念索引CI | 第64-66页 |
| ·随机投影RP | 第66页 |
| ·非负矩阵分解NMF | 第66-67页 |
| ·几种方法的对比分析 | 第67-68页 |
| ·基于LSA、CI、RP 和NMF 降维的RPCL 文本聚类模型 | 第68页 |
| ·实验结果与分析 | 第68-72页 |
| ·实验文本集 | 第68-69页 |
| ·实验过程 | 第69-72页 |
| ·特征建立与降维 | 第69页 |
| ·相似度计算 | 第69-70页 |
| ·实验方案 | 第70页 |
| ·实验结果 | 第70-71页 |
| ·实验一的分析 | 第71页 |
| ·实验二的分析 | 第71-72页 |
| ·本章小结 | 第72-74页 |
| 第五章 双词关联特征选择模型 | 第74-81页 |
| ·问题的提出 | 第74-75页 |
| ·双词关联的基本概念 | 第75页 |
| ·基本性质 | 第75页 |
| ·双词关联特征选择模型 | 第75-76页 |
| ·基于双词关联模型的LSA 特征降维 | 第76-77页 |
| ·仿真实验 | 第77-80页 |
| ·实验一 | 第77-79页 |
| ·实验数据 | 第77页 |
| ·实验过程 | 第77-79页 |
| ·实验二 | 第79-80页 |
| ·实验数据 | 第79页 |
| ·实验过程 | 第79-80页 |
| ·结果分析 | 第80页 |
| ·本章小结 | 第80-81页 |
| 第六章 文档标引图特征模型及相似度计算 | 第81-94页 |
| ·问题的提出 | 第81-82页 |
| ·文档标引图(DIG)的基本概念 | 第82-83页 |
| ·文档结构分析 | 第82页 |
| ·文档标引图 | 第82-83页 |
| ·文档标引图特征模型 | 第83-90页 |
| ·文档中语义层次的划分 | 第83-84页 |
| ·文档标引图的构建 | 第84-85页 |
| ·DIG 存储结构 | 第84页 |
| ·文档子图(Document Subgraph) | 第84-85页 |
| ·累积DIG(Cumulative DIG) | 第85页 |
| ·短语匹配(Phrase Matching.) | 第85页 |
| ·基于短语的文档相似度的计算 | 第85-90页 |
| ·相似度计算:Hammouda 的策略 | 第85-86页 |
| ·相似度计算:新策略 | 第86-90页 |
| ·仿真实验 | 第90-93页 |
| ·实验数据 | 第90-91页 |
| ·实验过程 | 第91-92页 |
| ·结果分析 | 第92-93页 |
| ·本章小结 | 第93-94页 |
| 第七章 基于后缀树的文本聚类方法 | 第94-103页 |
| ·引言 | 第94-95页 |
| ·后缀树聚类模型 | 第95-98页 |
| ·几个基本概念 | 第95页 |
| ·文本分析 | 第95-96页 |
| ·短语类簇识别 | 第96页 |
| ·短语类簇合并 | 第96-98页 |
| ·短语类簇相似度 | 第96-97页 |
| ·画短语类簇关联图 | 第97-98页 |
| ·依短语类簇关联图得出聚类结果 | 第98页 |
| ·仿真实验 | 第98-102页 |
| ·实验数据及其预处理 | 第98-99页 |
| ·构建后缀树 | 第99-100页 |
| ·计算短语类簇相似度 | 第100-101页 |
| ·画短语类簇关联图得聚类结果 | 第101-102页 |
| ·STC 的过程 | 第102页 |
| ·本章小结 | 第102-103页 |
| 总结与展望 | 第103-106页 |
| 1 全文总结 | 第103-104页 |
| 2 存在的问题和研究前景展望 | 第104-106页 |
| 参考文献 | 第106-119页 |
| 攻读博士期间发表论文和参加科研情况 | 第119-121页 |
| 一、发表的论文 | 第119-120页 |
| 二、参加的科研项目 | 第120-121页 |
| 致谢 | 第121页 |