摘要 | 第1-3页 |
ABSTRACT | 第3-10页 |
第一章 绪论 | 第10-30页 |
·本文选题背景与研究意义 | 第10-11页 |
·数据挖掘与文本挖掘概论 | 第11-21页 |
·数据挖掘 | 第11-14页 |
·数据挖掘的概念 | 第11-12页 |
·数据挖掘的功能 | 第12-13页 |
·数据挖掘的方法 | 第13-14页 |
·数据挖掘的对象 | 第14页 |
·文本挖掘 | 第14-19页 |
·文本挖掘的概念 | 第14-15页 |
·文本挖掘的内容 | 第15-16页 |
·文本挖掘的过程 | 第16-17页 |
·文本挖掘要解决的几个问题 | 第17-18页 |
·文本挖掘的应用背景 | 第18-19页 |
·文本特征表示 | 第19-21页 |
·向量空间模型 | 第19页 |
·其它表示方法 | 第19-20页 |
·ontology | 第20-21页 |
·特征降维 | 第21-22页 |
·特征选择 | 第21-22页 |
·基于评估函数的特征筛选 | 第21页 |
·考虑特征依赖的特征选择 | 第21-22页 |
·特征提取 | 第22页 |
·文本聚类 | 第22-25页 |
·主要聚类方法 | 第22-24页 |
·基于划分的方法(Partitioning Method) | 第22-23页 |
·基于层次的方法(Hierarchical Method) | 第23页 |
·基于密度的方法(Density-Based Method) | 第23-24页 |
·基于网格的方法(Grid-Based Method) | 第24页 |
·基于模型的方法(Model-Based Method) | 第24页 |
·孤立点分析(Model-Based Method) | 第24页 |
·文本聚类的应用 | 第24-25页 |
·聚类方法的研究进展 | 第25-27页 |
·本文的主要内容及创新点 | 第27-30页 |
第二章 文本聚类算法及相关问题 | 第30-47页 |
·文本特征表示 | 第30-35页 |
·向量空间模型 | 第31-32页 |
·文本特征的选择与表示 | 第31页 |
·词频特征矩阵TF.IDF 表示 | 第31-32页 |
·规一化处理 | 第32页 |
·后缀树模型 | 第32-35页 |
·后缀树 | 第32-34页 |
·广义后缀树 | 第34-35页 |
·后缀树构造算法 | 第35页 |
·特征降维方法 | 第35-39页 |
·特征选择方法 | 第36-39页 |
·基于评估函数的特征筛选 | 第36-38页 |
·考虑特征依赖的特征选择 | 第38-39页 |
·特征提取方法 | 第39页 |
·文本相似度与聚类质量评价 | 第39-43页 |
·文档相似性的度量 | 第39-41页 |
·聚类质量的评价 | 第41-43页 |
·熵 | 第41页 |
·特征测量 | 第41-42页 |
·平均准确率 | 第42页 |
·整体相似度 | 第42-43页 |
·纯度 | 第43页 |
·几种主要的文本聚类方法 | 第43-46页 |
·k-means 方法 | 第43-44页 |
·层次聚类方法 | 第44-45页 |
·竞争学习聚类方法 | 第45-46页 |
·本章小结 | 第46-47页 |
第三章 基于遗传算法的投影寻踪文本聚类方法 | 第47-59页 |
·引言 | 第47-48页 |
·投影寻踪模型 | 第48-49页 |
·投影寻踪文本聚类模型 | 第49-53页 |
·投影寻踪文本聚类模型 | 第49-51页 |
·文本特征向量空间表示 | 第49-50页 |
·线性投影 | 第50页 |
·投影指标(即目标函数) | 第50-51页 |
·优化投影方向 | 第51页 |
·综合评价分析 | 第51页 |
·遗传算法优化投影方向 | 第51-53页 |
·算法性能分析 | 第53页 |
·聚类参数选取与优化过程 | 第53-55页 |
·单调减函数和密度窗宽参数的选取 | 第53-54页 |
·投影方向优化 | 第54-55页 |
·实验过程与结果 | 第55-58页 |
·实验文本数据 | 第55页 |
·可视化结果 | 第55-56页 |
·最佳投影方向的表示 | 第55页 |
·目标函数变化过程的表示 | 第55页 |
·文本聚类结果的表示 | 第55-56页 |
·实验结果及分析 | 第56-58页 |
·本章小结 | 第58-59页 |
第四章 基于LSA、CI 等降维的RPCL 文本聚类方法 | 第59-74页 |
·引言 | 第59-60页 |
·RPCL 算法 | 第60-63页 |
·简单的竞争学习网络 | 第60-61页 |
·RPCL 算法模型 | 第61-62页 |
·二维数据实验 | 第62-63页 |
·特征降维方法 | 第63-68页 |
·隐含语义分析LSA(Latent Semantic Analysis) | 第63-64页 |
·概念索引CI | 第64-66页 |
·随机投影RP | 第66页 |
·非负矩阵分解NMF | 第66-67页 |
·几种方法的对比分析 | 第67-68页 |
·基于LSA、CI、RP 和NMF 降维的RPCL 文本聚类模型 | 第68页 |
·实验结果与分析 | 第68-72页 |
·实验文本集 | 第68-69页 |
·实验过程 | 第69-72页 |
·特征建立与降维 | 第69页 |
·相似度计算 | 第69-70页 |
·实验方案 | 第70页 |
·实验结果 | 第70-71页 |
·实验一的分析 | 第71页 |
·实验二的分析 | 第71-72页 |
·本章小结 | 第72-74页 |
第五章 双词关联特征选择模型 | 第74-81页 |
·问题的提出 | 第74-75页 |
·双词关联的基本概念 | 第75页 |
·基本性质 | 第75页 |
·双词关联特征选择模型 | 第75-76页 |
·基于双词关联模型的LSA 特征降维 | 第76-77页 |
·仿真实验 | 第77-80页 |
·实验一 | 第77-79页 |
·实验数据 | 第77页 |
·实验过程 | 第77-79页 |
·实验二 | 第79-80页 |
·实验数据 | 第79页 |
·实验过程 | 第79-80页 |
·结果分析 | 第80页 |
·本章小结 | 第80-81页 |
第六章 文档标引图特征模型及相似度计算 | 第81-94页 |
·问题的提出 | 第81-82页 |
·文档标引图(DIG)的基本概念 | 第82-83页 |
·文档结构分析 | 第82页 |
·文档标引图 | 第82-83页 |
·文档标引图特征模型 | 第83-90页 |
·文档中语义层次的划分 | 第83-84页 |
·文档标引图的构建 | 第84-85页 |
·DIG 存储结构 | 第84页 |
·文档子图(Document Subgraph) | 第84-85页 |
·累积DIG(Cumulative DIG) | 第85页 |
·短语匹配(Phrase Matching.) | 第85页 |
·基于短语的文档相似度的计算 | 第85-90页 |
·相似度计算:Hammouda 的策略 | 第85-86页 |
·相似度计算:新策略 | 第86-90页 |
·仿真实验 | 第90-93页 |
·实验数据 | 第90-91页 |
·实验过程 | 第91-92页 |
·结果分析 | 第92-93页 |
·本章小结 | 第93-94页 |
第七章 基于后缀树的文本聚类方法 | 第94-103页 |
·引言 | 第94-95页 |
·后缀树聚类模型 | 第95-98页 |
·几个基本概念 | 第95页 |
·文本分析 | 第95-96页 |
·短语类簇识别 | 第96页 |
·短语类簇合并 | 第96-98页 |
·短语类簇相似度 | 第96-97页 |
·画短语类簇关联图 | 第97-98页 |
·依短语类簇关联图得出聚类结果 | 第98页 |
·仿真实验 | 第98-102页 |
·实验数据及其预处理 | 第98-99页 |
·构建后缀树 | 第99-100页 |
·计算短语类簇相似度 | 第100-101页 |
·画短语类簇关联图得聚类结果 | 第101-102页 |
·STC 的过程 | 第102页 |
·本章小结 | 第102-103页 |
总结与展望 | 第103-106页 |
1 全文总结 | 第103-104页 |
2 存在的问题和研究前景展望 | 第104-106页 |
参考文献 | 第106-119页 |
攻读博士期间发表论文和参加科研情况 | 第119-121页 |
一、发表的论文 | 第119-120页 |
二、参加的科研项目 | 第120-121页 |
致谢 | 第121页 |