基于潜在语义的中文文本聚类及其应用
摘要 | 第1-7页 |
ABSTRACT | 第7-11页 |
第1章 引言 | 第11-15页 |
·研究背景 | 第11页 |
·研究目的 | 第11-13页 |
·研究的意义 | 第13页 |
·全文的组织结构 | 第13-15页 |
第2章 相关工作 | 第15-27页 |
·文本预处理 | 第15-18页 |
·中文分词 | 第15-17页 |
·降维技术 | 第17页 |
·权重计算 | 第17-18页 |
·文本聚类及其应用 | 第18-21页 |
·文本聚类概述 | 第18页 |
·文本聚类的应用 | 第18-19页 |
·聚类算法 | 第19-21页 |
·数据场在文本聚类中的应用 | 第21-23页 |
·数据场概述 | 第21-22页 |
·场强函数 | 第22-23页 |
·云理论及其在文本聚类中的应用 | 第23-26页 |
·文本数据的不确定性 | 第23-25页 |
·云理论 | 第25-26页 |
·本章小结 | 第26-27页 |
第3章 基于潜在语义的中文文本聚类 | 第27-43页 |
·潜在语义分析 | 第27-32页 |
·截断奇异值分解 | 第27-28页 |
·潜在语义空间更新方法 | 第28-30页 |
·潜在语义应用示例及其解释 | 第30-32页 |
·潜在语义分析的不足 | 第32页 |
·弱势特征替换策略 | 第32-41页 |
·基于《同义词林》的词义距离计算 | 第33-34页 |
·基于《知网》的词义距离的计算 | 第34-37页 |
·弱势特征替换的具体实现 | 第37-41页 |
·基于潜在语义的多层次文本聚类 | 第41页 |
·本章小结 | 第41-43页 |
第4章 基于数据场改进的k-平均聚类算法 | 第43-55页 |
·k-平均算法描述 | 第43-44页 |
·欧氏距离和余弦距离 | 第43页 |
·基于方差标准的准则函数 | 第43-44页 |
·k-平均算法 | 第44页 |
·基于数据场与云理论改进的k-平均算法 | 第44-54页 |
·数据势分布函数 | 第45-46页 |
·改进的数据势分布函数 | 第46页 |
·数据对象间的影响因子 | 第46-49页 |
·基于数据场的孤立点检测 | 第49-50页 |
·基于数据场确定初始簇中心 | 第50-51页 |
·基于云理论对孤立点分类 | 第51-54页 |
·中文文本聚类过程 | 第54页 |
·本章小结 | 第54-55页 |
第5章 基于用户信息的文本聚类算法研究 | 第55-61页 |
·基于用户的历史访问记录的多层次聚类算法 | 第55-57页 |
·基于用户个人信息的多层次聚类 | 第57-59页 |
·基于知网的个人信息扩展 | 第57-59页 |
·基于用户个人信息的多层次聚类 | 第59页 |
·本章小节 | 第59-61页 |
第6章 实验结果与分析 | 第61-67页 |
·评估标准 | 第61-62页 |
·改进k-平均算法实验结果 | 第62-64页 |
·基于用户信息的文本聚类算法的实验结果 | 第64-65页 |
·本章小结 | 第65-67页 |
第7章 结束语 | 第67-69页 |
·本文总结 | 第67页 |
·工作展望 | 第67-69页 |
参考文献 | 第69-73页 |
致谢 | 第73-75页 |
攻硕期间参加的项目及发表的论文 | 第75页 |