基于文本相似度的中文文本聚类的研究

摘要	第1页
Abstract	第3-7页
第一章绪论	第7-10页
·研究背景和意义	第7页
·本文工作	第7-8页
·论文组织	第8-10页
第二章中文自动分词	第10-22页
·引言	第10-11页
·中文未登录词的识别	第11-18页
·未登录词的研究现状	第11-12页
·基于统计的中文姓名识别	第12-17页
·实验结果及分析	第17-18页
·歧义消解	第18-21页
·歧义产生的根源	第18-19页
·歧义的类型	第19-21页
·交集型歧义消解	第20页
·多义组合型歧义消解	第20-21页
·本章小结	第21-22页
第三章降维技术相关研究	第22-37页
·文档表示	第22-23页
·特征项类别选择	第23-24页
·字特征	第23页
·词特征	第23-24页
·n-gram特征	第24页
·特征选择主要方法的分析选择	第24-28页
·信息增益(IG)	第24-25页
·x~2统计(CHI)	第25-26页
·互信息(MI)	第26页
·文档频率(DF)	第26-27页
·特征增强(TS)	第27页
·基于熵的特征排序(En)	第27-28页
·特征贡献(TC)	第28页
·常用特征选择方法在中文文本聚类中的应用实验研究	第28-31页
·特征抽取比较分析	第31-36页
·主成分分析法(PCA)	第31-32页
·隐含语义标引(LSI)	第32-33页
·多维标度法(MDS)	第33-34页
·局部线性嵌入(LLE)	第34-36页
·词聚类	第36页
·本章小结	第36-37页
第四章中文文本相似度计算	第37-41页
·引言	第37页
·向量空间模型	第37页
·中文文本相似度计算的主要方法	第37-39页
·基于VSM的TF-IDF算法	第38页
·改进的TF-IDF算法	第38-39页
·相似度计算	第39页
·实验结果及分析	第39-40页
·本章小结	第40-41页
第五章基于VSM的文本聚类	第41-52页
·主要文本聚类算法比较	第41-45页
·层次聚类算法	第41-42页
·划分聚类算法	第42-43页
·基于密度的聚类算法	第43页
·基于网格的聚类算法	第43-44页
·基于模型的聚类算法	第44页
·模糊聚类算法	第44-45页
·聚类效果评定	第45-46页
·实验设计及结果分析	第46-51页
·研究资源	第46-47页
·总体设计	第47页
·组织聚类	第47-50页
·文本预处理	第47-48页
·相似度计算	第48-49页
·基于编网法的模糊文本聚类	第49-50页
·实验结果及其分析	第50-51页
·本章小结	第51-52页
第六章文本聚类在多文档自动文摘中应用	第52-63页
·引言	第52-53页
·关键技术	第53-58页
·句子相似度	第53-57页
·基于词权重的相似度计算	第54-55页
·基于潜在语义分析的句子相似度计算	第55页
·基于词义距离的句子相似度计算	第55-56页
·基于语义依存的句子相似度计算	第56-57页
·文摘句抽取	第57页
·文摘句排序	第57-58页
·评价技术	第58-59页
·实现过程及效果分析	第59-62页
·多文档自动文摘的实现	第59-61页
·实验结果及分析	第61-62页
·本章小结	第62-63页
第七章总结与展望	第63-65页
·本文总结	第63页
·进一步的工作	第63-65页
参考文献	第65-70页
致谢	第70-71页
在学期间发表的学术论文和参加科研情况	第71页