基于k-means的中文文本聚类算法的研究与实现

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-12页
·研究背景与意义	第8页
·研究现状	第8-10页
·文本聚类研究的难点	第10-11页
·本文的研究内容	第11-12页
第二章中文文本聚类的主要技术	第12-23页
·文本聚类过程	第12页
·文本预处理	第12-14页
·中文分词	第13页
·停用词处理	第13-14页
·文本表示	第14-16页
·降维处理	第16-17页
·文本相似度的计算	第17-18页
·聚类算法	第18-20页
·文本聚类质量的评价标准	第20-23页
·基于人工判定的指标	第20-22页
·基于目标函数的指标	第22-23页
第三章特征选择	第23-31页
·特征选择	第23页
·文本聚类中常用的特征选择方法	第23-26页
·基于文档频率(DF)和单词贡献度(TC)的改进特征选择方法	第26-28页
·基于单词贡献度(TC)的增量的特征选择	第27-28页
·基于DF和TC的改进特征选择方法的流程	第28页
·实验分析	第28-29页
·本章小结	第29-31页
第四章基于共享最近邻的改进的文本聚类算法	第31-44页
·问题的提出	第31-32页
·基于共享最近邻的层次聚类算法	第32-33页
·邻居(Neighbors)	第32-33页
·链接(link)	第33页
·簇间相似度度量及评价准则	第33页
·基于共享最近邻的改进的k-means算法	第33-41页
·k-means算法思想与流程	第34-35页
·k-means算法特点与缺点	第35-36页
·基于最大最小原则的初始点选择	第36页
·基于共享最近邻的改进的初始点选择方法	第36-39页
·聚簇数目k的确定	第39页
·基于共享最近邻的改进的k-means算法的流程	第39-41页
·基于共享最近邻的改进的bisecting k-means算法	第41-43页
·bisecting k-means算法的思想及流程	第41页
·改进的bisecting k-means算法	第41-43页
·本章小节	第43-44页
第五章基于k-means的中文文本聚类的实现与实验	第44-54页
·软硬件环境	第44页
·系统设计	第44-47页
·语料库	第44-45页
·功能模块设计	第45-46页
·评价标准	第46-47页
·系统实现	第47-49页
·系统主界面	第47页
·文本解析模块参数选择	第47-48页
·聚类模块	第48-49页
·实验与分析	第49-53页
·实验样本集	第49-50页
·实验比较	第50-53页
·本章小节	第53-54页
总结与展望	第54-56页
参考文献	第56-60页
攻读学位期间发表的论文	第60-61页
致谢	第61页