首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于k-means的中文文本聚类算法的研究与实现

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-12页
   ·研究背景与意义第8页
   ·研究现状第8-10页
   ·文本聚类研究的难点第10-11页
   ·本文的研究内容第11-12页
第二章 中文文本聚类的主要技术第12-23页
   ·文本聚类过程第12页
   ·文本预处理第12-14页
     ·中文分词第13页
     ·停用词处理第13-14页
   ·文本表示第14-16页
   ·降维处理第16-17页
   ·文本相似度的计算第17-18页
   ·聚类算法第18-20页
   ·文本聚类质量的评价标准第20-23页
     ·基于人工判定的指标第20-22页
     ·基于目标函数的指标第22-23页
第三章 特征选择第23-31页
   ·特征选择第23页
   ·文本聚类中常用的特征选择方法第23-26页
   ·基于文档频率(DF)和单词贡献度(TC)的改进特征选择方法第26-28页
     ·基于单词贡献度(TC)的增量的特征选择第27-28页
     ·基于DF和TC的改进特征选择方法的流程第28页
   ·实验分析第28-29页
   ·本章小结第29-31页
第四章 基于共享最近邻的改进的文本聚类算法第31-44页
   ·问题的提出第31-32页
   ·基于共享最近邻的层次聚类算法第32-33页
     ·邻居(Neighbors)第32-33页
     ·链接(link)第33页
     ·簇间相似度度量及评价准则第33页
   ·基于共享最近邻的改进的k-means算法第33-41页
     ·k-means算法思想与流程第34-35页
     ·k-means算法特点与缺点第35-36页
     ·基于最大最小原则的初始点选择第36页
     ·基于共享最近邻的改进的初始点选择方法第36-39页
     ·聚簇数目k的确定第39页
     ·基于共享最近邻的改进的k-means算法的流程第39-41页
   ·基于共享最近邻的改进的bisecting k-means算法第41-43页
     ·bisecting k-means算法的思想及流程第41页
     ·改进的bisecting k-means算法第41-43页
   ·本章小节第43-44页
第五章 基于k-means的中文文本聚类的实现与实验第44-54页
   ·软硬件环境第44页
   ·系统设计第44-47页
     ·语料库第44-45页
     ·功能模块设计第45-46页
     ·评价标准第46-47页
   ·系统实现第47-49页
     ·系统主界面第47页
     ·文本解析模块参数选择第47-48页
     ·聚类模块第48-49页
   ·实验与分析第49-53页
     ·实验样本集第49-50页
     ·实验比较第50-53页
   ·本章小节第53-54页
总结与展望第54-56页
参考文献第56-60页
攻读学位期间发表的论文第60-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:基于信牌驱动模型的模型验证的分析与研究
下一篇:NXD数据库事务及并发机制的研究