首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于k-平均算法的文本聚类系统研究与实现

摘要第1-5页
Abstract第5-8页
第1章 绪论第8-13页
   ·研究的背景第8-10页
   ·研究的意义第10-11页
   ·研究现状第11-12页
   ·本文的主要内容及组织第12-13页
第2章 文本聚类关键技术第13-28页
   ·自动分词第14-16页
     ·基于词典的分词方法第14-15页
     ·基于理解的分词方法第15-16页
     ·基于统计的分词方法第16页
   ·文本表示模型第16-19页
     ·布尔模型第17页
     ·向量空间模型第17-18页
     ·概率模型第18-19页
   ·特征项的选择第19-21页
     ·信息增益第19-20页
     ·互信息第20页
     ·x~2(CHI)统计第20-21页
   ·特征项的权重计算第21-22页
   ·中文文本聚类算法第22-27页
     ·划分聚类方法第23-24页
     ·层次聚类方法第24-26页
     ·基于密度的聚类方法第26-27页
     ·基于网格的方法第27页
     ·基于模型的方法第27页
   ·本章小结第27-28页
第3章 文本预处理设计与实验第28-41页
   ·分词模块设计第28-35页
     ·分词设计第28-32页
     ·歧义字段识别与处理第32-34页
     ·中文文本分词实验第34-35页
   ·文本表示设计第35-40页
     ·特征缩减设计第35-38页
     ·特征表示设计第38-40页
   ·本章小结第40-41页
第4章 文本聚类设计与实验第41-53页
   ·传统的k-平均算法第42-44页
   ·初始参数的确定第44-51页
     ·参数k的确定第44-45页
     ·确定参数k的实验结果第45-47页
     ·已有的初始聚类中心的选择方法第47页
     ·基于密度的初始聚类中心选择方法第47-50页
     ·确定初始聚类中心的实验结果第50-51页
   ·基于k-平均值的文本二次聚类算法第51-52页
   ·本章小结第52-53页
第5章 系统实现与实验结果分析第53-63页
   ·系统的实现第53-57页
     ·系统开发平台第53页
     ·系统结构第53-57页
   ·实验结果评价第57-62页
     ·实验数据集第57-58页
     ·聚类实验结果分析第58-62页
   ·本章小结第62-63页
第6章 总结第63-65页
参考文献第65-68页
致谢第68-69页
攻读硕士学位发表论文和参加科研情况第69页

论文共69页,点击 下载论文
上一篇:服务器集群负载平衡技术的研究
下一篇:基于Map/Reduce的分布式智能搜索引擎框架研究