基于内容的中文Web文档聚类方法研究与应用
第一章 引言 | 第1-14页 |
·研究背景和意义 | 第10-12页 |
·本文主要工作 | 第12页 |
·本文章节安排 | 第12-14页 |
第二章 WEB 文本聚类技术概述 | 第14-30页 |
·WEB 文本聚类技术背景 | 第14-16页 |
·不考虑文本语序的聚类方法 | 第16-22页 |
·向量空间模型 | 第16-19页 |
·相似度计算方法 | 第19-20页 |
·聚类算法 | 第20-22页 |
·对于中文文本聚类时需要考虑的问题 | 第22-27页 |
·现有的中文分词技术 | 第23-24页 |
·中文分词技术中的难题 | 第24-26页 |
·对“中文分词+VSM 模型”的聚类方式思考 | 第26-27页 |
·考虑文本语序的聚类方法 | 第27-29页 |
·后缀树模型 | 第27-28页 |
·利用后缀树进行聚类 | 第28-29页 |
·小结 | 第29-30页 |
第三章 一种新的基于短语匹配的中文文本聚类算法 | 第30-42页 |
·引言 | 第30-31页 |
·文档索引图模型 | 第31-35页 |
·文档索引图的定义 | 第31-32页 |
·表示文档索引图的数据结构 | 第32-33页 |
·文档之间相似度的定义 | 第33页 |
·文档索引图的构造过程 | 第33-35页 |
·文档索引图的复杂度分析 | 第35页 |
·增量的在线聚类算法 | 第35-41页 |
·增量聚类算法 | 第36页 |
·基于相似度区间的增量聚类方法 | 第36-37页 |
·增量聚类算法描述 | 第37-40页 |
·算法的复杂度分析 | 第40-41页 |
·小结 | 第41-42页 |
第四章 MINERONWEB 数据挖掘服务系统 | 第42-54页 |
·系统的开发背景与设计特点 | 第42-44页 |
·系统的目标 | 第42-43页 |
·系统的特点 | 第43-44页 |
·技术路线和总体设计 | 第44-49页 |
·技术路线 | 第44-45页 |
·系统总体设计和模块划分 | 第45-47页 |
·系统结构 | 第47-48页 |
·系统的运行部署 | 第48-49页 |
·应用服务器端的实现 | 第49-51页 |
·WEB 端的实现 | 第51-52页 |
·小结 | 第52-54页 |
第五章 中文搜索引擎结果聚类子系统的设计与实现 | 第54-73页 |
·前言 | 第54-55页 |
·中文搜索引擎结果聚类子系统概述 | 第55-56页 |
·重要数据结构的定义 | 第56-59页 |
·应用服务器端的设计与实现 | 第59-67页 |
·应用服务器端的需求分析 | 第59页 |
·服务器端的模块划分 | 第59-60页 |
·获取搜索结果模块 | 第60-62页 |
·文档索引图构造模块 | 第62-64页 |
·聚类算法模块 | 第64-65页 |
·重构搜索结果展示页面模块 | 第65-66页 |
·应用服务器端EJB 组件的设计和封装 | 第66-67页 |
·WEB 端的设计与实现 | 第67-68页 |
·运行结果分析 | 第68-71页 |
·小结 | 第71-73页 |
第六章 结论和展望 | 第73-74页 |
致谢 | 第74-75页 |
参考文献 | 第75-78页 |
附录1 | 第78-79页 |
附录2 | 第79-80页 |
附录3 | 第80-82页 |
附录4 | 第82-83页 |
硕士期间研究成果 | 第83页 |