面向短消息的文本聚类研究

摘要	第1-6页
Abstract	第6-11页
插图索引	第11-12页
附表索引	第12-13页
第1章绪论	第13-21页
·研究背景和意义	第13-16页
·研究的主要问题和挑战	第16-18页
·本文的研究内容	第18-20页
·本文的组织结构	第20-21页
第2章文本模型及聚类方法分析	第21-30页
·文本表示模型	第21-23页
·布尔模型	第21页
·向量空间模型	第21-22页
·概率模型	第22-23页
·其他模型	第23页
·相似度计算方法	第23-26页
·基于向量空间模型的 TF-IDF 方法	第23-24页
·潜在语义标引法	第24-25页
·基于汉明距离的文本相似度计算方法	第25页
·基于语义理解的文本相似度计算方法	第25-26页
·主要聚类算法	第26-29页
·划分的方法	第26-27页
·层次的方法	第27页
·基于密度的方法	第27页
·基于网格的方法	第27-28页
·基于模型的方法	第28页
·后缀树(STC)聚类算法	第28-29页
·本章小结	第29-30页
第3章短消息会话场景聚类系统设计	第30-37页
·常规文本聚类过程	第30-31页
·短消息文本特性分析	第31-33页
·会话交错性特征	第31页
·文本稀疏性特征	第31-33页
·大规模特征	第33页
·短消息聚类系统设计	第33-34页
·会话抽取技术	第34-36页
·本章小结	第36-37页
第4章短文本相似度计算	第37-45页
·相关问题及技术分析	第37-39页
·相关问题	第37页
·相关技术	第37-39页
·基于词法分类器度量词间关系	第39-42页
·《知网》简介	第39-40页
·义原相似度计算	第40-41页
·概念相似度计算	第41-42页
·词语相似度计算	第42页
·短文本相似性度量算法	第42-43页
·实验	第43-44页
·本章小结及改进设想	第44-45页
第5章短文本聚类算法 SMHC	第45-56页
·基于频繁词集的聚类算法	第45-46页
·Ant-Tree 算法	第46-49页
·基于频繁词集和 Ant-Tree 的混合聚类算法	第49-53页
·构建初始聚簇	第49-51页
·轮廓系数	第51-52页
·SMHC 算法	第52-53页
·实验	第53-55页
·实验设置	第53页
·评价指标	第53-54页
·实验结果及分析	第54-55页
·本章小结	第55-56页
第6章短消息文本聚类系统应用设计	第56-61页
·系统结构	第56-57页
·各功能单元结构分析	第57-60页
·数据访问单元	第57-58页
·文本预处理单元	第58页
·相似性度量单元	第58页
·会话合成单元	第58-59页
·聚类单元	第59页
·检索单元	第59-60页
·本章小结	第60-61页
总结	第61-63页
参考文献	第63-67页
附录 A 攻读硕士学位期间所发表的学术论文	第67-68页
致谢	第68页