基于语义的Web文本聚类方法研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-13页
·研究背景及意义	第10页
·国内外研究现状	第10-11页
·国外研究现状	第11页
·国内研究现状	第11页
·论文研究内容	第11-12页
·论文组织及结构	第12-13页
第2章文本表示模型及其关键技术	第13-22页
·文本的中文分词	第13-15页
·基于词表的分词方法	第13-14页
·基于统计的分词方法	第14-15页
·文本的特征选择	第15-18页
·文档频数	第16页
·信息增益	第16页
·互信息	第16-17页
·卡方统计	第17页
·交叉熵	第17页
·证据权值	第17-18页
·文本的特征表示	第18-21页
·空间向量模型基本概念	第18-19页
·特征单元选择	第19-20页
·项的权重计算	第20-21页
·本章小结	第21-22页
第3章文本聚类分析	第22-30页
·聚类分析概述	第22-23页
·常用聚类算法	第23-27页
·基于层次的方法	第23-24页
·基于划分的方法	第24-25页
·基于模型的方法	第25页
·基于密度的方法	第25-26页
·基于网格的方法	第26-27页
·软聚类的方法	第27页
·聚类效果评价	第27-29页
·统计度量	第27-28页
·纯度度量	第28-29页
·本章小结	第29-30页
第4章知网与语义相似度计算	第30-42页
·知网	第30-34页
·知网的基本结构	第30-32页
·知网概念组织规则	第32-34页
·基于知网的义原与概念相似度	第34-40页
·义原距离算法	第34-37页
·义原相似度与概念相似度	第37-39页
·概念相似度分析	第39-40页
·基于知网的改进 VSM	第40-41页
·本章小结	第41-42页
第5章微博话题发现系统的设计与实现	第42-54页
·系统介绍与框架	第42-43页
·数据收集模块	第43-44页
·中文分词模块	第44-45页
·特征表示模块	第45-47页
·文本聚类模块	第47-48页
·系统实验与测试	第48-53页
·实验环境与数据集	第48-49页
·实验结果与分析	第49-53页
·本章小结	第53-54页
第6章总结与展望	第54-56页
·本文工作总结	第54页
·未来工作展望	第54-56页
致谢	第56-57页
参考文献	第57-59页
附录	第59页