基于文本聚类的微博舆情热点检测技术研究

摘要	第5-6页
abstract	第6-7页
第1章绪论	第10-16页
1.1 研究背景及意义	第10-11页
1.2 国内外研究现状	第11-13页
1.2.1 国内研究现状	第11-12页
1.2.2 国外研究现状	第12-13页
1.3 本文的主要研究内容	第13-14页
1.4 论文结构	第14-16页
第2章话题检测技术分析	第16-26页
2.1 话题检测技术	第16-17页
2.2 中文分词技术	第17-19页
2.3 文本聚类算法	第19-25页
2.3.1 基于划分的聚类算法	第20-21页
2.3.2 基于层次的聚类算法	第21-23页
2.3.3 基于密度的聚类算法	第23-24页
2.3.4 基于网格的聚类算法	第24-25页
2.4 本章小结	第25-26页
第3章微博文本的特征提取与权值计算	第26-38页
3.1 微博数据的预处理	第26-28页
3.1.1 删除噪音数据	第26-27页
3.1.2 中文分词处理	第27-28页
3.1.3 删除停用词	第28页
3.2 文本特征词汇的提取	第28-31页
3.2.1 特征词汇选择方法	第28-30页
3.2.2 提取特征词汇	第30-31页
3.3 微博数据的文本表示	第31-33页
3.4 特征词汇权重计算	第33-36页
3.4.1 词汇权重计算方法	第33-34页
3.4.2 基于TF-IDF的权值计算	第34-36页
3.5 本章小结	第36-38页
第4章微博话题聚类算法研究	第38-50页
4.1 文本的相似度计算	第38-39页
4.2 K-means算法与K-means算法分析	第39-43页
4.2.1 K-means算法	第39-41页
4.2.2 K-means算法分析	第41-43页
4.3 针对微博话题的K-means算法改进	第43-47页
4.3.1 初始聚类中心的选择	第43-44页
4.3.2 聚类中心的选择	第44-46页
4.3.3 基于密度的K-means算法的设计与分析	第46-47页
4.4 微博热点话题提取	第47页
4.5 本章小结	第47-50页
第5章实验结果分析	第50-56页
5.1 测试环境	第50-51页
5.1.1 系统软硬件环境	第50页
5.1.2 实验数据采集与评价标准	第50-51页
5.2 实验内容及结果分析	第51-55页
5.2.1 相似度阈值的选择实验	第51-52页
5.2.2 不同聚类算法比较与分析	第52-55页
5.3 本章小结	第55-56页
结论	第56-58页
参考文献	第58-63页
致谢	第63页