基于K-means的微博短文本聚类算法研究

摘要	第4-5页
ABSTRACT	第5页
1 绪论	第10-13页
1.1 研究背景	第10-11页
1.2 研究意义	第11-12页
1.3 研究内容	第12页
1.4 论文结构	第12-13页
2 国内外研究现状	第13-23页
2.1 微博相关研究综述	第13-15页
2.1.1 微博用户分析研究	第13-14页
2.1.2 微博内容的分析研究	第14-15页
2.1.3 微博应用的研究	第15页
2.2 微博信息抓取技术研究综述	第15-18页
2.2.1 微博公开平台的信息抓取技术	第15-17页
2.2.2 数据源镜像的信息抓取技术	第17页
2.2.3 网络数据流的信息抓取技术	第17-18页
2.2.4 网络爬虫的信息抓取技术	第18页
2.3 短文本相关的聚类算法研究综述	第18-22页
2.3.1 基于划分的方法(PM)	第19-20页
2.3.2 基于层次的方法(HM)	第20-21页
2.3.3 基于密度的方法(DM)	第21-22页
2.3.4 基于网格的方法(GM)	第22页
2.3.5 基于模型的方法(MM)	第22页
2.4 本章小结	第22-23页
3 基于微博信息的关键词库爬虫策略	第23-36页
3.1 样本选取策略	第23-24页
3.2 抓取词库样本	第24-25页
3.3 样本数据预处理	第25-29页
3.3.1 中文分词	第26-27页
3.3.2 停用词(StopWords)的处理	第27-29页
3.4 特征词提取	第29-31页
3.5 构建关键词库	第31-32页
3.6 实验设计与结果	第32-35页
3.6.1 词库样本获取模块	第32-33页
3.6.2 样本数据预处理模块	第33页
3.6.3 特征提取模块	第33-34页
3.6.4 特征词合并模块	第34-35页
3.7 本章小结	第35-36页
4 基于微博信息的主题网络爬虫策略	第36-45页
4.1 主题网络爬虫策略简介	第36-39页
4.2 基于微博信息的主题爬虫策略	第39-41页
4.2.1 基于微博信息的主题爬虫策略的设计	第39页
4.2.2 基于微博信息的主题爬虫策略的实现	第39-41页
4.3 实验度量	第41-42页
4.4 实验结果与分析	第42-44页
4.5 本章小结	第44-45页
5 基于K-means的短文本信息聚类算法研究	第45-56页
5.1 文本的向量空间模型	第45-47页
5.1.1 特征项	第45页
5.1.2 特征项的权重计算方法	第45-47页
5.1.3 向量空间模型	第47页
5.2 文本相似度计算	第47-48页
5.3 实验度量	第48-49页
5.4 实验流程	第49-50页
5.5 K-means聚类算法	第50-53页
5.5.1 传统的K-means算法	第50-51页
5.5.2 增量聚类算法	第51页
5.5.3 改进的K-means算法	第51-53页
5.6 实验结果与分析	第53-55页
5.6.1 数据采集	第53-54页
5.6.2 聚类结果与讨论	第54-55页
5.7 本章小结	第55-56页
6 总结与展望	第56-57页
参考文献	第57-61页
硕士期间发表的学术论文及研究成果	第61-62页
发表的学术论文	第61页
参与的科研项目	第61-62页
致谢	第62页