基于微博平台的文本聚类研究与实现
摘要 | 第8-9页 |
ABSTRACT | 第9页 |
1 绪论 | 第10-13页 |
1.1 论文的研究背景及意义 | 第10-11页 |
1.2 国内外研究现状 | 第11页 |
1.3 本文主要的研究工作 | 第11-12页 |
1.4 论文结构 | 第12-13页 |
2 分析基础 | 第13-20页 |
2.1 数据采集 | 第13-14页 |
2.1.1 概述 | 第13页 |
2.1.2 微博的数据采集 | 第13-14页 |
2.2 文本模型表示 | 第14页 |
2.3 文本聚类 | 第14-20页 |
2.3.1 内容概述 | 第14-16页 |
2.3.2 分词 | 第16-17页 |
2.3.3 特征向量 | 第17-18页 |
2.3.4 数据可视化 | 第18-20页 |
3 算法设计 | 第20-28页 |
3.1 算法的整体描述 | 第20-22页 |
3.2 数据预处理 | 第22-24页 |
3.2.1 数据整理 | 第22-23页 |
3.2.2 索引库的建立 | 第23-24页 |
3.2.3 分词 | 第24页 |
3.3 特征向量的筛选与权值计算 | 第24-25页 |
3.3.1 信息增益 | 第24-25页 |
3.3.2 特征向量的筛选 | 第25页 |
3.3.3 特征向量的权值计算 | 第25页 |
3.4 聚类实现 | 第25-28页 |
3.4.1 数据采集 | 第25-27页 |
3.4.2 K-means 算法 | 第27页 |
3.4.3 曼哈顿距离算法 | 第27-28页 |
4 实验与性能分析 | 第28-32页 |
4.1 实验数据获取 | 第28页 |
4.2 微博数据特性 | 第28-29页 |
4.3 性能评估算法 | 第29页 |
4.4 系统性能评估 | 第29-32页 |
4.4.1 聚类算法性能评估 | 第29-30页 |
4.4.2 向量距离算法性能评估 | 第30-31页 |
4.4.3 阈值选择 | 第31-32页 |
5 系统的设计与实现 | 第32-36页 |
5.1 系统整体设计 | 第32页 |
5.2 系统平台的实现 | 第32-34页 |
5.3 系统综合分析 | 第34-36页 |
6 总结与展望 | 第36-37页 |
参考文献 | 第37-39页 |
致谢 | 第39页 |