云环境下基于RIHDBSCAN的微博事件检测及跟踪
摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
1 绪论 | 第8-13页 |
1.1 课题的研究背景 | 第8-9页 |
1.1.1 微博 | 第8-9页 |
1.1.2 云计算 | 第9页 |
1.2 课题研究的目的和意义 | 第9-10页 |
1.3 国内外研究现状 | 第10-11页 |
1.4 本论文研究内容与结构安排 | 第11-13页 |
2 微博文本预处理 | 第13-24页 |
2.1 过滤无用信息 | 第13-14页 |
2.2 分词 | 第14页 |
2.3 权值计算方法 | 第14-16页 |
2.3.1 常用权值计算方法 | 第14-15页 |
2.3.2 FCF-DIDF | 第15-16页 |
2.4 文本建模 | 第16-19页 |
2.5 特征降维 | 第19-20页 |
2.6 文本相似度计算 | 第20-23页 |
2.6.1 常用的相似度计算方法 | 第20-22页 |
2.6.2 欧氏距离与余弦相似度 | 第22-23页 |
2.7 本章小结 | 第23-24页 |
3 聚类及云计算相关技术 | 第24-42页 |
3.1 聚类的主要算法 | 第24-27页 |
3.2 传统聚类在文本挖掘面临的困难 | 第27-28页 |
3.3 基于代表点的增量层次密度聚类 | 第28-34页 |
3.3.1 DBSCAN 相关定义 | 第28-30页 |
3.3.2 DBSCAN 算法的缺点 | 第30页 |
3.3.3 改进的算法 RIHDBSCAN | 第30-34页 |
3.3.4 RIHDBSCAN 算法的性能 | 第34页 |
3.4 云计算关键技术 | 第34-36页 |
3.5 Hadoop 平台 | 第36-41页 |
3.5.1 HDFS 分布式文件系统 | 第36-38页 |
3.5.2 Mapreduce 编程模式 | 第38-41页 |
3.6 本章总结 | 第41-42页 |
4 Hadoop 云环境下的微博事件检测跟踪模型 | 第42-54页 |
4.1 微博事件检测跟踪模型 | 第42-43页 |
4.2 并行化 | 第43-47页 |
4.2.1 文本过滤、分词并行 | 第43-44页 |
4.2.2 FCF-DIDF 权值并行计算 | 第44-45页 |
4.2.3 文本相似度并行计算 | 第45-46页 |
4.2.4 RIHDBSCAN 聚类并行 | 第46-47页 |
4.3 实验与结果分析 | 第47-53页 |
4.3.1 集群配置 | 第47-48页 |
4.3.2 实验数据 | 第48-49页 |
4.3.3 实验结果 | 第49-53页 |
4.4 本章总结 | 第53-54页 |
5 总结与展望 | 第54-56页 |
5.1 全文总结 | 第54页 |
5.2 展望 | 第54-56页 |
致谢 | 第56-57页 |
参考文献 | 第57-61页 |
附录 | 第61页 |
A.作者在攻读学位期间发表的论文目录 | 第61页 |
B.作者在攻读学位期间科研工作情况 | 第61页 |