云环境下基于RIHDBSCAN的微博事件检测及跟踪

摘要	第3-4页
ABSTRACT	第4-5页
1 绪论	第8-13页
1.1 课题的研究背景	第8-9页
1.1.1 微博	第8-9页
1.1.2 云计算	第9页
1.2 课题研究的目的和意义	第9-10页
1.3 国内外研究现状	第10-11页
1.4 本论文研究内容与结构安排	第11-13页
2 微博文本预处理	第13-24页
2.1 过滤无用信息	第13-14页
2.2 分词	第14页
2.3 权值计算方法	第14-16页
2.3.1 常用权值计算方法	第14-15页
2.3.2 FCF-DIDF	第15-16页
2.4 文本建模	第16-19页
2.5 特征降维	第19-20页
2.6 文本相似度计算	第20-23页
2.6.1 常用的相似度计算方法	第20-22页
2.6.2 欧氏距离与余弦相似度	第22-23页
2.7 本章小结	第23-24页
3 聚类及云计算相关技术	第24-42页
3.1 聚类的主要算法	第24-27页
3.2 传统聚类在文本挖掘面临的困难	第27-28页
3.3 基于代表点的增量层次密度聚类	第28-34页
3.3.1 DBSCAN 相关定义	第28-30页
3.3.2 DBSCAN 算法的缺点	第30页
3.3.3 改进的算法 RIHDBSCAN	第30-34页
3.3.4 RIHDBSCAN 算法的性能	第34页
3.4 云计算关键技术	第34-36页
3.5 Hadoop 平台	第36-41页
3.5.1 HDFS 分布式文件系统	第36-38页
3.5.2 Mapreduce 编程模式	第38-41页
3.6 本章总结	第41-42页
4 Hadoop 云环境下的微博事件检测跟踪模型	第42-54页
4.1 微博事件检测跟踪模型	第42-43页
4.2 并行化	第43-47页
4.2.1 文本过滤、分词并行	第43-44页
4.2.2 FCF-DIDF 权值并行计算	第44-45页
4.2.3 文本相似度并行计算	第45-46页
4.2.4 RIHDBSCAN 聚类并行	第46-47页
4.3 实验与结果分析	第47-53页
4.3.1 集群配置	第47-48页
4.3.2 实验数据	第48-49页
4.3.3 实验结果	第49-53页
4.4 本章总结	第53-54页
5 总结与展望	第54-56页
5.1 全文总结	第54页
5.2 展望	第54-56页
致谢	第56-57页
参考文献	第57-61页
附录	第61页
A．作者在攻读学位期间发表的论文目录	第61页
B．作者在攻读学位期间科研工作情况	第61页