网络社区流数据实时处理系统的设计与实现
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-16页 |
1.1 研究背景与意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-14页 |
1.2.1 流数据处理框架 | 第10-13页 |
1.2.2 网络社区实时处理系统 | 第13-14页 |
1.3 论文研究内容 | 第14-15页 |
1.4 论文组织结构 | 第15-16页 |
第二章 相关关键技术 | 第16-26页 |
2.1 流数据实时处理框架Storm | 第16-19页 |
2.1.1 工作原理 | 第16-17页 |
2.1.2 集群及特点 | 第17-19页 |
2.2 分布式ZooKeeper | 第19-21页 |
2.2.1 工作原理 | 第20页 |
2.2.2 主要功能及特点 | 第20-21页 |
2.3 消息队列Redis | 第21-22页 |
2.4 流数据挖掘技术 | 第22-26页 |
2.4.1 分词 | 第22页 |
2.4.2 文本特征表示 | 第22-23页 |
2.4.3 流数据聚类 | 第23-26页 |
第三章 网络社区流数据实时处理系统的设计 | 第26-43页 |
3.1 系统总体结构 | 第26-27页 |
3.2 系统设计 | 第27-43页 |
3.2.1 数据接入层 | 第27-28页 |
3.2.2 实时处理层 | 第28-37页 |
3.2.3 数据存储层 | 第37-40页 |
3.2.4 数据处理流程可信 | 第40-43页 |
第四章 网络社区流数据实时处理系统的实现 | 第43-69页 |
4.1 数据接入层 | 第43-48页 |
4.1.1 消息队列的实现 | 第43-46页 |
4.1.2 数据接入层的数据处理流程可信 | 第46-48页 |
4.2 实时处理层 | 第48-61页 |
4.2.1 整体拓扑结构 | 第48-49页 |
4.2.2 分词模块 | 第49-50页 |
4.2.3 统计模块 | 第50-55页 |
4.2.4 帖子内容过滤模块 | 第55-58页 |
4.2.5 实时话题发现模块 | 第58-60页 |
4.2.6 实时处理层的数据处理流程可信 | 第60-61页 |
4.3 数据存储层 | 第61-65页 |
4.3.1 统计结果的存储 | 第62-64页 |
4.3.2 帖子内容过滤结果的存储 | 第64-65页 |
4.3.3 实时话题发现结果的存储 | 第65页 |
4.4 分布式集群 | 第65-69页 |
4.4.1 数据接入层的分布式实现 | 第65-66页 |
4.4.2 数据处理层的分布式实现 | 第66-69页 |
第五章 实验与效果分析 | 第69-78页 |
5.1 数据处理功能验证 | 第69-75页 |
5.1.1 统计功能 | 第70-72页 |
5.1.2 帖子内容过滤 | 第72-75页 |
5.1.3 实时话题发现 | 第75页 |
5.2 数据处理流程可信过程验证 | 第75-78页 |
5.2.1 数据接入层验证 | 第75-76页 |
5.2.2 实时处理层验证 | 第76-78页 |
第六章 总结和展望 | 第78-80页 |
6.1 总结 | 第78页 |
6.2 展望 | 第78-80页 |
参考文献 | 第80-82页 |
致谢 | 第82-83页 |
攻读硕士学位期间发表的论文 | 第83页 |