摘要 | 第4-5页 |
Abstract | 第5页 |
1 绪论 | 第8-18页 |
1.1 研究背景 | 第8-9页 |
1.2 研究意义 | 第9-10页 |
1.3 研究现状 | 第10-14页 |
1.4 课题来源 | 第14页 |
1.5 研究内容及其创新点 | 第14-16页 |
1.5.1 研究内容 | 第14-16页 |
1.5.2 创新点 | 第16页 |
1.6 本文组织结构 | 第16-17页 |
1.7 本章小结 | 第17-18页 |
2 相关理论和技术介绍 | 第18-30页 |
2.1 Spark技术 | 第18-20页 |
2.2 基于监督学习的身份识别模型 | 第20-26页 |
2.3 基于稳定婚姻匹配的身份识别模型 | 第26-28页 |
2.4 其它技术概述 | 第28-29页 |
2.5 本章小结 | 第29-30页 |
3 基于权重的个性化相似向量 | 第30-54页 |
3.1 问题提出 | 第30页 |
3.2 用户档案数据预处理和相似度计算 | 第30-35页 |
3.2.1 缺失数据填充 | 第31-33页 |
3.2.2 用户档案数据归一化、泛化处理 | 第33-34页 |
3.2.3 用户档案数据相似度计算 | 第34-35页 |
3.3 用户行为数据相似度计算 | 第35-45页 |
3.3.1 基于频繁模式挖掘的用户行为分析和Spark实现 | 第36-41页 |
3.3.2 基于频繁模式挖掘的用户博文数据相似度计算 | 第41-42页 |
3.3.3 特殊符号相似度计算 | 第42-43页 |
3.3.4 状态时间戳相似度计算 | 第43-45页 |
3.4 基于后验概率信息熵的权值分配算法 | 第45-50页 |
3.4.1 用户属性分析 | 第45-47页 |
3.4.2 信息熵概念 | 第47-48页 |
3.4.3 基于后验概率信息熵的权值分配算法 | 第48-50页 |
3.5 构建基于权重的用户相似度向量 | 第50-53页 |
3.6 本章小结 | 第53-54页 |
4 基于稳定婚姻匹配的随机森林识别算法 | 第54-68页 |
4.1 问题提出 | 第54页 |
4.2 建立匹配算法模型 | 第54-57页 |
4.2.1 建立评分公式 | 第54-55页 |
4.2.2 建立稳定婚姻匹配模型 | 第55页 |
4.2.3 建立随机森林模型 | 第55-57页 |
4.3 建立基于spark的身份识别过程 | 第57-58页 |
4.4 基于稳定婚姻匹配的随机森林确认算法 | 第58-59页 |
4.5 实验结果分析 | 第59-67页 |
4.5.1 数据集及评价标准 | 第59-60页 |
4.5.2 用户生成数据分析对匹配结果的影响 | 第60-62页 |
4.5.3 后验信息熵权值分配对匹配结果的影响 | 第62-64页 |
4.5.4 随机森林模型和其它监督学习模型的对比 | 第64-65页 |
4.5.5 RF-SMM和RCM算法结果分析 | 第65-67页 |
4.6 本章小结 | 第67-68页 |
5 跨平台的社交网络用户身份识别技术系统设计 | 第68-79页 |
5.1 系统结构 | 第68页 |
5.2 系统环境和Spark分布式数据处理平台架构 | 第68-75页 |
5.2.1 系统环境 | 第68-69页 |
5.2.2 Spark分布式大数据处理平台搭建 | 第69-73页 |
5.2.3 Spark系统架构 | 第73-75页 |
5.3 模块介绍 | 第75-76页 |
5.3.1 前端业务模块 | 第75页 |
5.3.2 后台算法模块 | 第75-76页 |
5.3.3 数据库模块 | 第76页 |
5.4 结果展示 | 第76-78页 |
5.5 本章小结 | 第78-79页 |
结论 | 第79-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-86页 |
攻读学位期间发表的相关学术论文及研究成果 | 第86页 |