基于社团发现的微博群体划分与特征提取

摘要	第4-5页
ABSTRACT	第5-6页
目录	第7-9页
第一章绪论	第9-15页
1.1 论文研究背景	第9-10页
1.2 国内外研究现状	第10-12页
1.3 本文工作	第12页
1.4 论文组织结构	第12-15页
第二章社团发现相关算法与背景知识	第15-31页
2.1 有向图的拓扑特征	第15-17页
2.1.1 模块度	第15页
2.1.2 聚集系数	第15-16页
2.1.3 节点度分布	第16页
2.1.4 平均最短路径	第16-17页
2.1.5 以节点为中心的网络属性分布	第17页
2.2 节点特征选择	第17-22页
2.2.1 特征选择	第17-20页
2.2.2 中文分词算法	第20-21页
2.2.3 微博词频分析TF-IDF	第21-22页
2.3 Logistic回归分析	第22-24页
2.3.1 Logistic回归过程	第22-23页
2.3.2 Cost函数与J(θ)函数	第23-24页
2.3.3 L1正则化Logistic回归	第24页
2.4 Logistic回归模型的性能评估	第24-28页
2.4.1 混淆矩阵	第24-25页
2.4.2 ROC曲线和AUC	第25-26页
2.4.3 提升图	第26-28页
2.5 Spark分布式计算框架	第28-31页
第三章基于用户相关性建模的信息社团发现	第31-39页
3.1 信息化社团验证	第31-32页
3.2 抽象上下层结构	第32-33页
3.3 用户相关性建模	第33-37页
3.3.1 用户相似性的模型构建	第33页
3.3.2 静态特征相似性	第33-34页
3.3.3 拓扑结构相似性	第34页
3.3.4 微博文本相似性	第34-36页
3.3.5 综合相关度计算	第36-37页
3.4 特征提取	第37页
3.5 信息化社团上层群体划分	第37-39页
第四章基于SPARK的模型训练与验证	第39-57页
4.1 Spark分布式计算框架集群部署	第39-41页
4.1.1 安装环境简介	第39-40页
4.1.2 部署过程	第40-41页
4.2 基于PageRank的微博用户上下层划分	第41-42页
4.3 拓扑特征相似性计算在Spark上的实现	第42-44页
4.3.1 并行化计算Jaccard相似性系数	第42-43页
4.3.2 用graphx计算两两节点之间的最短距离	第43-44页
4.4 博文相似性计算在Spark上的实现	第44-47页
4.4.1 分词	第45页
4.4.2 TF-IDF的计算	第45-47页
4.5 Logistic回归训练	第47-50页
4.5.1 Logistic回归的并行化实现	第47-50页
4.5.2 Logistic回归结果分析	第50页
4.6 Logistic回归模型的性能评估与特征提取	第50-52页
4.6.1 Logistic回归模型对比	第50-51页
4.6.2 特征提取	第51-52页
4.7 微博群体划分	第52-55页
4.7.1 微博群体划分在Spark上的实现	第52-55页
4.7.2 实验验证与结果分析	第55页
4.8 在Spark上并行化实现的性能分析	第55-57页
第五章总结及展望	第57-59页
参考文献	第59-63页
致谢	第63页