首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于社团发现的微博群体划分与特征提取

摘要第4-5页
ABSTRACT第5-6页
目录第7-9页
第一章 绪论第9-15页
    1.1 论文研究背景第9-10页
    1.2 国内外研究现状第10-12页
    1.3 本文工作第12页
    1.4 论文组织结构第12-15页
第二章 社团发现相关算法与背景知识第15-31页
    2.1 有向图的拓扑特征第15-17页
        2.1.1 模块度第15页
        2.1.2 聚集系数第15-16页
        2.1.3 节点度分布第16页
        2.1.4 平均最短路径第16-17页
        2.1.5 以节点为中心的网络属性分布第17页
    2.2 节点特征选择第17-22页
        2.2.1 特征选择第17-20页
        2.2.2 中文分词算法第20-21页
        2.2.3 微博词频分析TF-IDF第21-22页
    2.3 Logistic回归分析第22-24页
        2.3.1 Logistic回归过程第22-23页
        2.3.2 Cost函数与J(θ)函数第23-24页
        2.3.3 L1正则化Logistic回归第24页
    2.4 Logistic回归模型的性能评估第24-28页
        2.4.1 混淆矩阵第24-25页
        2.4.2 ROC曲线和AUC第25-26页
        2.4.3 提升图第26-28页
    2.5 Spark分布式计算框架第28-31页
第三章 基于用户相关性建模的信息社团发现第31-39页
    3.1 信息化社团验证第31-32页
    3.2 抽象上下层结构第32-33页
    3.3 用户相关性建模第33-37页
        3.3.1 用户相似性的模型构建第33页
        3.3.2 静态特征相似性第33-34页
        3.3.3 拓扑结构相似性第34页
        3.3.4 微博文本相似性第34-36页
        3.3.5 综合相关度计算第36-37页
    3.4 特征提取第37页
    3.5 信息化社团上层群体划分第37-39页
第四章 基于SPARK的模型训练与验证第39-57页
    4.1 Spark分布式计算框架集群部署第39-41页
        4.1.1 安装环境简介第39-40页
        4.1.2 部署过程第40-41页
    4.2 基于PageRank的微博用户上下层划分第41-42页
    4.3 拓扑特征相似性计算在Spark上的实现第42-44页
        4.3.1 并行化计算Jaccard相似性系数第42-43页
        4.3.2 用graphx计算两两节点之间的最短距离第43-44页
    4.4 博文相似性计算在Spark上的实现第44-47页
        4.4.1 分词第45页
        4.4.2 TF-IDF的计算第45-47页
    4.5 Logistic回归训练第47-50页
        4.5.1 Logistic回归的并行化实现第47-50页
        4.5.2 Logistic回归结果分析第50页
    4.6 Logistic回归模型的性能评估与特征提取第50-52页
        4.6.1 Logistic回归模型对比第50-51页
        4.6.2 特征提取第51-52页
    4.7 微博群体划分第52-55页
        4.7.1 微博群体划分在Spark上的实现第52-55页
        4.7.2 实验验证与结果分析第55页
    4.8 在Spark上并行化实现的性能分析第55-57页
第五章 总结及展望第57-59页
参考文献第59-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:沪港通施行后内地与香港股市联动性分析
下一篇:阳光私募基金选股与择时能力的实证研究