首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Spark的社交主题分析与应用

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第12-18页
    1.1 研究工作的背景及意义第12-13页
    1.2 国内外研究及发展现状第13-15页
        1.2.1 主题挖掘的研究第13-14页
        1.2.2 大规模数据计算的发展状况第14-15页
    1.3 本文的创新与主要贡献第15-16页
    1.4 本文的结构安排第16-18页
第二章 大规模数据处理及Spark平台第18-32页
    2.1 引言第18页
    2.2 分布式系统基础第18-21页
        2.2.1 分布式系统理念第18-20页
        2.2.2 分区与冗余设计第20-21页
    2.3 Hadoop生态系统第21-25页
    2.4 Spark计算平台第25-28页
        2.4.1 核心思想与架构第25-26页
        2.4.2 工作原理第26页
        2.4.3 编程模型第26-28页
    2.5 基于Spark平台的机器学习第28-31页
        2.5.1 Spark MLlib简介第28-29页
        2.5.2 Spark MLlib架构第29-31页
    2.6 本章小结第31-32页
第三章 微博社交主题挖掘与并行化方法第32-48页
    3.1 引言第32页
    3.2 主题模型基础第32-34页
        3.2.1 词袋模型第32-33页
        3.2.2 主题模型原理第33-34页
        3.2.3 主题模型的相关应用第34页
    3.3 基于LDA模型的主题分析第34-43页
        3.3.1 文本建模相关基础第34-35页
        3.3.2 词生成模型与LDA第35-37页
        3.3.3 求解过程第37-38页
        3.3.4 Gibbs采样训练LDA模型第38-43页
    3.4 社交微博的User- LDA模型第43-45页
        3.4.1 新浪微博场景特征第43页
        3.4.2 User-LDA模型第43-45页
    3.5 主题模型并行化思考第45-47页
        3.5.1 LDA模型并行化难点第45-46页
        3.5.2 LDA模型并行化思路第46-47页
    3.6 本章小结第47-48页
第四章 LDA模型Spark平台并行化第48-59页
    4.1 引言第48页
    4.2 数据集重构第48-51页
        4.2.1 词库表及索引序列建立第48-49页
        4.2.2 文档重排、分区与重组第49-51页
    4.3 阶段性划分第51-52页
    4.4 计算与同步第52-54页
    4.5 实验效果评测第54-57页
        4.5.1 实验数据选取第54-55页
        4.5.2 实验软硬件环境第55页
        4.5.3 误差评测效果第55-57页
        4.5.4 性能评测效果第57页
    4.6 本章小结第57-59页
第五章 基于Spark的社交主题分析系统第59-66页
    5.1 引言第59页
    5.2 数据的获取第59-60页
    5.3 数据预处理第60-63页
        5.3.1 数据清洗第60-62页
        5.3.2 词频、IDF方法无效词语过滤第62-63页
        5.3.3 数据整合第63页
    5.4 主题挖掘第63页
    5.5 主题词分布统计第63-65页
    5.6 本章小结第65-66页
第六章 主题分析系统效果评价第66-76页
    6.1 引言第66页
    6.2 效果评价第66-67页
        6.2.1 性能评测方法第66页
        6.2.2 应用价值第66页
        6.2.3 评测软硬件环境第66-67页
    6.3 酒鬼酒粉丝微博主题分析第67-71页
        6.3.1 主题分析背景第67页
        6.3.2 实验数据选取第67页
        6.3.3 性能评测第67-68页
        6.3.4 应用价值验证第68-71页
    6.4 wacom粉丝微博主题分析第71-75页
        6.4.1 主题分析背景第71页
        6.4.2 实验数据选取第71页
        6.4.3 性能评测第71-72页
        6.4.4 应用价值验证第72-75页
    6.5 本章小结第75-76页
第七章 总结与展望第76-78页
    7.1 工作总结第76页
    7.2 工作展望第76-78页
致谢第78-79页
参考文献第79-83页
攻读硕士期间的成果第83-84页

论文共84页,点击 下载论文
上一篇:嵌入式Linux系统下QT图形界面开发
下一篇:城市公交线路规划系统的设计与实现