首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

大规模分布式LDA主题模型研究与实现

摘要第6-8页
abstract第8-9页
第一章 绪论第15-21页
    1.1 研究背景及意义第15页
    1.2 相关工作第15-17页
        1.2.1 单机吉布斯采样算法改进第16-17页
        1.2.2 大规模LDA分布并行算法研究第17页
    1.3 研究内容及主要贡献点第17-18页
    1.4 本文的组织结构第18-21页
第二章 相关背景知识第21-31页
    2.1 主题模型基本知识第21-24页
        2.1.1 潜在狄利克雷分布主题模型(LDA)第21-23页
        2.1.2 混淆度指标第23-24页
    2.2 采样方法介绍第24-27页
        2.2.1 接受-拒绝采样( Acceptance-Rejection Sampling)第24页
        2.2.2 MCMC(Markov Chain Monte Carlo)采样方法第24-26页
        2.2.3 吉布斯采样第26-27页
    2.3 LDA主题模型优化采样方法第27-28页
        2.3.1 SparseLDA第27页
        2.3.2 AliasLDA第27-28页
    2.4 大数据平台第28-30页
        2.4.1 MPI消息传递接口第28-30页
        2.4.2 参数服务器(Parameter Server)第30页
    2.5 本章小结第30-31页
第三章 单机吉布斯采样算法的改进第31-41页
    3.1 LDA的单机采样过程第31-32页
    3.2 ZenLDA单机采样算法第32-35页
        3.2.1 ZenLDA单机采样算法设计第32-33页
        3.2.2 ZenLDA算法流程图第33-34页
        3.2.3 ZenLDA复杂度分析第34-35页
    3.3 实验结果和分析第35-39页
        3.3.1 数据集合和实验环境第35-36页
        3.3.2 模型学习质量对比第36-37页
        3.3.3 模型收敛速度性能对比第37-39页
    3.4 本章小结第39-41页
第四章 基于MPI的ZenLDA算法并行化第41-53页
    4.1 已有LDA并行算法方案的不足第41页
    4.2 MPI-ZenLDA训练算法框架第41-44页
        4.2.1 流水线吉布斯采样方法第43-44页
    4.3 ZenLDA并行化算法方案设计第44-47页
        4.3.1 P_w机器上的算法策略第44-45页
        4.3.2 P_d机器上的算法策略第45-47页
        4.3.3 容错机制第47页
    4.4 实验结果及分析第47-52页
        4.4.1 数据集合和实验环境第47-48页
        4.4.2 加速比性能对比第48-50页
        4.4.3 收敛速度性能对比第50-52页
    4.5 本章小结第52-53页
第五章 基于参数服务器的分布式LDA第53-65页
    5.1 Petuum-ZenLDA并行化训练算法框架第53-54页
    5.2 Petuum-ZenLDA并行化算法方案第54-58页
        5.2.1 Server端模型分布第54-55页
        5.2.2 Client端文档数据存储第55页
        5.2.3 Client端词项切片第55-56页
        5.2.4 Client端流式数据块读写与多线程机制第56-58页
        5.2.5 容错机制第58页
    5.3 实验结果及分析第58-64页
        5.3.1 实验语料和实验环境第58-59页
        5.3.2 加速比性能测试第59-60页
        5.3.3 模型收敛速度对比第60-62页
        5.3.4 模型学习质量对比第62-64页
    5.4 本章小结第64-65页
第六章 总结与展望第65-67页
    6.1 总结第65-66页
    6.2 下一步工作第66-67页
参考文献第67-71页
致谢第71-72页
附录第72-73页

论文共73页,点击 下载论文
上一篇:基于深度卷积神经网络的眼底图像视盘定位与分割研究
下一篇:面向数字化车间的介入式3D可视化监控技术研究