大规模分布式LDA主题模型研究与实现

摘要	第6-8页
abstract	第8-9页
第一章绪论	第15-21页
1.1 研究背景及意义	第15页
1.2 相关工作	第15-17页
1.2.1 单机吉布斯采样算法改进	第16-17页
1.2.2 大规模LDA分布并行算法研究	第17页
1.3 研究内容及主要贡献点	第17-18页
1.4 本文的组织结构	第18-21页
第二章相关背景知识	第21-31页
2.1 主题模型基本知识	第21-24页
2.1.1 潜在狄利克雷分布主题模型(LDA)	第21-23页
2.1.2 混淆度指标	第23-24页
2.2 采样方法介绍	第24-27页
2.2.1 接受-拒绝采样( Acceptance-Rejection Sampling)	第24页
2.2.2 MCMC(Markov Chain Monte Carlo)采样方法	第24-26页
2.2.3 吉布斯采样	第26-27页
2.3 LDA主题模型优化采样方法	第27-28页
2.3.1 SparseLDA	第27页
2.3.2 AliasLDA	第27-28页
2.4 大数据平台	第28-30页
2.4.1 MPI消息传递接口	第28-30页
2.4.2 参数服务器(Parameter Server)	第30页
2.5 本章小结	第30-31页
第三章单机吉布斯采样算法的改进	第31-41页
3.1 LDA的单机采样过程	第31-32页
3.2 ZenLDA单机采样算法	第32-35页
3.2.1 ZenLDA单机采样算法设计	第32-33页
3.2.2 ZenLDA算法流程图	第33-34页
3.2.3 ZenLDA复杂度分析	第34-35页
3.3 实验结果和分析	第35-39页
3.3.1 数据集合和实验环境	第35-36页
3.3.2 模型学习质量对比	第36-37页
3.3.3 模型收敛速度性能对比	第37-39页
3.4 本章小结	第39-41页
第四章基于MPI的ZenLDA算法并行化	第41-53页
4.1 已有LDA并行算法方案的不足	第41页
4.2 MPI-ZenLDA训练算法框架	第41-44页
4.2.1 流水线吉布斯采样方法	第43-44页
4.3 ZenLDA并行化算法方案设计	第44-47页
4.3.1 P_w机器上的算法策略	第44-45页
4.3.2 P_d机器上的算法策略	第45-47页
4.3.3 容错机制	第47页
4.4 实验结果及分析	第47-52页
4.4.1 数据集合和实验环境	第47-48页
4.4.2 加速比性能对比	第48-50页
4.4.3 收敛速度性能对比	第50-52页
4.5 本章小结	第52-53页
第五章基于参数服务器的分布式LDA	第53-65页
5.1 Petuum-ZenLDA并行化训练算法框架	第53-54页
5.2 Petuum-ZenLDA并行化算法方案	第54-58页
5.2.1 Server端模型分布	第54-55页
5.2.2 Client端文档数据存储	第55页
5.2.3 Client端词项切片	第55-56页
5.2.4 Client端流式数据块读写与多线程机制	第56-58页
5.2.5 容错机制	第58页
5.3 实验结果及分析	第58-64页
5.3.1 实验语料和实验环境	第58-59页
5.3.2 加速比性能测试	第59-60页
5.3.3 模型收敛速度对比	第60-62页
5.3.4 模型学习质量对比	第62-64页
5.4 本章小结	第64-65页
第六章总结与展望	第65-67页
6.1 总结	第65-66页
6.2 下一步工作	第66-67页
参考文献	第67-71页
致谢	第71-72页
附录	第72-73页