摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第11-18页 |
1.1 研究背景及意义 | 第11页 |
1.2 微博相关介绍 | 第11-13页 |
1.2.1 微博 | 第11-12页 |
1.2.2 微博结构与主题关系 | 第12-13页 |
1.3 微博主题挖掘研究现状 | 第13-14页 |
1.3.1 聚类方法挖掘微博主题 | 第13-14页 |
1.3.2 概率主题模型挖掘微博主题 | 第14页 |
1.4 主题词频与主题挖掘 | 第14-16页 |
1.4.1 微博主题挖掘的难点 | 第14-15页 |
1.4.2 主题词频在挖掘中的作用 | 第15-16页 |
1.5 结构安排 | 第16页 |
1.6 本章小结 | 第16-18页 |
第二章 主题模型在微博数据上的应用 | 第18-28页 |
2.1 传统主题模型 | 第18-22页 |
2.1.1 主题模型的衍化 | 第18-19页 |
2.1.2 主题模型的假设与推断 | 第19页 |
2.1.3 主题模型的输入与求解 | 第19-21页 |
2.1.4 主题模型的参数估计 | 第21-22页 |
2.2 微博主题模型 | 第22-24页 |
2.2.1 面向微博的派生主题模型 | 第22-23页 |
2.2.2 微博主题模型的算法改进 | 第23-24页 |
2.3 Labeled LDA特点分析 | 第24-25页 |
2.3.1 Labeled LDA的由来 | 第24-25页 |
2.3.2 Labeled LDA的优化思想与改进算法 | 第25页 |
2.3.3 Labeled LDA文本分类的不足 | 第25页 |
2.4 各种主题模型文本建模比较 | 第25-27页 |
2.5 本章小结 | 第27-28页 |
第三章 基于评论与转发的微博主题联合性算法 | 第28-36页 |
3.1 微博的评论组与转发链 | 第28页 |
3.2 微博与评论的联合主题定性探索 | 第28-31页 |
3.2.1 评论组和转发微博的主题矢量 | 第28-30页 |
3.2.2 评论组和转发微博在时间维度上的主题相关性 | 第30-31页 |
3.3 联合主题对标签矢量影响的定量分析 | 第31-32页 |
3.4 Union Labeled LDA主题模型 | 第32-34页 |
3.4.1 Union Labeled LDA混合标签对矢量的改进 | 第32页 |
3.4.2 Union Labeled LDA微博生成模型 | 第32-33页 |
3.4.3 Union Labeled LDA模型对主题挖掘的求解 | 第33-34页 |
3.5 主题模型的评价指标 | 第34-35页 |
3.5.1 人工评价Score | 第34-35页 |
3.5.2 模型困惑度 | 第35页 |
3.6 本章小结 | 第35-36页 |
第四章 系统实现 | 第36-49页 |
4.1 系统框架与流程 | 第36-37页 |
4.2 获取新浪微博原始数据 | 第37-41页 |
4.2.1 微博开放平台API | 第37-38页 |
4.2.2 OAuth用户身份认证 | 第38页 |
4.2.3 微博API数据获取流程 | 第38-41页 |
4.3 微博数据分词 | 第41-43页 |
4.3.1 中文文本分词 | 第41-42页 |
4.3.2 Label标签的信息扩充 | 第42-43页 |
4.4 数据预处理 | 第43-44页 |
4.4.1 文档集停用词去除 | 第43页 |
4.4.2 微博网络词汇和符号替换 | 第43页 |
4.4.3 微博情感词扩充 | 第43-44页 |
4.5 Label标签训练阶段 | 第44-45页 |
4.5.1 Labeled LDA标签训练 | 第44页 |
4.5.2 Union Labeled LDA改进标签训练 | 第44-45页 |
4.6 微博文档主题词汇概率分布 | 第45-47页 |
4.6.1 Union Labeled LDA模型输入数据 | 第45-46页 |
4.6.2 Union Labeled LDA模型输出结果 | 第46-47页 |
4.6.3 Union Labeled LDA模型对新样本主题预测 | 第47页 |
4.7 本章小结 | 第47-49页 |
第五章 实验与结论 | 第49-59页 |
5.1 实验结果 | 第49-53页 |
5.1.1 初始化分词和数据预处理 | 第49-50页 |
5.1.2 评论转发数据的主题联合性处理 | 第50-51页 |
5.1.3 Union Labeled LDA模型的主题输出 | 第51-53页 |
5.2 结果分析 | 第53-54页 |
5.3 Union Labeled LDA模型参数调整分析 | 第54-57页 |
5.3.1 评论组及转发链的联合主题参数设置 | 第54-55页 |
5.3.2 联合主题随时间衰减偏离的参数 | 第55-56页 |
5.3.3 联合主题影响文档主题分布的比例 | 第56-57页 |
5.4 本章小结 | 第57-59页 |
第六章 总结与展望 | 第59-60页 |
参考文献 | 第60-64页 |
致谢 | 第64-65页 |
附录1攻读硕士学位期间发表的学术论文 | 第65页 |