基于主题模型的话题聚类算法的研究

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-16页
1.1 研究背景及意义	第10-11页
1.2 国内外研究现状	第11-14页
1.3 研究内容与论文结构	第14-16页
第二章文本处理知识与聚类关键技术	第16-26页
2.1 微博平台特征分析	第16-17页
2.2 微博数据文本预处理	第17-19页
2.2.1 中文分词和词性标注	第17-18页
2.2.2 微博噪声处理	第18-19页
2.3 文本模型表示	第19-21页
2.3.1 向量空间模型(VSM)	第19页
2.3.2 潜在语义分析模型(LSA)	第19-20页
2.3.3 概率潜在语义分析模型(PLSA)	第20页
2.3.4 潜在狄利克雷分布模型(LDA)	第20-21页
2.3.5 词对主题模型(BTM)	第21页
2.4 文本相似度度量	第21-22页
2.5 文本聚类算法	第22-23页
2.6 本章小结	第23-26页
第三章基于主题模型的微博热点话题发现	第26-38页
3.1 基于主题模型的文本表示	第26-30页
3.1.1 传统文本模型的问题	第26-27页
3.1.2 LDA主题模型	第27-28页
3.1.3 BTM主题模型	第28-30页
3.2 实验设计与结果分析	第30-37页
3.2.1 主题模型的比较	第30-31页
3.2.2 主题个数的确定	第31-34页
3.2.3 最佳主题的选取	第34-36页
3.2.4 实验结果	第36-37页
3.3 本章小结	第37-38页
第四章基于word2vec相似度计算的聚类算法研究	第38-54页
4.1 基于word2vec的词向量表示	第38-44页
4.1.1 word2vec词向量	第38-39页
4.1.2 神经网络语言模型	第39-44页
4.2 基于稠密特征的word2vec相似度计算	第44-48页
4.2.1 基于word2vec的相似度计算	第44-45页
4.2.2 基于稠密特征的文档-主题相似度计算	第45-48页
4.3 实验设计与结果分析	第48-52页
4.4 本章小结	第52-54页
第五章系统的设计与实现	第54-64页
5.1 系统架构设计	第54-55页
5.2 关键模块实现	第55-63页
5.2.1 文本预处理模块	第55-58页
5.2.2 主题发现模块	第58-59页
5.2.3 文本聚类模块	第59-63页
5.3 本章小结	第63-64页
第六章总结与展望	第64-66页
参考文献	第66-70页
致谢	第70-72页
攻读学位期间发表的学术论文目录	第72页