基于LDA模型与聚类的网络新闻热点话题发现研究

摘要	第4-5页
Abstract	第5页
1 绪论	第9-13页
1.1 课题的研究背景和意义	第9-10页
1.2 课题的研究现状	第10-11页
1.2.1 国外研究现状	第10页
1.2.2 国内研究现状	第10-11页
1.3 本文的主要内容及创新点	第11页
1.4 论文的组织和安排	第11-13页
2 相关理论与技术	第13-21页
2.1 话题检测技术相关概述	第13-14页
2.1.1 基本概念	第13页
2.1.2 话题发现的基本流程	第13-14页
2.2 文本表示模型	第14-16页
2.2.1 布尔模型	第14页
2.2.2 向量空间模型	第14-15页
2.2.3 主题模型	第15-16页
2.3 相似度计算方法	第16-18页
2.3.1 文档相似度计算	第16-17页
2.3.2 类簇相似度计算	第17-18页
2.4 文本聚类方法	第18-19页
2.4.1 划分聚类	第18页
2.4.2 层次聚类	第18-19页
2.4.3 增量聚类	第19页
2.5 文本聚类评价方法	第19-20页
2.6 本章小结	第20-21页
3 热点话题发现总体设计及LDA文本表示	第21-30页
3.1 PLDA-CHC-SP方法的提出及设计	第21-23页
3.1.1 传统方法的不足	第21页
3.1.2 PLDA-CHC-SP方法的提出及设计	第21-23页
3.2 LDA输入数据预处理	第23-24页
3.2.1 中文分词和词性标注	第23-24页
3.2.2 去停用词	第24页
3.3 基于LDA模型的新闻文本表示	第24-29页
3.3.1 LDA主题建模	第24-26页
3.3.2 参数估计	第26-28页
3.3.3 最优主题数K	第28-29页
3.4 本章小结	第29-30页
4 网络新闻热点话题发现	第30-40页
4.1 传统LDA预处理存在的不足与改进	第30-31页
4.1.1 传统LDA预处理存在的不足	第30页
4.1.2 基于TF-IDF值过滤的LDA预处理改进	第30-31页
4.2 基于PLDA-CHC的最小时间窗口热点新闻话题发现	第31-36页
4.2.1 基于PLDA最佳主题选取的变色龙算法	第31-34页
4.2.2 基于PLDA-CHC算法的话题发现流程	第34页
4.2.3 类簇话题识别	第34-35页
4.2.4 话题热度排序	第35-36页
4.3 基于Single-Pass聚类的热点话题发现	第36-38页
4.3.1 经典Single-Pass算法介绍	第36-37页
4.3.2 更大时间窗口的话题发现	第37-38页
4.3.3 话题的表示	第38页
4.4 热点话题热度度量及分析	第38-39页
4.4.1 话题热度计算和热点话题选取	第38-39页
4.4.2 热点话题发展分析	第39页
4.5 本章小结	第39-40页
5 实验室结果与分析	第40-56页
5.1 实验环境和评价方法	第40-41页
5.1.1 实验环境	第40页
5.1.2 实验评价方法	第40-41页
5.2 实验设计及流程	第41页
5.3 实验语料与预处理	第41-43页
5.3.1 实验语料	第41-42页
5.3.2 数据预处理	第42-43页
5.4 LDA模型建立	第43-47页
5.4.1 GibbsLDA++	第43-46页
5.4.2 确定最优主题数	第46页
5.4.3 改进预处理的LDA建模	第46-47页
5.5 话题发现实验结果与分析	第47-55页
5.5.1 最小时间窗口话题发现	第47-50页
5.5.2 更大时间窗口热点话题的发现和分析	第50-55页
5.6 本章小节	第55-56页
6 总结与展望	第56-58页
6.1 总结	第56页
6.2 展望	第56-58页
参考文献	第58-61页
攻读硕士学位期间发表论文及科研成果	第61-62页
致谢	第62-63页