基于LDA主题模型的文本聚类研究

摘要	第3-4页
Abstract	第4页
第一章引言	第7-11页
1.1 研究的背景	第7页
1.2 研究的意义	第7-9页
1.3 国内外的研究现状	第9-10页
1.4 研究内容及主要工作	第10-11页
第二章文本挖掘的主要技术	第11-24页
2.1 研究的背景	第11页
2.2 文本表示	第11-12页
2.3 文本预处理	第12-19页
2.3.1 文本分词技术	第13-15页
2.3.2 停用词处理	第15-16页
2.3.3 词干化处理	第16页
2.3.4 特征提取与特征权重计算	第16-19页
2.4 R语言文本挖掘的实验	第19-24页
2.4.1 文本预处理	第19-21页
2.4.2 文本挖掘	第21-24页
第三章文本聚类	第24-35页
3.1 文本相似度的度量	第24-25页
3.2 聚类方法	第25-28页
3.3 R语言对新闻数据的分析	第28-35页
3.3.1 文本表示过程	第28-31页
3.3.2 基于K-means的文本聚类	第31-32页
3.3.3 基于层次的文本聚类	第32-35页
第四章 LDA主题模型	第35-41页
4.1 LDA的原理介绍	第35-38页
4.2 R语言新闻数据的LDA主题提取	第38-41页
第五章结论与展望	第41-43页
5.1 本文工作总结	第41页
5.2 展望	第41-43页
参考文献	第43-45页
致谢	第45页