摘要 | 第3-4页 |
abstract | 第4页 |
第1章 引言 | 第7-12页 |
1.1 研究背景 | 第7-9页 |
1.2 针对网络文本的话题检测 | 第9-10页 |
1.3 研究问题提出及面临的挑战 | 第10-12页 |
第2章 文献综述 | 第12-26页 |
2.1 商务智能与竞争智能 | 第12-13页 |
2.2 话题检测 | 第13-14页 |
2.3 文本聚类 | 第14-21页 |
2.3.1 聚类 | 第14-16页 |
2.3.2 文本聚类算法 | 第16-18页 |
2.3.3 隐含狄利克雷分布模型 | 第18-21页 |
2.4 增量式文本聚类 | 第21-24页 |
2.4.1 增量式文本聚类算法 | 第21-22页 |
2.4.2 增量式文本聚类中衰减函数的使用 | 第22-23页 |
2.4.3 增量式的隐含狄利克雷分布模型 | 第23-24页 |
2.5 小结 | 第24-26页 |
第3章 方法介绍 | 第26-40页 |
3.1 数据预处理 | 第26-27页 |
3.2 研究方法-基于LDA的增量式话题检测方法 | 第27-33页 |
3.2.1 主题数目的确定 | 第28页 |
3.2.2 基于LDA的增量式话题检测方法介绍 | 第28-31页 |
3.2.3 加入时间衰减函数的基于LDA的增量式话题检测方法介绍 | 第31-33页 |
3.3 结果评估方法 | 第33-39页 |
3.3.1 信息熵(Entropy)和纯度(Purity) | 第34-36页 |
3.3.2 查准率(Precision)、查全率(Recall)和F-measure | 第36-39页 |
3.3.3 效率(运行时间) | 第39页 |
3.4 小结 | 第39-40页 |
第4章 实验及结果分析 | 第40-53页 |
4.1 数据介绍 | 第40页 |
4.2 实验情境设定 | 第40-41页 |
4.3 主题数目确定 | 第41页 |
4.4 未加时效性考虑的话题检测结果分析 | 第41-45页 |
4.5 加入时间衰减函数的话题检测结果分析 | 第45-50页 |
4.6 未考虑时效性与加入时间衰减函数的结果比较 | 第50-52页 |
4.7 小结 | 第52-53页 |
第5章 结语 | 第53-55页 |
参考文献 | 第55-59页 |
致谢 | 第59-61页 |
附录 | 第61-79页 |
附录A 英国电信文本数据摘录(部分) | 第61-72页 |
附录B 人工标注主题名称表 | 第72-79页 |
个人简历、在学期间发表的学术论文与研究成果 | 第79页 |