网络热点话题检测与趋势预测技术研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第9-16页
1.1 研究背景及意义	第9-10页
1.2 国内外研究现状	第10-13页
1.2.1 话题检测与跟踪技术研究现状	第10-12页
1.2.2 话题趋势分析预测技术研究现状	第12-13页
1.3 论文的研究内容	第13-14页
1.3.1 研究目标	第13-14页
1.3.2 研究内容	第14页
1.4 论文结构	第14-16页
第二章相关工作	第16-24页
2.1 文本预处理	第16-17页
2.1.1 中文分词	第16-17页
2.1.2 过滤停用词	第17页
2.2 文本表示模型	第17-19页
2.2.1 向量空间模型	第17-18页
2.2.2 语言模型	第18页
2.2.3 概率主题模型	第18-19页
2.3 文本特征提取	第19-21页
2.3.1 特征提取	第19-21页
2.3.2 相似度计算	第21页
2.4 聚类算法	第21-23页
2.4.1 层次聚类算法	第22页
2.4.2 基于划分的聚类算法	第22-23页
2.4.3 增量聚类算法	第23页
2.5 本章小结	第23-24页
第三章热点话题检测与话题热度建模	第24-38页
3.1 概述	第24-26页
3.1.1 热点话题的特征	第24页
3.1.2 话题的热度	第24-25页
3.1.3 本章工作概述	第25-26页
3.2 数据获取与预处理	第26-28页
3.2.1 定制网络爬虫	第26-27页
3.2.2 中文分词	第27页
3.2.3 其他预处理	第27-28页
3.3 特征提取	第28-30页
3.3.1 增量TF-IDF	第28-29页
3.3.2 以标题为轴心的增量TF-IDF	第29-30页
3.3.3 相似度计算	第30页
3.4 基于分段时间线与Single-pass的二次聚类算法	第30-33页
3.5 基于生命周期模型的话题热度建模算法	第33-38页
3.5.1 生命周期理论	第33-34页
3.5.2 生命周期模型定义与说明	第34-36页
3.5.3 话题热度建模算法	第36-38页
第四章话题热度趋势分析	第38-42页
4.1 概述	第38页
4.2 移动平均线模型	第38-40页
4.3 热度趋势分析	第40-42页
第五章实验	第42-48页
5.1 话题检测	第42-46页
5.1.1 数据来源	第42页
5.1.2 评估标准	第42-43页
5.1.3 最优时间距离选取	第43-44页
5.1.4 聚类结果比较	第44-45页
5.1.5 时间效率对比	第45-46页
5.2 热度模型构建的合理性分析	第46-47页
5.3 话题热度趋势预测	第47-48页
第六章总结与展望	第48-50页
6.1 本文工作总结	第48页
6.2 不足之处	第48-49页
6.3 展望	第49-50页
参考文献	第50-54页
发表论文和参加科研情况说明	第54-55页
致谢	第55-56页