基于微博的热门话题提取与利用研究

摘要	第5-6页
Abstract	第6页
第1章绪论	第10-14页
1.1 背景与意义	第10-11页
1.2 国内外的研究现状	第11-13页
1.3 论文总体框架	第13-14页
第2章文本信息处理的相关技术	第14-22页
2.1 微博信息采集技术	第14-16页
2.1.1 微博信息的获取	第14-15页
2.1.2 微博信息的提取	第15-16页
2.2 文本预处理	第16-18页
2.2.1 中文分词技术	第16-17页
2.2.2 微博集合的选择与噪声处理	第17-18页
2.3 文本相似度计算	第18-20页
2.3.1 余弦相似性	第19页
2.3.2 编辑距离	第19页
2.3.3 最长公共子序列	第19-20页
2.4 文本聚类算法	第20-21页
2.4.1 分割式聚类算法	第20页
2.4.2 结构式聚类算法	第20页
2.4.3 概率密度聚类算法	第20-21页
2.5 本章小结	第21-22页
第3章文本相似度计算	第22-36页
3.1 噪音去除以及分句处理	第22-24页
3.2 编辑距离	第24-27页
3.2.1 编辑距离的定义	第24页
3.2.2 编辑距离的性质与计算方法	第24-25页
3.2.3 构造编辑距离匹配关系矩阵	第25-26页
3.2.4 通过编辑距离计算相似度	第26-27页
3.3 加入交换的编辑距离算法	第27-29页
3.3.1 块交换编辑距离	第28页
3.3.2 词交换编辑距离	第28-29页
3.4 实验	第29-35页
3.4.1 实验数据	第30页
3.4.2 实验设计	第30-31页
3.4.3 实验结果与分析	第31-35页
3.5 本章小结	第35-36页
第4章微博话题聚类	第36-49页
4.1 层次聚类算法	第36-37页
4.1.1 自顶向下方法	第37页
4.1.2 自顶向下方法	第37页
4.1.3 聚类法的选择	第37页
4.2 并查集算法	第37-42页
4.2.1 并查集的快速查找算法	第38-39页
4.2.2 并查集的快速合并算法	第39-40页
4.2.3 并查集快速合并算法的改进	第40-42页
4.3 基于句子相同相似的聚类算法	第42-44页
4.4 实验	第44-48页
4.4.1 实验数据	第44-45页
4.4.2 实验设计	第45页
4.4.3 实验结果与分析	第45-48页
4.5 本章小结	第48-49页
第5章话题提取系统的设计与实现	第49-56页
5.1 话题提取系统设计	第49-50页
5.2 话题提取系统实现	第50页
5.3 系统结果展示	第50-55页
5.4 小结	第55-56页
第6章总结与展望	第56-58页
6.1 工作总结	第56页
6.2 工作展望	第56-58页
致谢	第58-59页
参考文献	第59-62页
硕士研究生期间的主要学术成果	第62页