主要创新点 | 第5-11页 |
摘要 | 第11-13页 |
Abstract | 第13-15页 |
第1章 绪论 | 第16-27页 |
1.1. 研究背景与意义 | 第16-18页 |
1.1.1. 微博文本特征概述 | 第17页 |
1.1.2. 微博文本采样概述 | 第17-18页 |
1.1.3. 主题探测与追踪概述 | 第18页 |
1.2. 国内外研究现状 | 第18-22页 |
1.2.1. 面向微博文本的抽样研究 | 第18-19页 |
1.2.2. 面向微博文本的主题抽取研究 | 第19-21页 |
1.2.3. 面向微博文本流的主题探测与追踪研究 | 第21-22页 |
1.3. 面临的问题 | 第22-23页 |
1.4. 研究内容与贡献 | 第23-26页 |
1.4.1. 研究环境 | 第23页 |
1.4.2. 主要研究内容 | 第23-25页 |
1.4.3. 主要贡献 | 第25-26页 |
1.5. 文章结构安排 | 第26-27页 |
第2章 基于时间-频率变换的高质量微博抽取 | 第27-40页 |
2.1. 引言 | 第27-28页 |
2.2. 新浪微博数据获取与统计分析 | 第28-30页 |
2.2.1. 新浪微博简介 | 第28-29页 |
2.2.2. 基于微博API的数据获取 | 第29-30页 |
2.3. 微博特征分析 | 第30-32页 |
2.3.1. 问题定义 | 第30页 |
2.3.2. 特征分析 | 第30-31页 |
2.3.3. 特征矩阵F | 第31-32页 |
2.4. 高质量微博抽取 | 第32-36页 |
2.4.1. K维特征的小波变换 | 第33-34页 |
2.4.2. K维特征融合 | 第34-36页 |
2.5. 实验与讨论 | 第36-39页 |
2.5.1. 数据集与实验设置 | 第36页 |
2.5.2. 内容冗余性分析 | 第36-37页 |
2.5.3. 主观评估 | 第37-39页 |
2.5.4. 运行时间 | 第39页 |
2.6. 本章小结 | 第39-40页 |
第3章 基于频繁项集的微博文本聚类与主题抽取 | 第40-58页 |
3.1. 引言 | 第40-41页 |
3.2. 频繁模式挖掘概述 | 第41-44页 |
3.2.1. 基本概念 | 第41-42页 |
3.2.2. Apriori算法 | 第42页 |
3.2.3. FP-Growth算法 | 第42-44页 |
3.3. 预备知识 | 第44-46页 |
3.3.1. 相关概念 | 第44-45页 |
3.3.2. STC-TE框架 | 第45-46页 |
3.4. 基于频繁项集的短文本聚类与主题抽取 | 第46-50页 |
3.4.1. 重要频繁项集挖掘与过滤 | 第46页 |
3.4.2. 聚类个数自适应的频繁项集谱聚类SC-CSA | 第46-49页 |
3.4.3. 海量短文本聚类与主题抽取 | 第49-50页 |
3.5. 实验与讨论 | 第50-57页 |
3.5.1. 数据集与实验设置 | 第50-51页 |
3.5.2. 性能评价准则 | 第51-52页 |
3.5.3. 频繁项集聚类参数与效果分析 | 第52-55页 |
3.5.4. 主题抽取与短文本聚类 | 第55-57页 |
3.6. 本章小结 | 第57-58页 |
第4章 基于高效用模式聚类的主题探测与追踪 | 第58-73页 |
4.1. 引言 | 第58-59页 |
4.2. 基于高效用模式聚类的主题探测 | 第59-65页 |
4.2.1. HUPC框架概述 | 第59-60页 |
4.2.2. 高效用模式挖掘 | 第60-62页 |
4.2.3. 高效用模式增量式聚类 | 第62-64页 |
4.2.4. 主题词抽取 | 第64-65页 |
4.3. 实验与讨论 | 第65-71页 |
4.3.1. 数据集与实验设置 | 第65-66页 |
4.3.2. 评估指标 | 第66-67页 |
4.3.3. 整体性能比较 | 第67-69页 |
4.3.4. 参数分析 | 第69-70页 |
4.3.5. 案例展示 | 第70-71页 |
4.4. 本章小结 | 第71-73页 |
第5章 基于新颖性和衰退性概率的主题探测与追踪 | 第73-99页 |
5.1. 引言 | 第73-74页 |
5.2. 主题模型概述 | 第74-80页 |
5.2.1. Latent Dirichlet Allocation(LDA) | 第74-78页 |
5.2.2. Biterm Topic Model(BTM) | 第78-80页 |
5.3. 预备知识 | 第80-83页 |
5.3.1. 高质量微博抽取 | 第80页 |
5.3.2. 主题演化状态定义 | 第80-82页 |
5.3.3. ETT框架 | 第82-83页 |
5.4. 面向微博流的主题探测与追踪 | 第83-88页 |
5.4.1. 词汇新颖性与衰退性 | 第83-84页 |
5.4.2. 潜在主题生成 | 第84-85页 |
5.4.3. 主题新颖性与衰退性 | 第85-86页 |
5.4.4. 主题演化追踪 | 第86-88页 |
5.5. 实验与讨论 | 第88-98页 |
5.5.1. 数据集描述 | 第88页 |
5.5.2. 实验设置 | 第88-91页 |
5.5.3. 新兴主题探测 | 第91-93页 |
5.5.4. 背景主题追踪 | 第93-95页 |
5.5.5. 主题模型性能测试 | 第95-96页 |
5.5.6. 参数分析 | 第96-97页 |
5.5.7. 运行时间分析 | 第97-98页 |
5.6. 本章小结 | 第98-99页 |
第6章 结束语 | 第99-101页 |
6.1. 全文工作总结 | 第99-100页 |
6.2. 未来工作展望 | 第100-101页 |
参考文献 | 第101-111页 |
攻博期间发表的研究成果目录 | 第111-112页 |
攻博期间参与的项目情况 | 第112-113页 |
致谢 | 第113页 |