摘要 | 第5-6页 |
abstract | 第6-7页 |
引言 | 第10-12页 |
1 绪论 | 第12-16页 |
1.1 研究的背景和意义 | 第12页 |
1.2 研究的国内外现状 | 第12-14页 |
1.3 研究的主要内容 | 第14-15页 |
1.3.1 研究内容 | 第14页 |
1.3.2 研究思路 | 第14-15页 |
1.4 论文的组织结构 | 第15-16页 |
2 相关基础知识 | 第16-33页 |
2.1 文本预处理 | 第16-18页 |
2.1.1 文本分词方法 | 第16-17页 |
2.1.2 未登录词处理 | 第17-18页 |
2.1.3 歧义识别 | 第18页 |
2.2 词向量 | 第18-19页 |
2.3 Word2Vec原理分析 | 第19-28页 |
2.3.1 Word2Vec神经网络架构 | 第20-22页 |
2.3.2 CBOW模型 | 第22-25页 |
2.3.3 Skip-gram模型 | 第25-28页 |
2.4 典型文本聚类方法 | 第28-33页 |
2.4.1 基于划分的方法 | 第28-29页 |
2.4.2 基于层次的方法 | 第29-30页 |
2.4.3 基于密度的方法 | 第30-32页 |
2.4.4 其他聚类方法 | 第32-33页 |
3 短文本语义向量模型设计 | 第33-58页 |
3.1 文本表示模型概述 | 第33-36页 |
3.2 短文本语义向量模型 | 第36-45页 |
3.2.1 基于词向量的短文本语义扩展 | 第36-41页 |
3.2.2 短文本语义向量模型构建 | 第41-45页 |
3.3 短文本相似度计算 | 第45-51页 |
3.3.1 典型的文本相似度计算方法 | 第45-50页 |
3.3.2 短文本语义向量相似度计算 | 第50-51页 |
3.4 实验验证 | 第51-58页 |
3.4.1 词向量的训练 | 第51-54页 |
3.4.2 短文本语义扩展 | 第54-55页 |
3.4.3 短文本相似度计算 | 第55-58页 |
4 基于短文本语义向量的谱聚类 | 第58-79页 |
4.1 谱聚类分析 | 第58-64页 |
4.1.1 图的表示 | 第58-59页 |
4.1.2 拉普拉斯矩阵 | 第59-61页 |
4.1.3 图的分割算法 | 第61-64页 |
4.2 基于短文本语义向量的谱聚类 | 第64-68页 |
4.2.1 短文本相似度矩阵的构造 | 第64-66页 |
4.2.2 短文本谱聚类算法 | 第66-68页 |
4.3 基于密度峰的谱聚类改进 | 第68-72页 |
4.3.1 密度峰聚类 | 第68-70页 |
4.3.2 基于密度峰的谱聚类算法改进 | 第70-72页 |
4.4 谱聚类热点发现流程设计 | 第72页 |
4.5 实验验证 | 第72-79页 |
4.5.1 实验数据及评价指标 | 第72-74页 |
4.5.2 基于短文本语义向量的谱聚类 | 第74-76页 |
4.5.3 传统谱聚类与基于短文本语义向量的谱聚类对比 | 第76-79页 |
结论 | 第79-80页 |
参考文献 | 第80-82页 |
在学研究成果 | 第82-83页 |
致谢 | 第83页 |