摘要 | 第6-8页 |
ABSTRACT | 第8-10页 |
术语与符号 | 第19-21页 |
0.1 术语 | 第19-20页 |
0.2 符号 | 第20-21页 |
一 绪论 | 第21-29页 |
1.1 研究背景与现状 | 第21-24页 |
1.2 本文工作概括 | 第24-26页 |
1.3 论文结构 | 第26-29页 |
二 文本向量化背景知识与相关工作 | 第29-47页 |
2.1 基于分布表示的词向量 | 第31-33页 |
2.1.1 基于矩阵的词表示 | 第31-32页 |
2.1.2 基于聚类的词表示 | 第32页 |
2.1.3 基于神经网络的词表示 | 第32-33页 |
2.2 基于神经网络的词向量学习模型 | 第33-44页 |
2.2.1 统计语言模型简介 | 第33-35页 |
2.2.2 神经网络语言模型 | 第35-37页 |
2.2.3 C&W模型 | 第37-38页 |
2.2.4 CBOW和Skip-Gram模型 | 第38-42页 |
2.2.5 词向量模型比较 | 第42-43页 |
2.2.6 其它相关工作 | 第43-44页 |
2.3 基于神经网络的文本向量学习模型 | 第44-46页 |
2.3.1 PV-DM模型 | 第44-45页 |
2.3.2 PV-DBOW模型 | 第45-46页 |
2.4 本章小结 | 第46-47页 |
三 IsA关系词向量的学习 | 第47-77页 |
3.1 引言 | 第47-51页 |
3.1.1 上下位关系识别 | 第49-50页 |
3.1.2 主题-修饰关系识别 | 第50-51页 |
3.2 动态距离差额模型 | 第51-57页 |
3.2.1 IsA关系数据集 | 第51页 |
3.2.2 IsA关系的属性 | 第51-52页 |
3.2.3 学isA词向量 | 第52-53页 |
3.2.4 神经网络模型架构 | 第53-54页 |
3.2.5 IsA词向量分析 | 第54-57页 |
3.3 上下位关系的识别 | 第57-65页 |
3.3.1 监督式识别法 | 第59-60页 |
3.3.2 实验结果 | 第60-65页 |
3.4 主题-修饰词关系的检测 | 第65-74页 |
3.4.1 神经网络模型 | 第66-71页 |
3.4.2 实验结果 | 第71-74页 |
3.5 本章小结 | 第74-77页 |
四 短文本的向量化表示 | 第77-109页 |
4.1 引言 | 第77-81页 |
4.1.1 短文本语义丰富 | 第78-80页 |
4.1.2 语义哈希 | 第80-81页 |
4.2 相关工作 | 第81-82页 |
4.3 背景知识 | 第82页 |
4.3.1 Probase知识库 | 第82页 |
4.4 短文本的语义丰富 | 第82-88页 |
4.4.1 短文本的预处理 | 第83-84页 |
4.4.2 词语的概念化 | 第84-86页 |
4.4.3 共现词的推断 | 第86-88页 |
4.5 语义哈希模型 | 第88-96页 |
4.5.1 问题定义 | 第88-89页 |
4.5.2 模型概括 | 第89-90页 |
4.5.3 模型设计和训练 | 第90-95页 |
4.5.4 其它训练细节 | 第95-96页 |
4.6 实验结果 | 第96-106页 |
4.6.1 实验数据 | 第96-97页 |
4.6.2 使用小批量(mini-batch)梯度下降方法和冲量机制的作用 | 第97-98页 |
4.6.3 信息检索任务 | 第98-103页 |
4.6.4 短文本分类任务 | 第103-106页 |
4.6.5 语义哈希码维度分析 | 第106页 |
4.7 本章小结 | 第106-109页 |
五 长文本的向量化表示 | 第109-125页 |
5.1 相关工作 | 第110-111页 |
5.2 长文本向量化模型 | 第111-117页 |
5.2.1 动态阀值聚类法 | 第111-114页 |
5.2.2 筛选典型语义聚类 | 第114-116页 |
5.2.3 系统流程图 | 第116-117页 |
5.3 实验 | 第117-122页 |
5.3.1 文本聚类结果 | 第117-120页 |
5.3.2 文本分类结果 | 第120-122页 |
5.4 本章小结 | 第122-125页 |
六 总结与展望 | 第125-129页 |
参考文献 | 第129-141页 |
简历 | 第141-143页 |
发表论文和科研情况 | 第143-145页 |
致谢 | 第145-146页 |