一种基于语义网络的中文文本相似度计算方法
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第8-12页 |
1.1 研究背景和意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-10页 |
1.3 本文的主要内容以及结构安排 | 第10-12页 |
1.3.1 本文研究内容 | 第10-11页 |
1.3.2 本文内容安排 | 第11-12页 |
第2章 文本相关处理过程 | 第12-24页 |
2.1 预处理过程 | 第12-15页 |
2.1.1 中文分词算法 | 第12-14页 |
2.1.2 去停用词过程 | 第14-15页 |
2.1.3 预处理过程流程图 | 第15页 |
2.2 几种常用的特征选取方法 | 第15-17页 |
2.2.1 TF-IDF方法 | 第16页 |
2.2.2 信息增益方法(IG) | 第16页 |
2.2.3 互信息方法(MI) | 第16-17页 |
2.2.4 x~2统计量方法(CHI) | 第17页 |
2.3 几种常用的文本相似度计算方法 | 第17-23页 |
2.3.1 基于VSM的TF-IDF算法 | 第17-20页 |
2.3.2 潜在语义索引算法(LSI) | 第20-21页 |
2.3.3 金博等人的语义相似度算法 | 第21-23页 |
2.4 小结 | 第23-24页 |
第3章 知网结构及相关算法 | 第24-30页 |
3.1 知网简介 | 第24页 |
3.2 知网组成 | 第24-26页 |
3.3 知网的知识表示 | 第26-27页 |
3.4 刘群的基于知网的词汇语义相似度算法简介 | 第27-28页 |
3.4.1 义原相似度计算 | 第27-28页 |
3.4.2 词汇的相似度计算 | 第28页 |
3.5 小结 | 第28-30页 |
第4章 改进的中文文本相似度算法 | 第30-39页 |
4.1 算法改进的目的 | 第30-31页 |
4.2 算法的具体改进过程 | 第31-35页 |
4.2.1 在文本库中加入当前处理的文本 | 第31页 |
4.2.2 将待比较文本进行分段处理 | 第31-32页 |
4.2.3 预处理过程 | 第32页 |
4.2.4 段特征向量的建立和处理过程 | 第32-33页 |
4.2.5 段向量的具体计算方法及语义相关 | 第33-34页 |
4.2.6 加权平均得两个文档的相似度 | 第34-35页 |
4.3 本文的基于语义的相似度算法流程 | 第35-38页 |
4.4 小结 | 第38-39页 |
第5章 实验验证 | 第39-46页 |
5.1 实验环境与语料 | 第39页 |
5.2 文本相似度计算相关实验 | 第39-45页 |
5.3 小结 | 第45-46页 |
第6章 小结与展望 | 第46-48页 |
6.1 小结 | 第46页 |
6.2 展望 | 第46-48页 |
参考文献 | 第48-51页 |
致谢 | 第51页 |