基于向量空间模型的文本相似度算法研究
| 摘要 | 第1-4页 |
| Abstract | 第4-5页 |
| 目录 | 第5-7页 |
| 第1章 绪论 | 第7-12页 |
| ·研究背景及意义 | 第7-8页 |
| ·国内外研究现状 | 第8-10页 |
| ·国外研究现状 | 第8页 |
| ·国内研究现状 | 第8-10页 |
| ·存在的主要问题 | 第10页 |
| ·本文主要研究内容及章节安排 | 第10-12页 |
| ·主要研究内容 | 第10-11页 |
| ·章节安排 | 第11-12页 |
| 第2章 文本相似度计算相关技术概述 | 第12-26页 |
| ·文本相似度的基本概念 | 第12页 |
| ·文本预处理 | 第12-14页 |
| ·文本分词 | 第12-13页 |
| ·去停用词 | 第13-14页 |
| ·特征项选取 | 第14页 |
| ·特征项权重计算方法 | 第14-17页 |
| ·文本表示法 | 第17-22页 |
| ·布尔模型 | 第17-18页 |
| ·概率模型 | 第18-20页 |
| ·向量空间模型(VSM) | 第20-22页 |
| ·文本相似度计算 | 第22-24页 |
| ·相似度度量 | 第22-23页 |
| ·距离度量 | 第23-24页 |
| ·余弦相似度和欧几里得距离 | 第24页 |
| ·本章小结 | 第24-26页 |
| 第3章 文本段向量空间模型 | 第26-34页 |
| ·文本结构 | 第26-27页 |
| ·结构化信息与半结构化信息 | 第26-27页 |
| ·文本结构分析 | 第27页 |
| ·文本分段 | 第27-28页 |
| ·特征项权重计算 | 第28-29页 |
| ·文本表示 | 第29-30页 |
| ·相似度计算 | 第30-32页 |
| ·基于文本段的向量空间模型 | 第32页 |
| ·本章小结 | 第32-34页 |
| 第4章 向量空间模型的改进 | 第34-43页 |
| ·问题的提出 | 第34页 |
| ·自主加权文本段向量空间模型 | 第34-37页 |
| ·基于非零权值向量的相似度算法 | 第37-42页 |
| ·传统相似度度量分析 | 第37页 |
| ·非零权值向量 | 第37-42页 |
| ·本章小结 | 第42-43页 |
| 第5章 实验与性能分析 | 第43-52页 |
| ·实验介绍 | 第43-48页 |
| ·实验目的 | 第43页 |
| ·实验流程 | 第43-45页 |
| ·文本过滤系统 | 第45-48页 |
| ·性能分析 | 第48-51页 |
| ·自主加权文本段向量空间模型性能分析 | 第48-50页 |
| ·非零权值并集向量空间模型性能分析 | 第50页 |
| ·非零权值基准向量空间模型性能分析 | 第50-51页 |
| ·实验结论 | 第51页 |
| ·本章小结 | 第51-52页 |
| 第6章 总结与展望 | 第52-54页 |
| ·本文工作总结 | 第52-53页 |
| ·工作展望 | 第53-54页 |
| 致谢 | 第54-55页 |
| 参考文献 | 第55-58页 |
| 攻读硕士学位期间发表的论文及科研成果 | 第58页 |