基于向量空间模型的文本相似度算法研究
摘要 | 第1-4页 |
Abstract | 第4-5页 |
目录 | 第5-7页 |
第1章 绪论 | 第7-12页 |
·研究背景及意义 | 第7-8页 |
·国内外研究现状 | 第8-10页 |
·国外研究现状 | 第8页 |
·国内研究现状 | 第8-10页 |
·存在的主要问题 | 第10页 |
·本文主要研究内容及章节安排 | 第10-12页 |
·主要研究内容 | 第10-11页 |
·章节安排 | 第11-12页 |
第2章 文本相似度计算相关技术概述 | 第12-26页 |
·文本相似度的基本概念 | 第12页 |
·文本预处理 | 第12-14页 |
·文本分词 | 第12-13页 |
·去停用词 | 第13-14页 |
·特征项选取 | 第14页 |
·特征项权重计算方法 | 第14-17页 |
·文本表示法 | 第17-22页 |
·布尔模型 | 第17-18页 |
·概率模型 | 第18-20页 |
·向量空间模型(VSM) | 第20-22页 |
·文本相似度计算 | 第22-24页 |
·相似度度量 | 第22-23页 |
·距离度量 | 第23-24页 |
·余弦相似度和欧几里得距离 | 第24页 |
·本章小结 | 第24-26页 |
第3章 文本段向量空间模型 | 第26-34页 |
·文本结构 | 第26-27页 |
·结构化信息与半结构化信息 | 第26-27页 |
·文本结构分析 | 第27页 |
·文本分段 | 第27-28页 |
·特征项权重计算 | 第28-29页 |
·文本表示 | 第29-30页 |
·相似度计算 | 第30-32页 |
·基于文本段的向量空间模型 | 第32页 |
·本章小结 | 第32-34页 |
第4章 向量空间模型的改进 | 第34-43页 |
·问题的提出 | 第34页 |
·自主加权文本段向量空间模型 | 第34-37页 |
·基于非零权值向量的相似度算法 | 第37-42页 |
·传统相似度度量分析 | 第37页 |
·非零权值向量 | 第37-42页 |
·本章小结 | 第42-43页 |
第5章 实验与性能分析 | 第43-52页 |
·实验介绍 | 第43-48页 |
·实验目的 | 第43页 |
·实验流程 | 第43-45页 |
·文本过滤系统 | 第45-48页 |
·性能分析 | 第48-51页 |
·自主加权文本段向量空间模型性能分析 | 第48-50页 |
·非零权值并集向量空间模型性能分析 | 第50页 |
·非零权值基准向量空间模型性能分析 | 第50-51页 |
·实验结论 | 第51页 |
·本章小结 | 第51-52页 |
第6章 总结与展望 | 第52-54页 |
·本文工作总结 | 第52-53页 |
·工作展望 | 第53-54页 |
致谢 | 第54-55页 |
参考文献 | 第55-58页 |
攻读硕士学位期间发表的论文及科研成果 | 第58页 |