中文摘要 | 第1-4页 |
英文摘要 | 第4-8页 |
第1 章 绪论 | 第8-13页 |
·研究的目的和意义 | 第8-9页 |
·本文研究的目的 | 第8页 |
·本课题研究的意义 | 第8-9页 |
·国内外的研究现状 | 第9-12页 |
·文本相似度计算 | 第9-10页 |
·中文分词技术 | 第10-12页 |
·本文的创新之处及内容安排 | 第12-13页 |
·本文的创新之处 | 第12页 |
·本文的内容安排 | 第12-13页 |
第2 章 中文分词算法 | 第13-24页 |
·中文分词的研究进展及难点 | 第13-15页 |
·中文分词的必要性 | 第13页 |
·中文分词的研究进展 | 第13-14页 |
·中文分词的难点 | 第14-15页 |
·常用中文分词算法 | 第15-17页 |
·逐词遍历法 | 第15页 |
·正向最大匹配法(MM)与逆向最大匹配法(RMM) | 第15页 |
·二次扫描法 | 第15-16页 |
·基于词频统计的分词法 | 第16页 |
·联想-回溯法 | 第16-17页 |
·专家系统方法 | 第17页 |
·存在问题及发展方向 | 第17-18页 |
·目前存在的问题 | 第17-18页 |
·未来的发展方向 | 第18页 |
·一种改进的正向最大匹配切分(MM)算法 | 第18-24页 |
·正向最大匹配切分(MM)算法的缺点 | 第18页 |
·一种改进的MM 算法 | 第18-24页 |
第3 章 中文文本相似度计算 | 第24-35页 |
·中文文本相似度计算模型 | 第24-25页 |
·相似度 | 第24页 |
·相似算法 | 第24-25页 |
·中文文本相似度计算的主要方法 | 第25-33页 |
·基于向量空间模型的TF-IDF 方法 | 第25-27页 |
·隐性语义标引 | 第27-29页 |
·基于汉明距离的文本相似度计算方法 | 第29-30页 |
·基于属性论的文本相似度计算方法 | 第30-33页 |
·基于语义理解的相似度计算方法 | 第33页 |
·存在问题及发展方向 | 第33-35页 |
·存在的问题 | 第33-34页 |
·未来的发展方向 | 第34-35页 |
第4 章 基于分词的中文文本相似度计算的系统实现 | 第35-47页 |
·文本相似度计算方法的选择 | 第35页 |
·系统组成及工作流程 | 第35-36页 |
·系统组成 | 第35页 |
·工作流程 | 第35-36页 |
·系统实现 | 第36-45页 |
·中文自动分词的实现 | 第36-41页 |
·文本的表示 | 第41-43页 |
·文本特征向量的提取与降维 | 第43-45页 |
·文本相似度的计算 | 第45页 |
·试验测试结果 | 第45-46页 |
·需要未来完善的工作 | 第46-47页 |
结论 | 第47-48页 |
参考文献 | 第48-50页 |
后记 | 第50页 |