基于非分词技术的科技项目查重研究与实现
中文摘要 | 第1-4页 |
英文摘要 | 第4-8页 |
1 绪论 | 第8-13页 |
·引言 | 第8-9页 |
·中文文本相似度计算理论介绍 | 第9页 |
·国内外研究进展 | 第9-10页 |
·表示模型 | 第9页 |
·特征提取 | 第9-10页 |
·特征权值 | 第10页 |
·后缀树 | 第10页 |
·相似度计算公式 | 第10页 |
·论文的主要思想和工作 | 第10-11页 |
·本文的新思想 | 第10-11页 |
·本文的主要工作 | 第11页 |
·论文的结构安排 | 第11-13页 |
2 中文文本相似度计算 | 第13-16页 |
·自然语言处理 | 第13页 |
·特征提取 | 第13-14页 |
·表示模型 | 第14页 |
·特征权值 | 第14-15页 |
·相似度计算 | 第15页 |
·本章小结 | 第15-16页 |
3 特征提取 | 第16-28页 |
·中文分词概述 | 第16页 |
·词典分词法 | 第16-18页 |
·统计分词法 | 第18-19页 |
·混合分词法 | 第19页 |
·ICTCLAS | 第19页 |
·后缀树概述 | 第19-20页 |
·后缀树构建算法 | 第20-21页 |
·Ukkonen 算法 | 第21-27页 |
·字符串的特别处理 | 第21-22页 |
·隐式后缀树 | 第22页 |
·Ukkonen 算法概述 | 第22-23页 |
·扩展规则 | 第23页 |
·降低计算复杂度 | 第23-25页 |
·Ukkonen 算法详细描述 | 第25-27页 |
·本章小结 | 第27-28页 |
4 频繁闭项集 | 第28-39页 |
·频繁项集 | 第28-31页 |
·基本概念 | 第28-29页 |
·频繁项集算法 | 第29-31页 |
·频繁闭项集 | 第31-37页 |
·基本概念 | 第31-33页 |
·频繁闭项集算法综述 | 第33页 |
·CHARM 算法 | 第33-37页 |
·本章小结 | 第37-39页 |
5 一种基于非分词技术的科技项目查重算法及实现 | 第39-55页 |
·算法概要 | 第39-40页 |
·文本清理 | 第40页 |
·C-SuffixTree 构建算法 | 第40-44页 |
·挖掘频繁闭项集 | 第44-46页 |
·构建FCSNV | 第46-47页 |
·相似度计算 | 第47页 |
·算法实现 | 第47-50页 |
·系统框架 | 第47-48页 |
·Remoting | 第48-50页 |
·实验 | 第50-54页 |
·实验模型 | 第50页 |
·实验数据 | 第50-52页 |
·实验结果 | 第52-54页 |
·本章小结 | 第54-55页 |
6 总结 | 第55-56页 |
致谢 | 第56-57页 |
参考文献 | 第57-59页 |
附录 | 第59页 |
A. 硕士学位期间发表的学术论文 | 第59页 |
B. 作者在攻读学位期间参加的科研项目 | 第59页 |