基于非分词技术的科技项目查重研究与实现

中文摘要	第1-4页
英文摘要	第4-8页
1 绪论	第8-13页
·引言	第8-9页
·中文文本相似度计算理论介绍	第9页
·国内外研究进展	第9-10页
·表示模型	第9页
·特征提取	第9-10页
·特征权值	第10页
·后缀树	第10页
·相似度计算公式	第10页
·论文的主要思想和工作	第10-11页
·本文的新思想	第10-11页
·本文的主要工作	第11页
·论文的结构安排	第11-13页
2 中文文本相似度计算	第13-16页
·自然语言处理	第13页
·特征提取	第13-14页
·表示模型	第14页
·特征权值	第14-15页
·相似度计算	第15页
·本章小结	第15-16页
3 特征提取	第16-28页
·中文分词概述	第16页
·词典分词法	第16-18页
·统计分词法	第18-19页
·混合分词法	第19页
·ICTCLAS	第19页
·后缀树概述	第19-20页
·后缀树构建算法	第20-21页
·Ukkonen 算法	第21-27页
·字符串的特别处理	第21-22页
·隐式后缀树	第22页
·Ukkonen 算法概述	第22-23页
·扩展规则	第23页
·降低计算复杂度	第23-25页
·Ukkonen 算法详细描述	第25-27页
·本章小结	第27-28页
4 频繁闭项集	第28-39页
·频繁项集	第28-31页
·基本概念	第28-29页
·频繁项集算法	第29-31页
·频繁闭项集	第31-37页
·基本概念	第31-33页
·频繁闭项集算法综述	第33页
·CHARM 算法	第33-37页
·本章小结	第37-39页
5 一种基于非分词技术的科技项目查重算法及实现	第39-55页
·算法概要	第39-40页
·文本清理	第40页
·C-SuffixTree 构建算法	第40-44页
·挖掘频繁闭项集	第44-46页
·构建FCSNV	第46-47页
·相似度计算	第47页
·算法实现	第47-50页
·系统框架	第47-48页
·Remoting	第48-50页
·实验	第50-54页
·实验模型	第50页
·实验数据	第50-52页
·实验结果	第52-54页
·本章小结	第54-55页
6 总结	第55-56页
致谢	第56-57页
参考文献	第57-59页
附录	第59页
A. 硕士学位期间发表的学术论文	第59页
B. 作者在攻读学位期间参加的科研项目	第59页