汉语文本抄袭识别系统研究

摘要	第1-9页
ABSTRACT	第9-11页
第1章抄袭识别概述	第11-17页
·抄袭识别的研究背景	第11页
·抄袭的相关概念及分类	第11-12页
·抄袭的相关概念	第11-12页
·抄袭的种类	第12页
·抄袭识别的研究现状	第12-16页
·国外的研究现状	第12-14页
·国内的研究现状	第14-16页
·本文研究内容和文章的组织结构	第16-17页
·研究内容	第16页
·本文组织结构	第16-17页
第2章现有的原型系统、工具或服务网站	第17-29页
·Siff工具	第17页
·COPS原型系统	第17-18页
·Ferret工具	第18-22页
·WCopyfind工具	第22-26页
·Turnitin服务网站	第26-28页
·本章小结	第28-29页
第3章抄袭识别实现过程研究	第29-52页
·中文分词	第29-32页
·中文分词方法	第29-30页
·现有的分词系统	第30-32页
1、ChineseTokenizer	第30页
2、雨痕分词组件	第30-31页
3、计算所汉语词法分析系统ICTCLAS	第31页
4、KTDictSeg	第31-32页
5、CSW中文分词组件	第32页
·本文分词方法	第32页
·文本相似度	第32-43页
·文本相似度概述	第33页
·计算文本相似度的算法	第33-43页
1、基于字符匹配的文本相似度度量	第34-37页
2、基于集合模型的相似度计算方法	第37-39页
3、基于向量空间模型的相似度计算	第39-41页
4、基于N-gram的相似度计算	第41-42页
5、多层次特征融合型相似度计算方法	第42-43页
·文本比较	第43-51页
·相关背景	第44页
·相关概念	第44-46页
·求所有公共子串算法	第46-47页
·无重复最长公共子串的求解算法	第47-49页
·基于分词的无重复最长公共子串	第49-51页
·本章小结	第51-52页
第4章汉语文本抄袭识别系统的设计与介绍	第52-63页
·汉语文本抄袭识别系统设计	第52-55页
·文档注册模块	第52-53页
·分词模块	第53-54页
·抄袭识别模块	第54-55页
·查询模块	第55页
·后台维护模块	第55页
·知识库的构建	第55-58页
·同义词词表建立	第55-57页
·分类表的建立	第57-58页
·停用词词典的构建	第58页
·系统及其实现流程的介绍	第58-62页
·菜单介绍	第58-59页
·系统实现的流程	第59-62页
·本章小结	第62-63页
第5章实验及系统评测	第63-72页
·实验环境	第63-67页
·测试数据的选择	第63-64页
·训练文档确定阈值	第64-67页
·系统性能度量	第67-71页
·相似方法的度量	第67-69页
1、响应时间度量	第67-68页
2、查准率度量	第68-69页
·相似报告的度量	第69-71页
·本章小结	第71-72页
第6章总结与展望	第72-75页
·所做的工作	第72页
·本文的创新之处	第72-73页
·系统存在的不足及未来工作展望	第73-75页
参考文献	第75-78页
附录	第78-81页
附录A:相似报告样例	第78-81页
样例1 无重复最长公共子串的求解算法生成的相似报告	第78-79页
样例2 基于分词的无重复最长公共子串求解算法的相似报告	第79-81页
致谢	第81页