云环境下支持模糊匹配的文本查重技术研究与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 研究背景	第9-11页
1.2 国内外研究现状	第11-13页
1.2.1 相似度计算研究现状	第11-12页
1.2.2 云计算研究现状	第12-13页
1.3 研究内容和论文结构安排	第13-15页
第二章相关技术及工具	第15-25页
2.1 云计算技术和模型	第15-19页
2.1.1 云计算的概念及演进	第15-18页
2.1.2 HADOOP云计算平台及标准化	第18-19页
2.2 相似度相关技术	第19-21页
2.2.1 相似度度量与距离度量	第19-21页
2.3 文本处理技术及工具	第21-24页
2.3.1 中文分词技术研究现状	第21-22页
2.3.2 分词处理工具	第22-23页
2.3.3 文本提取分析工具	第23-24页
2.4 本章小结	第24-25页
第三章文本处理及相似度计算	第25-33页
3.1 文本处理	第25-30页
3.1.1 文本提取	第25-26页
3.1.2 章节定位和文本表示	第26-28页
3.1.3 中文分词和去停止词	第28-30页
3.2 文本相似度计算方法	第30-32页
3.2.1 去除模板内容	第30-31页
3.2.2 章节相似度和全文相似度	第31-32页
3.3 本章小结	第32-33页
第四章基于分词矩阵模型的模糊匹配查重算法	第33-45页
4.1 基于分词矩阵模型的模糊匹配查重算法实现	第33-40页
4.1.1 算法的设计原理与执行流程	第33-38页
4.1.2 算法展示与程序表达	第38-40页
4.2 基于分词矩阵模型的模糊匹配查重算法评价	第40-44页
4.3 本章小结	第44-45页
第五章文本查重系统的架构设计及实现	第45-64页
5.1 基于HADOOP的分布式的文本查重系统的开发环境	第45-46页
5.2 分布式文本查重系统的架构设计	第46-48页
5.3 分布式文本查重系统的并行模块设计	第48-50页
5.4 查重系统的功能结构和操作流程	第50-52页
5.5 查重系统设计原则与操作界面展示	第52-59页
5.6 基于HADOOP的分布式文本查重系统测试运行	第59-63页
5.7 本章小结	第63-64页
第六章结论与展望	第64-66页
6.1 本文总结	第64-65页
6.2 后续工作展望	第65-66页
参考文献	第66-70页
在学期间的研究成果	第70-71页
致谢	第71页