基于多粒度偏好的网络文本抄袭检测系统的研究与应用

摘要	第5-6页
abstract	第6-7页
第一章绪论	第10-17页
1.1 研究工作的背景与意义	第10-11页
1.2 文本相似度检测的国内外研究历史与现状	第11-15页
1.2.1 文本相似度检测系统的国内外研究历史与现状	第11-13页
1.2.2 文本相似度检测算法的国内外研究历史与现状	第13-15页
1.3 本文的主要内容	第15页
1.4 本论文的结构安排	第15-17页
第二章相关技术介绍	第17-36页
2.1 网络爬虫	第17-21页
2.1.1 网络爬虫的基本结构和流程	第17-19页
2.1.2 抓取策略	第19-21页
2.2 文本相似度算法	第21-32页
2.2.1 基于空间向量的余弦算法	第21-23页
2.2.2 simhash算法	第23-25页
2.2.3 基于语义理解的文本相似度算法	第25-28页
2.2.4 改进的基于空间向量的余弦算法	第28-32页
2.3 非关系型数据库	第32-33页
2.3.1 非关系型数据库介绍	第32-33页
2.3.2 MongoDB	第33页
2.4 Apache Shiro	第33-35页
2.5 本章小结	第35-36页
第三章需求分析	第36-45页
3.1 需求概述	第36页
3.2 系统功能性需求分析	第36-43页
3.2.1 系统网络爬虫模块需求分析	第38-39页
3.2.2 系统文本检测服务需求分析	第39-40页
3.2.3 系统单网页检测服务功能性需求分析	第40-41页
3.2.4 系统“多粒度”需求分析	第41-42页
3.2.5 系统用户权限管理需求分析	第42-43页
3.2.6 系统数据储存功能需求分析	第43页
3.3 系统性能性需求分析	第43-44页
3.4 本章小结	第44-45页
第四章基于多粒度偏好的网络文本抄袭检测系统的设计与实现	第45-70页
4.1 系统总体设计	第45-47页
4.2 数据库的设计与实现	第47-53页
4.2.1 文本检测部分数据库的设计与实现	第47-50页
4.2.2 用户部分数据库的设计与实现	第50-53页
4.3 网络爬虫部分的设计与实现	第53-56页
4.3.1 针对系统中没有对应解析格式网页的正文提取方法	第54-55页
4.3.2 针对站点对网络文本进行解析	第55-56页
4.4 多粒度检测文本相似度算法部分的设计与实现	第56-65页
4.4.1 simhash算法的设计与实现	第58-60页
4.4.2 基于空间向量的余弦相似度算法的设计与实现	第60-61页
4.4.3 改进的余弦算法的设计与实现	第61-63页
4.4.4 基于语义理解的文本相似度算法的设计与实现	第63-65页
4.5 用户权限管理部分的设计与实现	第65-68页
4.6 用户缴费部分的设计与实现	第68-69页
4.7 本章小结	第69-70页
第五章系统测试	第70-87页
5.1 系统算法测试	第70-75页
5.2 系统基本功能测试	第75-86页
5.3 系统性能测试	第86页
5.4 本章小结	第86-87页
第六章全文总结与展望	第87-89页
6.1 全文总结	第87-88页
6.2 后续工作展望	第88-89页
致谢	第89-90页
参考文献	第90-93页