基于局部敏感性哈希的代码相似性检测技术研究
学位论文的主要创新点 | 第3-4页 |
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第8-12页 |
1.1 研究背景及意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-10页 |
1.3 本文组织结构 | 第10-12页 |
第二章 代码相似度检测 | 第12-16页 |
2.1 相似代码的成因 | 第12-13页 |
2.2 相似代码的类型 | 第13页 |
2.3 代码相似性检测方法 | 第13-16页 |
2.3.1 基于文本的检测方法 | 第13页 |
2.3.2 基于标识的检测方法 | 第13-14页 |
2.3.3 基于抽象语法树的检测方法 | 第14页 |
2.3.4 基于程序依赖图的检测方法 | 第14-16页 |
第三章 局部敏感性哈希 | 第16-22页 |
3.1 局部敏感性哈希相关理论 | 第16-19页 |
3.1.1 常用相似性度量 | 第16-17页 |
3.1.2 局部敏感性哈希定义 | 第17-18页 |
3.1.3 Minhash | 第18-19页 |
3.2 基于哈希的字符串查找 | 第19-22页 |
3.2.1 q-gram | 第19页 |
3.2.2 字符串相似性度量 | 第19-20页 |
3.2.3 Rabin-Karp算法 | 第20-22页 |
第四章 系统设计与实现 | 第22-46页 |
4.1 | 第22-25页 |
4.1.1 系统架构设计 | 第22-23页 |
4.1.2 系统开发环境 | 第23-25页 |
4.2 代码解析模块 | 第25-34页 |
4.2.1 内部标识序列 | 第25-29页 |
4.2.2 词法分析器 | 第29-34页 |
4.3 相似代码检索模块 | 第34-44页 |
4.3.1 Trie-Join | 第35-36页 |
4.3.2 Hashed-Join | 第36-37页 |
4.3.3 处理流程 | 第37-44页 |
4.4 检测结果展示模块 | 第44-46页 |
第五章 实验及结果分析 | 第46-52页 |
5.1 实验环境 | 第46页 |
5.2 实验A | 第46-50页 |
5.2.1 实验数据 | 第46-47页 |
5.2.2 实验结果 | 第47-50页 |
5.3 实验B | 第50-52页 |
5.3.1 实验数据 | 第50-51页 |
5.3.2 实验结果 | 第51-52页 |
第六章 总结与展望 | 第52-54页 |
6.1 总结 | 第52页 |
6.2 展望 | 第52-54页 |
参考文献 | 第54-58页 |
发表论文和参与科研情况说明 | 第58-60页 |
致谢 | 第60页 |