不良文本及其变体信息的检测过滤技术研究

摘要	第5-6页
Abstract	第6页
第1章绪论	第7-13页
1.1 研究背景和意义	第7-8页
1.2 国内外研究现状	第8-10页
1.3 研究内容与论文框架	第10-13页
第2章相关理论与技术介绍	第13-21页
2.1 常用的字符串相似度计算方法	第13-15页
2.1.1 基于Jaccard的相似度计算	第13页
2.1.2 基于N-gram的相似度计算	第13-14页
2.1.3 基于编辑距离的相似度计算	第14-15页
2.1.4 基于Yoon's method的相似度计算	第15页
2.2 WM算法	第15-16页
2.3 Trie树(字典树)	第16-17页
2.4 众包(Crowdsourcing)	第17-18页
2.5 评价标准	第18页
2.6 文本过滤方法综述	第18-21页
第3章面向变体关键词的字符串相似度计算	第21-32页
3.1 变体关键词的相似度计算思路	第21-22页
3.2 不良词汇变形整理及处理方法	第22-25页
3.2.1 不良词汇变形情况整理	第23-24页
3.2.1.1 含有特殊字符的变形体	第23-24页
3.2.1.2 不含有特殊字符的变形体	第24页
3.2.2 不良词汇变形体处理方法	第24-25页
3.3 不良词汇变体相似度计算公式	第25-30页
3.3.1 公式1	第25-27页
3.3.2 公式2	第27-28页
3.3.3 相似度计算算法描述	第28-30页
3.4 相似度计算算法分析	第30-31页
3.5 本章小结	第31-32页
第4章不良文本信息检测过滤框架研究	第32-48页
4.1 客户端扫描过滤不良文本信息研究	第32-38页
4.1.1 客户端扫描总体流程	第32-33页
4.1.2 客户端相似度计算层次过滤	第33-38页
4.1.2.1 相关数据结构定义	第34-36页
4.1.2.2 基于集合相似度过滤	第36-37页
4.1.2.3 变体关键词相似度计算处理流程	第37-38页
4.2 服务端变体关键词识别的研究	第38-44页
4.2.1 “众包”在数据处理中的相关应用	第38-39页
4.2.2 影响“众包”标记效果的因素分析	第39-41页
4.2.2.1 对恶意标记的因素分析	第39-40页
4.2.2.2 对标记意愿的因素分析	第40-41页
4.2.2.3 对标记质量的因素分析	第41页
4.2.3 “众包”标记用户选择分析	第41-43页
4.2.4 “众包”标记整体处理流程	第43-44页
4.3 客户端和服务端整体交互	第44-46页
4.3.1 系统拓扑图	第44-45页
4.3.2 客户端和服务端消息交互	第45-46页
4.4 本章小结	第46-48页
第5章实验验证	第48-59页
5.1 对变体关键词相似度计算的验证	第48-54页
5.1.1 实验数据集	第48页
5.1.2 实验过程	第48-49页
5.1.3 实验结果	第49-51页
5.1.4 误差分析	第51页
5.1.5 公式2权重分析	第51-52页
5.1.6 算法复杂度分析比较	第52页
5.1.7 相似度计算运行时间比较	第52-54页
5.2 对客户端扫描过滤的验证	第54-55页
5.2.1 实验环境	第54页
5.2.2 实验结果	第54页
5.2.3 实验性能分析	第54-55页
5.2.4 客户端相似度计算阈值对检测的影响分析	第55页
5.3 对服务端“众包”群体选择的验证	第55-58页
5.3.1 实验环境	第55-56页
5.3.2 实验结果	第56-57页
5.3.3 “众包”对检测的影响分析	第57-58页
5.4 本章小结	第58-59页
第6章总结与展望	第59-61页
6.1 本文工作总结及创新点	第59-60页
6.2 未来工作展望	第60-61页
参考文献	第61-65页
致谢	第65-66页
攻读硕士学位期间发表的论文	第66-67页