摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 绪论 | 第7-11页 |
1.1 课题背景与意义 | 第7-9页 |
1.1.1 研究现状 | 第7-8页 |
1.1.2 课题的实际意义 | 第8页 |
1.1.3 课题的理论意义 | 第8-9页 |
1.2 论文主要工作 | 第9-10页 |
1.3 论文组织结构 | 第10-11页 |
第二章 不良消息文本检测的相关技术 | 第11-21页 |
2.1 消息文本概述 | 第11页 |
2.2 不良文本检测方法概述 | 第11-12页 |
2.3 消息文本中的频繁模式概述 | 第12-14页 |
2.3.1 关联规则中频繁模式基本概念 | 第12-13页 |
2.3.2 频繁项集挖掘经典算法介绍 | 第13-14页 |
2.4 文本分类概述 | 第14-21页 |
2.4.1 基于统计学习的文本分类 | 第15-16页 |
2.4.2 特征选择和计算 | 第16-19页 |
2.4.3 分类计算 | 第19-21页 |
第三章 基于频繁模式挖掘的不良消息文本检测方法设计 | 第21-42页 |
3.1 设计目标 | 第21-22页 |
3.2 总体设计思路 | 第22-23页 |
3.3 不良消息文本预处理 | 第23-29页 |
3.3.1 中国科学院计算技术研究所汉语词法分析系统 | 第24-27页 |
3.3.2 不良消息文本预处理策略研究 | 第27页 |
3.3.3 不良消息文本预处理中词性和命名实体的处理规则 | 第27-28页 |
3.3.4 不良消息文本预处理算法流程 | 第28-29页 |
3.4 不良消息文本频繁模式挖掘 | 第29-34页 |
3.4.1 消息文本频繁模式的基本概念 | 第29页 |
3.4.2 不良消息文本频繁模式提取研究 | 第29-30页 |
3.4.3 不良消息文本频繁项词集发现 | 第30-32页 |
3.4.4 不良消息文本频繁字符串模式提取 | 第32-33页 |
3.4.5 不良消息文本模式提取算法 | 第33-34页 |
3.5 不良消息文本分类检测 | 第34-42页 |
3.5.1 词语相似度计算 | 第34-35页 |
3.5.2 基于《同义词词林》词语相似度计算 | 第35-38页 |
3.5.3 消息文本与频繁模式字符串之间子串判断 | 第38-40页 |
3.5.4 消息文本与频繁模式字符串相似度计算 | 第40-42页 |
第四章 基于频繁模式挖掘的不良消息文本检测方法实现 | 第42-52页 |
4.1 实验开发和运行环境 | 第42页 |
4.2 不良消息文本检测方法流程图 | 第42-46页 |
4.2.1 不良消息文本预处理流程 | 第43-44页 |
4.2.2 不良消息文本频繁模式提取流程 | 第44-45页 |
4.2.3 不良消息文本分类流程 | 第45-46页 |
4.3 方法中关键数据结构 | 第46-48页 |
4.4 实验对比与分析 | 第48-52页 |
第五章 总结与展望 | 第52-54页 |
参考文献 | 第54-58页 |
致谢 | 第58-59页 |