摘要 | 第5-7页 |
Abstract | 第7-8页 |
第1章 绪论 | 第12-21页 |
1.1 垃圾邮件概述 | 第12-14页 |
1.1.1 垃圾邮件的定义 | 第12页 |
1.1.2 垃圾邮件的危害 | 第12-13页 |
1.1.3 应对垃圾邮件的措施 | 第13-14页 |
1.2 垃圾邮件研究的背景和意义 | 第14-16页 |
1.3 垃圾邮件过滤的国内外研究现状 | 第16-19页 |
1.4 课题主要研究内容 | 第19-20页 |
1.4.1 主要研究目标 | 第19页 |
1.4.2 研究内容概述 | 第19-20页 |
1.5 论文组织结构 | 第20-21页 |
第2章 中文垃圾邮件过滤 | 第21-35页 |
2.1 中文垃圾邮件介绍 | 第21-27页 |
2.1.1 中文垃圾邮件的泛滥 | 第21-22页 |
2.1.2 中文垃圾邮件的异同 | 第22-25页 |
2.1.3 中文垃圾邮件的抵御措施 | 第25-27页 |
2.2 中文垃圾邮件过滤概述 | 第27-30页 |
2.2.1 中文垃圾邮件过滤技术 | 第27-28页 |
2.2.2 基于机器学习过滤的常用算法 | 第28-30页 |
2.3 主要评测会议和指标 | 第30-34页 |
2.3.1 TREC | 第30-31页 |
2.3.2 SEWM | 第31-32页 |
2.3.3 CEAS | 第32页 |
2.3.4 测评指标 | 第32-34页 |
2.4 本章小结 | 第34-35页 |
第3章 特征提取和过滤模式 | 第35-41页 |
3.1 特征提取方法 | 第35-37页 |
3.1.1 手动特征提取 | 第35-36页 |
3.1.2 基于词的特征提取 | 第36页 |
3.1.3 通配符 | 第36-37页 |
3.1.4 信息截取 | 第37页 |
3.2 本文采用的特征提取方法 | 第37-39页 |
3.2.1 采用 4 元特征提取方法的原因 | 第37-38页 |
3.2.2 采用的 4 元文法特征提取方法 | 第38-39页 |
3.2.3 采用 4 元文法特征提取的优点 | 第39页 |
3.3 本文采用的垃圾邮件过滤模式 | 第39-40页 |
3.4 本章小结 | 第40-41页 |
第4章 典型生成模型和判别模型在中文数据集上的过滤研究 | 第41-53页 |
4.1 生成模型和判别模型 | 第41页 |
4.2 基于贝叶斯模型的垃圾邮件过滤 | 第41-43页 |
4.2.1 贝叶斯模型 | 第41-42页 |
4.2.2 朴素贝叶斯在线垃圾邮件分类器 | 第42-43页 |
4.3 基于逻辑回归模型的垃圾邮件过滤 | 第43-46页 |
4.3.1 逻辑回归模型 | 第43页 |
4.3.2 训练方法的改进 | 第43-44页 |
4.3.3 逻辑回归模型在线过滤模式 | 第44-45页 |
4.3.4 逻辑回归模型在线垃圾邮件过滤 | 第45-46页 |
4.4 基于松弛在线 SVM 的垃圾邮件过滤 | 第46-49页 |
4.4.1 垃圾邮件过滤和在线 SVM | 第46-47页 |
4.4.2 改进的 SVM 算法 | 第47-49页 |
4.5 系统实现与结果分析 | 第49-52页 |
4.5.1 采用的数据集 | 第49-50页 |
4.5.2 测试环境 | 第50页 |
4.5.3 参数选择 | 第50页 |
4.5.4 系统实现 | 第50-52页 |
4.5.5 实验结果与分析 | 第52页 |
4.6 本章小结 | 第52-53页 |
第5章 面向判别模型的主动学习 | 第53-61页 |
5.1 相关问题概述 | 第53-55页 |
5.1.1 基于池的主动学习 | 第54-55页 |
5.1.2 在线主动学习 | 第55页 |
5.2 引进的在线主动学习方法 | 第55-58页 |
5.2.1 b-Sampling 方法 | 第56-57页 |
5.2.2 Train On/Near Error 采样法 | 第57-58页 |
5.3 系统实现和分析 | 第58-60页 |
5.3.1 逻辑回归模型实验 | 第58-59页 |
5.3.2 在线松弛支持向量机模型试验 | 第59-60页 |
5.4 本章小结 | 第60-61页 |
结论 | 第61-62页 |
参考文献 | 第62-66页 |
攻读硕士学位期间所发表的学术论文 | 第66-67页 |
致谢 | 第67页 |