摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
1 绪论 | 第8-12页 |
1.1 研究背景与课题意义 | 第8-10页 |
1.2 主要研究内容 | 第10-11页 |
1.3 论文组织结构 | 第11-12页 |
2 垃圾邮件拦截基础 | 第12-23页 |
2.1 引言 | 第12页 |
2.2 垃圾邮件过滤和拦截的主要难点 | 第12-14页 |
2.3 垃圾邮件过滤和拦截的方法概述 | 第14-22页 |
2.3.1 基于协议的垃圾邮件过滤 | 第15-18页 |
2.3.2 基于内容的垃圾邮件过滤 | 第18-22页 |
2.4 本章小结 | 第22-23页 |
3 基于语义的文本分类方法 | 第23-32页 |
3.1 引言 | 第23-24页 |
3.2 理论基础 | 第24-27页 |
3.2.1 基于TF·IDF的文本向量表示方法 | 第25-26页 |
3.2.2 潜在语义分析方法 | 第26-27页 |
3.2.3 本体语义技术 | 第27页 |
3.3 研究现状 | 第27-29页 |
3.4 商业化的垃圾邮件拦截系统 | 第29-30页 |
3.5 邮件安全与隐私 | 第30-32页 |
3.5.1 网络中的隐私问题 | 第30页 |
3.5.2 网络隐私的保护模式 | 第30页 |
3.5.3 国外的反垃圾邮件立法 | 第30-31页 |
3.5.4 国内的反垃圾邮件立法 | 第31-32页 |
4 基于语义的垃圾邮件识别方法 | 第32-44页 |
4.1 引言 | 第32页 |
4.2 从文本中抽取语义信息的实验过程 | 第32-38页 |
4.2.1 自然语言处理工具GATE | 第34页 |
4.2.2 中文分词系统ICTCLAS | 第34页 |
4.2.3 添加第一层注释:词性注释 | 第34-35页 |
4.2.4 添加第二层注释:语义词库 | 第35页 |
4.2.5 添加第三次注释:命名实体 | 第35页 |
4.2.6 添加第四层注释:实体之间的关系 | 第35-37页 |
4.2.7 添加第五层注释:邮件正文格式 | 第37页 |
4.2.8 特征选择 | 第37页 |
4.2.9 基于语义特征的文本表示结果 | 第37-38页 |
4.3 文本分类的过程和方法 | 第38-39页 |
4.3.1 选取决策树作为文本分类方法 | 第38页 |
4.3.2 决策树的构建以及分类器的训练 | 第38-39页 |
4.4 实验结果 | 第39-43页 |
4.4.1 实验数据分析 | 第39-42页 |
4.4.2 基于语义的与基于字词的垃圾邮件分类结果的比较 | 第42-43页 |
4.5 本章小结 | 第43-44页 |
5 总结与展望 | 第44-45页 |
致谢 | 第45-46页 |
参考文献 | 第46-49页 |