摘要 | 第1-5页 |
Abstract | 第5-9页 |
第一章 前言 | 第9-12页 |
·研究背景 | 第9页 |
·研究意义 | 第9-10页 |
·垃圾邮件的定义 | 第9-10页 |
·垃圾邮件的危害 | 第10页 |
·本文研究的内容 | 第10-12页 |
第二章 垃圾邮件过滤研究 | 第12-24页 |
·电子邮件的报文格式 | 第12-14页 |
·文本式邮件报文 | 第12-13页 |
·MIME格式的邮件报文 | 第13-14页 |
·垃圾邮件的特点以及类型分析 | 第14-16页 |
·垃圾邮件泛滥的原因 | 第16-17页 |
·技术因素 | 第16页 |
·非技术因素 | 第16-17页 |
·基于信件源的垃圾邮件阻断及过滤技术 | 第17-20页 |
·实时黑名单技术(Real-time Black List,RBL) | 第17-18页 |
·SPF (Sender Policy Framework) | 第18页 |
·Domain Keys | 第18-19页 |
·Challenge-Response | 第19页 |
·SMTP交互行为的检测 | 第19页 |
·DNS反向验证技术 | 第19-20页 |
·基于内容的垃圾邮件过滤技术 | 第20-23页 |
·基于规则的方法 | 第20-21页 |
·基于统计的方法 | 第21-23页 |
·其它方法 | 第23-24页 |
第三章 公用垃圾邮件语料及评价体系 | 第24-28页 |
·Ling-Spam系列语料 | 第24-25页 |
·PU系列语料 | 第25页 |
·SpamAssassin语料 | 第25-26页 |
·2005 TREC公共语料集 | 第26-27页 |
·评价体系 | 第27-28页 |
第四章 贝叶斯垃圾邮件过滤模型 | 第28-33页 |
·Na(?)ve Bayes过滤模型(NBF)概述 | 第28-29页 |
·Na(?)ve Bayes过滤模型中的关键问题 | 第29-33页 |
·邮件特征词的选取 | 第30页 |
·Pr[(?)|c]的估计模型 | 第30-33页 |
第五章 邮件特征词选取 | 第33-36页 |
·文档频度DF(Document Frequency) | 第33页 |
·信息增益lG(Information Gain) | 第33-34页 |
·期望交叉熵ECE(Expected Cross Entropy) | 第34页 |
·互信息MI(Mutual Information) | 第34页 |
·文本证据权WET(Weight of Evidence for Text) | 第34页 |
·几率比OR(Odds Ratio) | 第34-35页 |
·x~2统计量CHI(x~2 Statistic) | 第35-36页 |
第六章 改进的贝叶斯邮件过滤模型 | 第36-39页 |
·特征选取优化 | 第36-37页 |
·特征词加权 | 第37-39页 |
第七章 基于直线几何分割的贝叶斯邮件过滤模型 | 第39-42页 |
·基于最小风险的NBF模型 | 第39页 |
·基于直线几何分割的NBF模型(Na(?)ve Bayes Filtering Model based on Line Geometry Division,LGDNBF) | 第39-42页 |
第八章 实验及分析 | 第42-48页 |
·实验方法 | 第42页 |
·实验内容及分析 | 第42-48页 |
第九章 结束语 | 第48-49页 |
参考文献 | 第49-53页 |
致谢 | 第53-54页 |
在校期间的研究成果及发表的学术论文 | 第54页 |