垃圾邮件检测与过滤关键技术研究
摘要 | 第1-6页 |
Abstract | 第6-11页 |
第一章 绪论 | 第11-27页 |
·研究背景 | 第11页 |
·垃圾信息定义及发展 | 第11-16页 |
·垃圾邮件 | 第12页 |
·垃圾邮件定义 | 第12-13页 |
·垃圾邮件产生原因 | 第13页 |
·垃圾邮件种类 | 第13-14页 |
·垃圾邮件伪装技术 | 第14-15页 |
·垃圾邮件危害 | 第15-16页 |
·垃圾邮件发展现状及趋势 | 第16页 |
·国内外研究现状 | 第16-21页 |
·法律法规 | 第17页 |
·协议的改进 | 第17页 |
·过滤技术 | 第17-21页 |
·研究目标 | 第21-22页 |
·相似垃圾信息过滤问题 | 第21-22页 |
·垃圾邮件主动学习过滤问题 | 第22页 |
·垃圾邮件特征复原问题 | 第22页 |
·实验数据集及评价指标 | 第22-25页 |
·数据集 | 第22-24页 |
·评价指标 | 第24-25页 |
·主要创新点和内容安排 | 第25-27页 |
第二章 基于指纹向量距离的垃圾邮件检测技术 | 第27-55页 |
·引言 | 第27页 |
·指纹向量距离概念 | 第27-37页 |
·编辑距离 | 第28-30页 |
·编辑距离定义 | 第28-29页 |
·算法说明 | 第29-30页 |
·q元距离 | 第30-32页 |
·q 元距离定义 | 第30-31页 |
·基于q 元距离的相似字符串匹配 | 第31-32页 |
·指纹向量距离 | 第32-37页 |
·Hash 方法 | 第33-34页 |
·Rabin 指纹 | 第34-36页 |
·指纹向量距离 | 第36-37页 |
·指纹向量距离与Q元距离的关系 | 第37-39页 |
·指纹向量距离在垃圾邮件过滤中的有效性 | 第39-47页 |
·垃圾邮件检测过程 | 第40-45页 |
·q 元样本 | 第41-42页 |
·指纹计算 | 第42-44页 |
·指纹匹配 | 第44-45页 |
·其它应用 | 第45-47页 |
·实验及结果分析 | 第47-54页 |
·TREC07 数据集实验 | 第47-50页 |
·SEWM08 数据集实验 | 第50-52页 |
·SDME 2009 数据集实验 | 第52-54页 |
·结论 | 第54-55页 |
第三章 在线垃圾邮件主动学习过滤技术 | 第55-82页 |
·引言 | 第55页 |
·相关技术 | 第55-60页 |
·主动学习查询方式 | 第55-57页 |
·主动学习方法查询策略 | 第57-60页 |
·在线垃圾邮件主动学习过滤方法 | 第60-65页 |
·垃圾邮件过滤过程 | 第60-62页 |
·在线垃圾邮件主动学习过滤模型 | 第62页 |
·信息增益 | 第62-64页 |
·查询次数 | 第64-65页 |
·实验及结果分析 | 第65-80页 |
·TREC 实验 | 第65-71页 |
·SEWM 实验 | 第71-75页 |
·SDME 实验 | 第75-80页 |
·结论 | 第80-82页 |
第四章 基于条件随机域的垃圾邮件特征复原技术 | 第82-100页 |
·引言 | 第82页 |
·标记序列学习 | 第82-88页 |
·标记序列学习 | 第82-83页 |
·最大熵原则 | 第83-85页 |
·常用技术 | 第85-88页 |
·隐马尔可夫模型(HMMs) | 第85-86页 |
·最大熵马尔可夫模型(MEMMs) | 第86-87页 |
·条件随机域(CRF) | 第87-88页 |
·梯度树提升法 | 第88-91页 |
·CRF 基本原理 | 第88-89页 |
·梯度树提升法 | 第89-91页 |
·特征复原模型的建立 | 第91-95页 |
·特征选取 | 第92-95页 |
·特征类型 | 第92-94页 |
·特征选取 | 第94-95页 |
·实验及结果分析 | 第95-99页 |
·结论 | 第99-100页 |
结论与展望 | 第100-102页 |
参考文献 | 第102-116页 |
攻读博士学位期间取得的研究成果 | 第116-118页 |
致谢 | 第118页 |