基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究

摘要	第1-4页
ABSTRACT	第4-7页
第一章引言	第7-14页
·研究背景和意义	第7-8页
·垃圾邮件的定义	第7-8页
·垃圾邮件的现状	第8页
·垃圾邮件的危害	第8页
·国内外研究现状	第8-12页
·基于 IP 地址的过滤方法	第9-10页
·基于规则的过滤方法	第10页
·基于内容的过滤技术	第10-11页
·特征提取方法	第11-12页
·本文的主要研究内容	第12-13页
·本文的章节安排	第13-14页
第二章垃圾邮件过滤系统预处理	第14-23页
·邮件的组成结构以及工作原理	第14-17页
·邮件的基本结构	第14页
·邮件的工作原理	第14-17页
·语料库格式标记的去除	第17页
·去停用词和词干化	第17-18页
·中文分词	第18-19页
·字符串匹配分词	第18页
·统计分词	第18-19页
·理解分词	第19页
·特征选择	第19-21页
·信息增益	第19-20页
·期望交叉嫡	第20页
·互信息	第20页
·文档频率	第20页
·χ~2统计	第20-21页
·文本表示	第21-22页
·向量空间模型	第21页
·布尔模型	第21页
·概率模型	第21-22页
·语义模型	第22页
·本章小结	第22-23页
第三章核偏最小二乘特征提取	第23-33页
·偏最小二乘	第23-27页
·偏最小二乘概述	第23-25页
·偏最小二乘的推导过程	第25-27页
·核偏最小二乘	第27-30页
·核方法的概念	第27-28页
·核偏最小二乘	第28-30页
·主成分分析	第30-31页
·核主成分分析	第31-32页
·本章小结	第32-33页
第四章垃圾邮件过滤技术概述	第33-39页
·支持向量机	第33-35页
·K 近邻算法	第35-36页
·最小二乘分类器	第36页
·决策树算法	第36-37页
·贝叶斯算法	第37-38页
·本章小结	第38-39页
第五章实验测试和结果分析	第39-52页
·实验数据和预处理	第39-41页
·Spam Assassin 语料库的预处理	第40页
·TREC 2006 语料库预处理	第40-41页
·评价方法	第41-42页
·实验结果和分析	第42-51页
·本章小结	第51-52页
第六章总结和展望	第52-53页
·主要工作回顾	第52页
·本课题今后需进一步研究的地方	第52-53页
参考文献	第53-56页
个人简历在读期间发表的学术论文	第56-57页
致谢	第57页