基于内容挖掘的垃圾邮件过滤技术

第1章引言	第1-13页
·研究的意义	第10页
·国内外的研究现状	第10-11页
·本课题研究的主要内容	第11-13页
·邮件的采集与预处理	第11页
·文本分词	第11页
·特征选取	第11-12页
·贝叶斯分类器	第12-13页
第2章总体设计	第13-15页
·功能模块	第13页
·开发平台及开发语言的选择	第13-14页
·采用的开发平台	第13-14页
·采用的开发语言	第14页
·本课题的创新点	第14-15页
第3章邮件采集与预处理	第15-33页
·Email系统工作原理	第15-17页
·JavaMail API	第17-22页
·JavaMail API简介	第17页
·JavaMail API所涉及的相关协议	第17-18页
·JavaMail核心类结构	第18-22页
·使用 JavaMail API实现邮件收发及内容采集	第22-26页
·发送邮件	第22-23页
·接收邮件	第23-24页
·邮件内容采集	第24-25页
·邮件中 HTML内容的显示处理	第25-26页
·邮件预处理	第26-33页
·在邮件中搜索短语	第26-27页
·HTML标记处理	第27-33页
·超文本标记语言(HTML)	第27-28页
·HTML中的重要标记	第28页
·HTML解析	第28-31页
·邮件预处理的实现	第31-33页
第4章中文分词的实现及中文词典	第33-40页
·中文分词概述	第33-34页
·中文分词方法	第34-37页
·基于字典、词库匹配的分词方法(机械分词法)	第34-36页
·正向最大匹配法(MM)	第34-36页
·基于词的频度统计的分词方法	第36页
·基于知识理解的分词方法	第36-37页
·本课题中分词采用的方法	第37页
·中文词典及其存储结构	第37-38页
·中文切分	第38-40页
第5章各特征选取算法比较及本课题采取的选取算法	第40-47页
·特征选取算法	第41-44页
·文档频率	第41页
·信息增益	第41页
·互信息	第41-42页
·term的某种熵	第42页
·相对熵	第42页
·词条强度法	第42-43页
·开放拟合检验(CHI)	第43-44页
·各特征选取算法的比较	第44-45页
·本课题提出的特征选取算法	第45-46页
·改进后的互信息方法与其他特征选取算法的比较	第46-47页
第6章各邮件过滤方法的比较与 NB分类器的实现	第47-65页
·基于规则的方法	第47-49页
·Ripper	第48页
·决策树方法(Decision Tree)	第48页
·Boosting方法	第48-49页
·Rough Set方法	第49页
·基于统计的方法	第49-52页
·kNN方法	第49页
·SVM	第49-50页
·Rocchio方法	第50页
·Winnow方法	第50-51页
·Bayes方法	第51-52页
·贝叶斯方法与文本分类	第52页
·Naive贝叶斯分类器	第52-55页
·Naive贝叶斯方法	第52-53页
·概率估计	第53-54页
·贝叶斯分类器	第54-55页
·贝叶斯分类器的实现	第55-65页
第7章结论评价及展望	第65-73页
·系统总体结构图	第65-66页
·系统各模块运行界面	第66-69页
·系统实验结果的质量评价体系	第69-71页
·邮件分类实验及其实验结果讨论	第71页
·进一步研究的展望	第71-73页
参考文献	第73-76页
致谢	第76-77页
攻读硕士学位期间发表论文情况	第77页