带噪声的文本聚类及其在反垃圾邮件中的应用

摘要	第1-5页
ABSTRACT	第5-7页
目录	第7-10页
CONTENTS	第10-13页
第一章绪论	第13-19页
·本文选题背景及研究意义	第13-15页
·文本聚类需要解决的几个问题	第15-17页
·文本的表示	第15-16页
·特征降维	第16页
·文本相似度计算	第16-17页
·聚类算法的选择	第17页
·本文的主要内容及创新点	第17-19页
第二章文本聚类算法及相关问题	第19-31页
·相似度的定义	第19-20页
·中文文本相似度的研究现状	第20-21页
·中文与西文的区别	第20页
·文本相似度研究方法	第20-21页
·中文相似度计算方法	第21-24页
·向量空间模型	第21-22页
·隐性语义索引	第22-23页
·基于汉明距离的文本相似度	第23-24页
·基于语义理解的相似度	第24页
·主要的聚类算法	第24-26页
·划分方法	第24-25页
·层次方法	第25页
·基于密度的方法	第25-26页
·基于网格的方法	第26页
·基于模型的方法	第26页
·聚类方法的研究进展	第26-27页
·聚类质量的评价	第27-30页
·纯度	第27页
·熵	第27-28页
·归一化信息	第28页
·特征测量	第28-29页
·平均准确率	第29-30页
·本章小结	第30-31页
第三章基于Needleman-Wunsch的聚类算法	第31-38页
·序列比对	第31-32页
·整体比对	第32页
·局部比对	第32页
·Needleman-Wunsch算法	第32-34页
·图解表示	第33-34页
·形式化描述	第34页
·文档相似度计算	第34-35页
·基于Needleman-Wunsch的聚类算法	第35-36页
·算法流程图	第36页
·算法分析	第36-37页
·本章小结	第37-38页
第四章 Needleman-Wunsch聚类在垃圾邮件归类中的应用	第38-43页
·垃圾邮件的特点	第38页
·数据集描述	第38-39页
·对比方法介绍	第39-41页
·传统的向量空间模型	第39-40页
·基于《知网》的聚类算法	第40页
·基于《知网》的Needleman-Wunsch算法	第40-41页
·参数设置	第41页
·实验结果及分析	第41-42页
·本章小结	第42-43页
第五章结合Needleman-Wunsch聚类算法的反垃圾邮件系统的设计	第43-47页
·电子邮件交换原理	第43-44页
·黑白名单	第44页
·黑名单	第44页
·白名单	第44页
·基于内容的过滤技术	第44-45页
·系统总框架	第45-46页
·本章小结	第46-47页
结论	第47-48页
参考文献	第48-52页
攻读学位期间发表的论文	第52-54页
致谢	第54页