垃圾博客检测及相关技术的研究

摘要	第4-5页
Abstract	第5-6页
1 绪论	第9-13页
1.1 研究背景	第9-10页
1.2 研究历程和现状	第10-11页
1.3 研究垃圾博客的意义	第11页
1.4 论文的组织结构	第11-13页
2 文本分类以及相关经典算法	第13-22页
2.1 文本分类的定义	第13页
2.2 文本分类的方法	第13-16页
2.2.1 K最近邻算法(k-Nearest Neighbor,KNN)	第13页
2.2.2 支持向量机	第13-14页
2.2.3 朴素贝叶斯	第14-15页
2.2.4 Adaboost	第15-16页
2.3 文本分类技术	第16-18页
2.3.1 数据预处理技术	第16-17页
2.3.2 文本相似度度量	第17-18页
2.4 特征相关性分析	第18-19页
2.5 向量空间模型	第19-22页
2.5.1 向量空间模型及相关概念	第19-20页
2.5.2 文本特征权重	第20-22页
3 基于组合特征的动态垃圾博客的分类及特征分析	第22-35页
3.1 垃圾博客的分类	第22-23页
3.2 垃圾博客的特征分析	第23-24页
3.2.1 从属特征	第23页
3.2.2 内容源特征	第23-24页
3.2.3 创建过程特征	第24页
3.3 垃圾博客的自相似特征	第24-26页
3.3.1 时间序列自相似特征特征	第25页
3.3.2 内容结构特征	第25-26页
3.4 WFD算法	第26页
3.5 CFDSD算法	第26-32页
3.5.1 作者属性	第26-27页
3.5.2 自相似特征的阈值	第27-29页
3.5.3 贝叶斯词频分类	第29-30页
3.5.4 组合特征的贝叶斯分类算法	第30-32页
3.6 基于组合特征垃圾博客过滤实验	第32-34页
3.6.1 实验数据选取及运行环境	第32页
3.6.2 评估标准	第32页
3.6.3 实验结果分析	第32-34页
3.7 本章小结	第34-35页
4 基于特征关联树的垃圾博客检测算法	第35-44页
4.1 博客的特征分析	第35-37页
4.1.1 URL的黑、白名单	第35页
4.1.2 关键词短语	第35-36页
4.1.3 链接锚文本	第36页
4.1.4 期望交叉熵(Expected Cross Entropy,ECE)	第36-37页
4.2 构建关联树	第37-41页
4.3 特征关联树实验	第41-43页
4.3.1 实验室数据选取以及运行环境	第41页
4.3.2 实验结果分析	第41-43页
4.4 本章小结	第43-44页
5 结论与未来研究方向	第44-46页
5.1 本文工作总结	第44页
5.2 未来研究方向	第44-46页
参考文献	第46-49页
攻读硕士学位期间发表学术论文情况	第49-50页
致谢	第50页