基于语义分析的垃圾页面检测算法研究

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-16页
·背景知识与意义	第8-12页
·搜索引擎	第8-9页
·垃圾网页的定义和分类	第9-10页
·垃圾网页的危害	第10-12页
·搜索引擎作弊的特点	第12页
·国内外研究现状	第12-14页
·研究动机	第14-15页
·研究内容	第15页
·文章结构	第15-16页
2 相关工作	第16-31页
·搜索引擎基本原理	第16-18页
·搜索引擎工作原理	第16-18页
·网络拓扑图	第18页
·搜索结果排序常用的算法	第18-23页
·TF-IDF	第19-20页
·向量空间模型	第20页
·PageRank算法	第20-22页
·HITS算法	第22-23页
·搜索引擎作弊方法分类	第23-26页
·基于链接结构的作弊方法	第23-25页
·基于内容的作弊方法	第25页
·页面隐藏作弊方法	第25-26页
·其他的常见的作弊方法	第26页
·反搜索引擎作弊算法总结	第26-31页
·NLP方法	第27页
·统计法	第27页
·机器学习方法	第27页
·TrustRank	第27页
·Truncated PageRank	第27-28页
·SpamRank	第28-29页
·Anti-TrustRank	第29页
·Spam Mass Estimation	第29-31页
3 基于语义分析的垃圾网页检测系统	第31-46页
·系统的检测框架	第31页
·系统的工作流程	第31页
·基于语义分析的特征提取	第31-40页
·网页长度	第32-33页
·网页标题长度	第33-34页
·单词平均长度	第34-35页
·锚文本的数量	第35-36页
·可视文本的比例	第36-37页
·压缩率	第37-38页
·全球流行词的比例	第38-40页
·停用词使用率	第40页
·词类信息分析	第40页
·分类器	第40-46页
·不平衡数据集	第42-43页
·Weka数据格式分析和C4.5决策树	第43-46页
4 系统实验与测试	第46-52页
·实验测试环境	第46页
·实验数据集	第46-47页
·分类器性能评价标准	第47-48页
·C4.5分类器实验结果	第48页
·多分类器系统构造	第48-52页
·Bagging方法	第49-50页
·Boosting方法	第50-52页
结论	第52-53页
参考文献	第53-55页
致谢	第55-56页