基于语义分析的垃圾页面检测算法研究
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 1 绪论 | 第8-16页 |
| ·背景知识与意义 | 第8-12页 |
| ·搜索引擎 | 第8-9页 |
| ·垃圾网页的定义和分类 | 第9-10页 |
| ·垃圾网页的危害 | 第10-12页 |
| ·搜索引擎作弊的特点 | 第12页 |
| ·国内外研究现状 | 第12-14页 |
| ·研究动机 | 第14-15页 |
| ·研究内容 | 第15页 |
| ·文章结构 | 第15-16页 |
| 2 相关工作 | 第16-31页 |
| ·搜索引擎基本原理 | 第16-18页 |
| ·搜索引擎工作原理 | 第16-18页 |
| ·网络拓扑图 | 第18页 |
| ·搜索结果排序常用的算法 | 第18-23页 |
| ·TF-IDF | 第19-20页 |
| ·向量空间模型 | 第20页 |
| ·PageRank算法 | 第20-22页 |
| ·HITS算法 | 第22-23页 |
| ·搜索引擎作弊方法分类 | 第23-26页 |
| ·基于链接结构的作弊方法 | 第23-25页 |
| ·基于内容的作弊方法 | 第25页 |
| ·页面隐藏作弊方法 | 第25-26页 |
| ·其他的常见的作弊方法 | 第26页 |
| ·反搜索引擎作弊算法总结 | 第26-31页 |
| ·NLP方法 | 第27页 |
| ·统计法 | 第27页 |
| ·机器学习方法 | 第27页 |
| ·TrustRank | 第27页 |
| ·Truncated PageRank | 第27-28页 |
| ·SpamRank | 第28-29页 |
| ·Anti-TrustRank | 第29页 |
| ·Spam Mass Estimation | 第29-31页 |
| 3 基于语义分析的垃圾网页检测系统 | 第31-46页 |
| ·系统的检测框架 | 第31页 |
| ·系统的工作流程 | 第31页 |
| ·基于语义分析的特征提取 | 第31-40页 |
| ·网页长度 | 第32-33页 |
| ·网页标题长度 | 第33-34页 |
| ·单词平均长度 | 第34-35页 |
| ·锚文本的数量 | 第35-36页 |
| ·可视文本的比例 | 第36-37页 |
| ·压缩率 | 第37-38页 |
| ·全球流行词的比例 | 第38-40页 |
| ·停用词使用率 | 第40页 |
| ·词类信息分析 | 第40页 |
| ·分类器 | 第40-46页 |
| ·不平衡数据集 | 第42-43页 |
| ·Weka数据格式分析和C4.5决策树 | 第43-46页 |
| 4 系统实验与测试 | 第46-52页 |
| ·实验测试环境 | 第46页 |
| ·实验数据集 | 第46-47页 |
| ·分类器性能评价标准 | 第47-48页 |
| ·C4.5分类器实验结果 | 第48页 |
| ·多分类器系统构造 | 第48-52页 |
| ·Bagging方法 | 第49-50页 |
| ·Boosting方法 | 第50-52页 |
| 结论 | 第52-53页 |
| 参考文献 | 第53-55页 |
| 致谢 | 第55-56页 |