首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于语义分析的垃圾页面检测算法研究

摘要第1-5页
Abstract第5-8页
1 绪论第8-16页
   ·背景知识与意义第8-12页
     ·搜索引擎第8-9页
     ·垃圾网页的定义和分类第9-10页
     ·垃圾网页的危害第10-12页
     ·搜索引擎作弊的特点第12页
   ·国内外研究现状第12-14页
   ·研究动机第14-15页
   ·研究内容第15页
   ·文章结构第15-16页
2 相关工作第16-31页
   ·搜索引擎基本原理第16-18页
     ·搜索引擎工作原理第16-18页
     ·网络拓扑图第18页
   ·搜索结果排序常用的算法第18-23页
     ·TF-IDF第19-20页
     ·向量空间模型第20页
     ·PageRank算法第20-22页
     ·HITS算法第22-23页
   ·搜索引擎作弊方法分类第23-26页
     ·基于链接结构的作弊方法第23-25页
     ·基于内容的作弊方法第25页
     ·页面隐藏作弊方法第25-26页
     ·其他的常见的作弊方法第26页
   ·反搜索引擎作弊算法总结第26-31页
     ·NLP方法第27页
     ·统计法第27页
     ·机器学习方法第27页
     ·TrustRank第27页
     ·Truncated PageRank第27-28页
     ·SpamRank第28-29页
     ·Anti-TrustRank第29页
     ·Spam Mass Estimation第29-31页
3 基于语义分析的垃圾网页检测系统第31-46页
   ·系统的检测框架第31页
   ·系统的工作流程第31页
   ·基于语义分析的特征提取第31-40页
     ·网页长度第32-33页
     ·网页标题长度第33-34页
     ·单词平均长度第34-35页
     ·锚文本的数量第35-36页
     ·可视文本的比例第36-37页
     ·压缩率第37-38页
     ·全球流行词的比例第38-40页
     ·停用词使用率第40页
     ·词类信息分析第40页
   ·分类器第40-46页
     ·不平衡数据集第42-43页
     ·Weka数据格式分析和C4.5决策树第43-46页
4 系统实验与测试第46-52页
   ·实验测试环境第46页
   ·实验数据集第46-47页
   ·分类器性能评价标准第47-48页
   ·C4.5分类器实验结果第48页
   ·多分类器系统构造第48-52页
     ·Bagging方法第49-50页
     ·Boosting方法第50-52页
结论第52-53页
参考文献第53-55页
致谢第55-56页

论文共56页,点击 下载论文
上一篇:井控培训教学管理考试系统设计与实现
下一篇:基于J2ME的手机支付研究与设计