伪装型垃圾网页检测技术的研究与实现

摘要	第6-7页
Abstract	第7页
第1章绪论	第10-16页
1.1 研究背景和意义	第10-11页
1.2 国内外研究现状	第11-14页
1.2.1 伪装型垃圾网页检测的研究现状	第11-12页
1.2.2 文本相似性度量研究现状	第12-14页
1.3 研究目标和研究内容	第14页
1.4 论文的结构安排	第14-15页
1.5 本章小结	第15-16页
第2章伪装型垃圾网页检测关键技术研究	第16-27页
2.1 伪装型垃圾网页欺诈介绍	第16-19页
2.1.1 欺诈原理	第16-17页
2.1.2 作弊方式	第17-18页
2.1.3 产生原因	第18-19页
2.2 网页文本相似性度量研究	第19-21页
2.2.1 基于向量空间模型的TF-IDF方法	第19-20页
2.2.2 基于语义理解的相似度计算方法	第20页
2.2.3 隐性语义索引	第20-21页
2.2.4 基于主题模型的相似度计算方法	第21页
2.3 伪装型垃圾网页检测技术研究	第21-24页
2.3.1 基于统计的Cloaking检测方法	第21-23页
2.3.2 基于语义的Cloaking检测方法	第23-24页
2.4 系统技术基础	第24-26页
2.4.1 Jsoup	第24-25页
2.4.2 DOM	第25页
2.4.3 HtmlUnit	第25-26页
2.4.4 MySQL	第26页
2.5 本章小结	第26-27页
第3章伪装型垃圾网页检测系统设计	第27-41页
3.1 系统架构设计	第27-28页
3.2 基于向量空间模型的网页文本相似性度量设计	第28-29页
3.2.1 系统组成	第28页
3.2.2 工作流程	第28-29页
3.3 基于LDA主题模型的网页文本相似性度量设计	第29-33页
3.3.1 基于LDA主题模型的文本建模	第29-32页
3.3.2 LDA主题模型下计算网页文本相似度	第32-33页
3.3.3 基于LDA主题模型的相似度计算流程	第33页
3.4 伪装型垃圾网页分类检测设计	第33-35页
3.4.1 网页的特征信息选取	第33-34页
3.4.2 随机森林分类设计	第34-35页
3.5 系统的数据库设计	第35-40页
3.6 本章小结	第40-41页
第4章伪装型垃圾网页检测系统实现	第41-50页
4.1 数据样本集的构建	第41-42页
4.1.1 模拟普通用户和搜索引擎	第41页
4.1.2 解析搜索结果页面获取网页信息	第41-42页
4.2 基于向量空间模型的网页文本相似性度量实现	第42-43页
4.2.1 中文自动分词的实现	第42页
4.2.2 文本和特征向量的表示	第42-43页
4.2.3 文本相似度的计算	第43页
4.3 基于LDA主题模型的网页文本相似性度量实现	第43-45页
4.3.1 参数估计的实现	第43-44页
4.3.2 相似度计算的实现	第44-45页
4.4 伪装型垃圾网页分类检测实现	第45-49页
4.4.1 特征提取的实现	第45-47页
4.4.2 随机森林分类检测的实现	第47-49页
4.5 本章小结	第49-50页
第5章实验及结果分析	第50-57页
5.1 实验数据集介绍	第50-51页
5.2 实验环境介绍	第51页
5.3 评测指标介绍	第51-52页
5.4 分组实验说明	第52页
5.5 实验结果分析	第52-56页
5.5.1 第一组实验结果及分析	第52-53页
5.5.2 第二组实验结果及分析	第53-56页
5.6 本章小结	第56-57页
第6章总结与展望	第57-59页
6.1 总结	第57页
6.2 展望	第57-59页
致谢	第59-60页
参考文献	第60-64页
攻读硕士学位期间发表的论文	第64页