基于关键词的垃圾网页判别研究

摘要	第4-5页
ABSTRACT	第5页
第1章绪论	第8-18页
1.1 课题来源及研究的目的和意义	第8-10页
1.1.1 课题来源	第8-9页
1.1.2 课题研究的目的和意义	第9-10页
1.2 国内外在该方向的研究现状及分析	第10-15页
1.2.1 垃圾网页概述	第10-12页
1.2.2 网页解析研究现状	第12-13页
1.2.3 垃圾网页过滤研究现状	第13-15页
1.2.4 研究现状分析	第15页
1.3 本文主要研究内容及论文结构	第15-18页
1.3.1 主要内容	第15-16页
1.3.2 论文结构	第16-18页
第2章网页内容解析方法研究	第18-32页
2.1 网页结构分析	第18-20页
2.1.1 页面的结构特点及其表示	第18-20页
2.1.2 基于HTML标签的页面结构分析	第20页
2.2 网页内容提取方法设计	第20-26页
2.2.1 网页内容提取原理	第20-22页
2.2.2 页面结构标准化算法设计	第22-23页
2.2.3 标签树构建算法设计	第23-25页
2.2.4 网页内容提取方法实现	第25-26页
2.3 网页内容文本的切分方法设计	第26-30页
2.3.1 正向定长词语切分方法	第26-27页
2.3.2 词语获取规则	第27-29页
2.3.3 复合词组合算法	第29-30页
2.4 本章小结	第30-32页
第3章垃圾网页判别方法研究	第32-41页
3.1 垃圾网页特征分析	第32-35页
3.1.1 滥发关键词	第32-33页
3.1.2 滥发链接	第33-34页
3.1.3 内容杂乱	第34-35页
3.2 构建判别指标	第35-39页
3.2.1 网页维度指标	第35-37页
3.2.2 文本维度指标	第37-38页
3.2.3 链接维度指标	第38-39页
3.3 统计判别方法	第39-40页
3.3.1 FISHER判别法	第39页
3.3.2 LOGISTIC回归	第39-40页
3.3.3 贝叶斯判别	第40页
3.4 本章小结	第40-41页
第4章数据验证及结果分析	第41-52页
4.1 数据收集	第41-45页
4.1.1 数据源和数据量	第41-42页
4.1.2 数据结构	第42-43页
4.1.3 数据处理	第43-45页
4.2 指标体系判别方法可行性分析	第45-49页
4.2.1 FISHER判别法	第45-47页
4.2.2 LOGISTIC回归	第47-48页
4.2.3 贝叶斯判别	第48-49页
4.3 指标体系判别方法实用性分析	第49-51页
4.3.1 定义判别指标	第49-50页
4.3.2 统计判别结果	第50-51页
4.4 本章小结	第51-52页
结论	第52-54页
参考文献	第54-58页
致谢	第58页