摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-16页 |
1.1 研究背景与意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-13页 |
1.3 论文内容与章节安排 | 第13-16页 |
1.3.1 论文主要工作 | 第13-14页 |
1.3.2 论文组织结构 | 第14-16页 |
第二章 相关知识 | 第16-24页 |
2.1 页面结构表示 | 第16-20页 |
2.1.1 HTML | 第16-18页 |
2.1.2 DOM | 第18-20页 |
2.2 页面结构分析 | 第20-24页 |
第三章 基于视觉信息的页面分块算法 | 第24-36页 |
3.1 VIPS(Vision-based Page Segmentation)算法 | 第24-28页 |
3.2 视觉分块算法实现 | 第28-36页 |
3.2.1 页面视觉块提取算法 | 第29-31页 |
3.2.2 自适应调整阈值过程 | 第31-36页 |
第四章 正文块识别算法 | 第36-45页 |
4.1 页面视觉块特征提取 | 第36-40页 |
4.1.1 内容特征 | 第37页 |
4.1.2 视觉特征 | 第37-39页 |
4.1.3 标签特征 | 第39页 |
4.1.4 相似度特征 | 第39-40页 |
4.2 页面视觉块分类算法 | 第40-45页 |
4.2.1 分类算法 | 第40-42页 |
4.2.2 样本打标系统 | 第42-45页 |
第五章 网页清洗系统实现及实验 | 第45-56页 |
5.1 网页清洗系统设计与实现 | 第45-49页 |
5.2 实验分析 | 第49-53页 |
5.2.1 实验评估 | 第49-51页 |
5.2.2 自适应调整阈值的分块算法分析 | 第51页 |
5.2.3 正文块识别特征选取分析 | 第51-53页 |
5.3 对比实验 | 第53-56页 |
第六章 总结与展望 | 第56-58页 |
6.1 本文工作总结 | 第56页 |
6.2 进一步工作展望 | 第56-58页 |
参考文献 | 第58-62页 |
致谢 | 第62页 |