面向网页内容无障碍访问的导航栏抽取与正文抽取

摘要	第5-6页
Abstract	第6页
第1章绪论	第12-19页
1.1 课题背景	第12-17页
1.1.1 网站无障碍标准	第12-13页
1.1.2 网页导航栏抽取算法发展	第13-15页
1.1.3 网页正文抽取算法发展	第15-17页
1.2 本文的结构和工作	第17-18页
1.2.1 本文工作	第17页
1.2.2 本文结构	第17-18页
1.3 本章小结	第18-19页
第2章理论基础和相关技术	第19-36页
2.1 WCAG 2.0指南	第19-20页
2.2 HTML与DOM树	第20-22页
2.2.1 HTML	第20-21页
2.2.2 DOM树	第21-22页
2.3 网页内容提取	第22-31页
2.3.1 基于网站Style Tree的网页模板抽取算法	第24-26页
2.3.2 基于网页DOM树距离度量的模板抽取方法	第26-27页
2.3.3 基于文本比例的正文抽取方法	第27-28页
2.3.4 基于标记窗的正文抽取方法	第28-30页
2.3.5 基于最大子串分割的正文抽取算法	第30-31页
2.4 聚类算法	第31-34页
2.4.1 层次聚类	第31-33页
2.4.2 划分聚类	第33-34页
2.5 本章小结	第34-36页
第3章基于链接文字比例与URL编辑距离的网页导航栏抽取	第36-47页
3.1 问题描述	第36-38页
3.2 算法原理	第38-39页
3.3 算法设计	第39-46页
3.3.1 链接文字比例	第39-40页
3.3.2 邻近行编辑距离	第40-44页
3.3.3 编辑距离变化率	第44-45页
3.3.4 聚类抽取导航栏	第45-46页
3.4 本章小结	第46-47页
第4章基于标签文字比例与高斯平滑的网页正文抽取	第47-56页
4.1 问题描述	第47-48页
4.2 算法原理	第48-49页
4.3 算法设计	第49-55页
4.3.1 HTML标签文字比例	第49-53页
4.3.2 标签文字比例变化率	第53-54页
4.3.3 阈值以及聚类抽取网页正文	第54-55页
4.4 本章小结	第55-56页
第5章实验及结果分析	第56-66页
5.1 实验环境和实验数据集准备	第56页
5.1.1 实验环境	第56页
5.1.2 实验数据集准备	第56页
5.2 基于链接文字比例与URL编辑距离的网页导航栏抽取	第56-61页
5.2.1 实验数据集准备	第56-57页
5.2.2 实验评价标准	第57-58页
5.2.3 实验结果与分析	第58-61页
5.3 基于标签文字比例的网页正文抽取	第61-64页
5.3.1 实验数据集准备	第61页
5.3.2 实验评价标准	第61页
5.3.3 实验结果与分析	第61-64页
5.4 本章小结	第64-66页
第6章总结与展望	第66-68页
6.1 总结	第66-67页
6.2 展望	第67-68页
参考文献	第68-72页
致谢	第72页