基于视觉信息的Deep Web信息自动抽取技术的研究

摘要	第6-8页
Abstract	第8-9页
1 引言	第12-19页
1.1 研究背景和意义	第12页
1.2 Web 信息抽取技术的发展	第12-16页
1.2.1 概述	第12-15页
1.2.2 面临的问题	第15-16页
1.3 本文研究内容及创新点	第16-17页
1.4 本论文的组织	第17-19页
2 决策树分类算法	第19-26页
2.1 决策树简介	第19-24页
2.1.1 决策树的学习算法	第20-22页
2.1.2 问题	第22-24页
2.2 决策树的评估	第24页
2.3 WEKA 工具描述	第24-25页
2.4 小结	第25-26页
3 机器学习与规则融合的列表页面抽取	第26-45页
3.1 网页的视觉特征	第27-28页
3.2 Deep Web 页面的视觉化表示	第28-32页
3.3 页面分割算法 VIPS 的概述与应用	第32-35页
3.3.1 VIPS 分割算法	第32-34页
3.3.2 DOM4J 解析 xml 字符串	第34-35页
3.4 数据区域的自动定位	第35-40页
3.4.1 数据区域的视觉特征	第35-36页
3.4.2 机器学习数据区域的判定规则	第36-38页
3.4.3 手工编写规则完成区域节点的筛选	第38-40页
3.5 数据项的对齐并输出	第40-43页
3.5.1 视觉匹配算法	第41页
3.5.2 数据项对齐算法	第41-43页
3.5.3 数据项的对齐示例	第43页
3.6 小结	第43-45页
4 列表页面自动抽取系统	第45-53页
4.1 系统简介	第45-52页
4.1.1 实验训练样例的获取	第45-46页
4.1.2 训练集的优化	第46-47页
4.1.3 训练样例的获取	第47-48页
4.1.4 列表页面抽取及过滤	第48-50页
4.1.5 数据项对齐实验结果	第50-51页
4.1.6 分页数据的自动连续抽取	第51-52页
4.2 小结	第52-53页
5 总结与展望	第53-54页
5.1 总结	第53页
5.2 展望未来的工作	第53-54页
参考文献	第54-57页
致谢	第57-58页
个人简历	第58页
发表的论文	第58页
科研成果	第58-59页