基于视觉信息和DOM树的Deep Web数据自动抽取

摘要	第6-8页
Abstract	第8-9页
1 引言	第12-17页
1.1 研究背景和意义	第12-13页
1.2 国内外研究现状	第13-15页
1.3 本文主要研究问题	第15页
1.4 本文章节安排	第15-17页
2 相关技术介绍	第17-24页
2.1 HTML 和 DOM	第17-18页
2.2 解析 HTML 的工具	第18-21页
2.2.1 HtmlParser	第18-19页
2.2.2 WebBrowser	第19-21页
2.3 手工抽取方法	第21页
2.4 网页的视觉特征	第21-22页
2.5 小结	第22-24页
3 基于视觉信息和 DOM 树的数据抽取	第24-45页
3.1 问题描述	第24-26页
3.2 定位数据区域	第26-31页
3.2.1 决策树算法	第26-28页
3.2.2 数据准备	第28-29页
3.2.3 模型训练与分类	第29-31页
3.3 抽取数据记录	第31-36页
3.3.1 数据记录的 DOM 树和视觉信息	第31-33页
3.3.2 数据记录的定位算法	第33-34页
3.3.3 xpath 简介	第34-35页
3.3.4 数据记录的去噪	第35-36页
3.4 对齐数据项	第36-41页
3.4.1 数据项的粒度	第37-39页
3.4.2 数据项对齐算法	第39-41页
3.5 实验结果与分析	第41-44页
3.5.1 实验数据	第41-42页
3.5.2 数据记录的抽取实验	第42页
3.5.3 数据项的对齐实验	第42-43页
3.5.4 数据抽取效率的实验	第43-44页
3.6 小结	第44-45页
4 系统集成及其它问题	第45-56页
4.1 系统集成	第45-51页
4.1.1 模板	第45-49页
4.1.1.1 数据区域的模板	第46-47页
4.1.1.2 数据记录的模板	第47-48页
4.1.1.3 对齐数据项的模板	第48-49页
4.1.2 自动翻页	第49页
4.1.3 系统流程	第49-51页
4.2 系统设计中的其它问题	第51-55页
4.2.1 AJAX 异步数据的抽取	第51-52页
4.2.2 请求无响应	第52-53页
4.2.3 提高抽取速度	第53-55页
4.3 小结	第55-56页
5 总结和展望	第56-58页
5.1 总结	第56页
5.2 展望	第56-58页
参考文献	第58-60页
致谢	第60-61页
个人简历	第61页
学术论文	第61页
研究项目	第61-62页