基于树形结构的网页数据抽取模式研究及应用

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-12页
·选题背景及意义	第8-9页
·国内外研究现状	第9-10页
·论文的主要工作	第10-11页
·论文的组织结构	第11-12页
2 相关概念和技术	第12-22页
·SGML简介	第12-13页
·XML简介	第13-15页
·数据抽取技术	第15-22页
3 Web数据的预处理	第22-36页
·Web文档的规范化处理	第22-29页
·HTML的缺陷	第22-24页
·XML的优势	第24-25页
·利用二叉树进行规范化转换	第25-28页
·与Tidy转换方法的对比	第28-29页
·剔除Web噪音数据	第29-36页
·噪音数据的存在形式	第29-32页
·去除噪音标签及脚本信息	第32-34页
·去除广告、导航栏等噪音数据	第34-36页
4 基于树形结构的网页数据抽取模式研究	第36-46页
·数据信息解析	第37-39页
·生成抽取规则	第39-40页
·DOM树的分割与匹配	第40-45页
·树的匹配算法研究	第40-43页
·树的分割与数据抽取	第43-45页
·XML数据存储	第45-46页
5 数据抽取模式在航运船舶配载系统中的应用	第46-58页
·航运船舶配载系统概述	第46-47页
·航运船舶配载系统中数据抽取应用	第47-52页
·数据抽取度量指标	第48-49页
·数据抽取实验	第49-51页
·与其他抽取方法的比较	第51-52页
·系统抽取数据的映射存储	第52-58页
结论	第58-60页
参考文献	第60-62页
攻读硕士学位期间发表学术论文情况	第62-63页
致谢	第63-64页