首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于树形结构的网页数据抽取模式研究及应用

摘要第1-5页
Abstract第5-8页
1 绪论第8-12页
   ·选题背景及意义第8-9页
   ·国内外研究现状第9-10页
   ·论文的主要工作第10-11页
   ·论文的组织结构第11-12页
2 相关概念和技术第12-22页
   ·SGML简介第12-13页
   ·XML简介第13-15页
   ·数据抽取技术第15-22页
3 Web数据的预处理第22-36页
   ·Web文档的规范化处理第22-29页
     ·HTML的缺陷第22-24页
     ·XML的优势第24-25页
     ·利用二叉树进行规范化转换第25-28页
     ·与Tidy转换方法的对比第28-29页
   ·剔除Web噪音数据第29-36页
     ·噪音数据的存在形式第29-32页
     ·去除噪音标签及脚本信息第32-34页
     ·去除广告、导航栏等噪音数据第34-36页
4 基于树形结构的网页数据抽取模式研究第36-46页
   ·数据信息解析第37-39页
   ·生成抽取规则第39-40页
   ·DOM树的分割与匹配第40-45页
     ·树的匹配算法研究第40-43页
     ·树的分割与数据抽取第43-45页
   ·XML数据存储第45-46页
5 数据抽取模式在航运船舶配载系统中的应用第46-58页
   ·航运船舶配载系统概述第46-47页
   ·航运船舶配载系统中数据抽取应用第47-52页
     ·数据抽取度量指标第48-49页
     ·数据抽取实验第49-51页
     ·与其他抽取方法的比较第51-52页
   ·系统抽取数据的映射存储第52-58页
结论第58-60页
参考文献第60-62页
攻读硕士学位期间发表学术论文情况第62-63页
致谢第63-64页

论文共64页,点击 下载论文
上一篇:光纤光栅盐度传感器
下一篇:跨站脚本漏洞与攻击的客户端检测方法研究