半结构化Web信息抽取技术及其应用研究

东南大学学位论文独创性声明	第1页
东南大学学位论文使用授权声明	第2-3页
摘要	第3-4页
ABSTRACT	第4-5页
目录	第5-8页
论文插图目录	第8-9页
第 1 章绪言	第9-11页
·研究背景	第9页
·研究现状	第9页
·本文研究内容	第9-10页
·本文组织结构	第10-11页
第 2 章相关技术	第11-17页
·HTTP技术	第11页
·HTTP协议的运作方式	第11页
·HTTP HEADER	第11页
·HTML语言局限性	第11-12页
·HTML与WEB网页	第11-12页
·XML相关技术	第12-17页
·XML简介	第12-13页
·XML的结构特征和模式	第13-16页
·XML技术在本文中的应用	第16-17页
第 3 章半结构化WEB信息抽取	第17-23页
·半结构化数据	第17-18页
·半结构化数据出现的原因	第17页
·半结构化数据的特点	第17页
·现有的半结构化Web页面分类	第17-18页
·信息抽取技术	第18-22页
·信息抽取定义	第19页
·Web信息抽取特点	第19页
·Web信息抽取分类	第19-22页
·本文的信息抽取技术特点	第22-23页
第 4 章 WEB信息抽取过程的设计与实现	第23-37页
·Web信息抽取难点	第23-25页
·原理方法概述	第25页
·网页获取	第25-30页
·目标网页集合(URLs)的指定方式(POST/GET)	第26-28页
·网站连接登录问题	第28-29页
·数据获取	第29-30页
·抽取规则定义	第30-33页
·网页模式提取	第30页
·目的表模式的建立	第30-31页
·Web信息抽取过程描述文件	第31-33页
·数据抽取实施	第33-37页
·获取网页数据	第33页
·HTML到XML的转换	第33页
·目的表结构创建	第33-34页
·映射规则执行	第34页
·抽取规则执行算法	第34-36页
·小结	第36-37页
第 5 章 WEB信息抽取技术与ETL系统的集成	第37-45页
·ETL概述	第37-39页
·ETL体系结构	第37页
·ETL的实现	第37-39页
·ETL脚本	第39-44页
·脚本简介	第39-41页
·脚本的描述能力	第41-43页
·脚本的实施	第43-44页
·小结	第44-45页
第 6 章结论与展望	第45-47页
·论文总结	第45页
·展望	第45-47页
致谢	第47-48页
参考文献	第48-50页