首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

半结构化Web信息抽取技术及其应用研究

东南大学学位论文独创性声明第1页
东南大学学位论文使用授权声明第2-3页
摘  要第3-4页
ABSTRACT第4-5页
目 录第5-8页
论文插图目录第8-9页
第 1 章 绪言第9-11页
   ·研究背景第9页
   ·研究现状第9页
   ·本文研究内容第9-10页
   ·本文组织结构第10-11页
第 2 章 相关技术第11-17页
   ·HTTP技术第11页
     ·HTTP协议的运作方式第11页
     ·HTTP HEADER第11页
   ·HTML语言局限性第11-12页
     ·HTML与WEB网页第11-12页
   ·XML相关技术第12-17页
     ·XML简介第12-13页
     ·XML的结构特征和模式第13-16页
     ·XML技术在本文中的应用第16-17页
第 3 章 半结构化WEB信息抽取第17-23页
   ·半结构化数据第17-18页
     ·半结构化数据出现的原因第17页
     ·半结构化数据的特点第17页
     ·现有的半结构化Web页面分类第17-18页
   ·信息抽取技术第18-22页
     ·信息抽取定义第19页
     ·Web信息抽取特点第19页
     ·Web信息抽取分类第19-22页
   ·本文的信息抽取技术特点第22-23页
第 4 章 WEB信息抽取过程的设计与实现第23-37页
   ·Web信息抽取难点第23-25页
   ·原理方法概述第25页
   ·网页获取第25-30页
     ·目标网页集合(URLs)的指定方式(POST/GET)第26-28页
     ·网站连接登录问题第28-29页
     ·数据获取第29-30页
   ·抽取规则定义第30-33页
     ·网页模式提取第30页
     ·目的表模式的建立第30-31页
     ·Web信息抽取过程描述文件第31-33页
   ·数据抽取实施第33-37页
     ·获取网页数据第33页
     ·HTML到XML的转换第33页
     ·目的表结构创建第33-34页
     ·映射规则执行第34页
     ·抽取规则执行算法第34-36页
     ·小结第36-37页
第 5 章 WEB信息抽取技术与ETL系统的集成第37-45页
   ·ETL概述第37-39页
     ·ETL体系结构第37页
     ·ETL的实现第37-39页
   ·ETL脚本第39-44页
     ·脚本简介第39-41页
     ·脚本的描述能力第41-43页
     ·脚本的实施第43-44页
   ·小结第44-45页
第 6 章 结论与展望第45-47页
   ·论文总结第45页
   ·展望第45-47页
致 谢第47-48页
参考文献第48-50页

论文共50页,点击 下载论文
上一篇:中国轿车营销网络渠道研究
下一篇:从昆虫体内分离抗循环疾病药物的先导化合物