Web信息抽取系统SEU-WIE设计与实现

摘要	第1-5页
ABSTRACT	第5-8页
第1章绪言	第8-10页
·研究背景	第8页
·研究现状	第8页
·本文研究内容及组织结构	第8-10页
第2章系统所涉及的相关技术	第10-20页
·本体介绍	第10-12页
·本体的提出	第10页
·使用本体的优势	第10-11页
·本体描述语言	第11页
·运用ontology 的信息抽取概要	第11-12页
·HTML	第12-14页
·HTML 语言的发展	第12页
·HTML 的特点	第12-13页
·HTML 的局限性	第13-14页
·XML	第14-17页
·XML 产生	第14页
·XML 概述	第14-15页
·XML 的优越性	第15页
·XML 的语法结构	第15-16页
·XML 模式的定义方法	第16-17页
·DOM 树	第17-18页
·DOM 定义	第17页
·DOM 和HTML 树型逻辑结构	第17-18页
·XPATH	第18页
·HTTP 协议	第18-19页
·相关技术在本文中的应用	第19-20页
第3章半结构化网页抽取系统原理	第20-26页
·信息抽取定义	第20页
·WEB 信息抽取原理分析	第20-23页
·基于自然语言处理方式的信息抽取	第20-21页
·基于包装器归纳方式的信息抽取	第21页
·基于ONTOLOGY 方式的信息抽取	第21-22页
·基于HTML 结构的信息抽取	第22页
·基于Web 查询的信息抽取	第22-23页
·WEB 信息半结构化特点	第23-24页
·WRAPPER	第24-25页
·本文的信息抽取技术特点	第25-26页
第4章 SEU-WIE 系统的背景、难点及其架构	第26-30页
·SEU-WIE 系统的背景简介	第26-27页
·半结构化WEB 抽取系统SEU-WIE 的难点问题	第27页
·WEB 信息抽取系统的总体结构体系	第27-30页
第5章半结构化网页抽取系统 SEU-WIE 的抽取流程	第30-43页
·建立本体	第30-32页
·WEB 信息抽取规则定义阶段	第32-38页
·源网页的获取	第32-34页
·解析网页并且生成DOM 树	第34-36页
·目的表的模式的获取	第36-37页
·抽取规则定义	第37-38页
·WEB 信息抽取实施阶段	第38-41页
·抽取规则执行	第38-39页
·抽取规则执行算法	第39页
·改进的算法	第39-41页
·系统的抽取结果	第41-43页
·衡量信息抽取系统的性能指标	第41-42页
·本系统抽取性能分析	第42-43页
第6章 WEB 数据的预处理	第43-49页
·WEB 数据预处理的必要性	第43页
·数据预处理	第43-48页
·数据预处理的框架	第43-44页
·数据预处理描述	第44-46页
·数据预处理系统的结构	第46-47页
·数据预处理的执行	第47-48页
·小结	第48-49页
第7章总结与展望	第49-50页
致谢	第50-51页
参考文献	第51-54页
附件	第54-59页
附件一	第54-57页
附件二	第57-59页