基于树结构的Deep Web数据抽取研究

摘要	第1-4页
Abstract	第4-5页
目录	第5-8页
第一章绪言	第8-14页
·选题的背景	第8页
·国内外研究现状	第8-11页
·本文研究内容	第11-12页
·本文的组织	第12-14页
第二章关于Web数据抽取技术相关概述	第14-20页
·Web数据抽取技术	第14-15页
·Web数据抽取技术的分类	第15-20页
·基于自然语言理解方式的数据抽取	第15-16页
·基于分装器归纳方式的数据抽取	第16-17页
·基于Ontology方式的数据抽取	第17-18页
·基干HTML结构的数据抽取	第18-20页
第三章相关标准	第20-38页
·HTML(Hyper Text markup Language)	第20-25页
·HTML标签	第20-25页
·XML	第25-32页
·XML的产生	第27-28页
·XML语法	第28-29页
·XML文档	第28-29页
·元素(Element)与标记(Tag)	第29-30页
·属性(Attribute)	第30页
·XML验证(Validation)	第30-32页
·DTD	第30-31页
·模式	第31-32页
·样式单	第32页
·XHTML	第32-33页
·DOM(Document Object Model)	第33页
·XPath	第33-35页
·XSLT	第35-38页
第四章网页预处理	第38-47页
·HTML文档清理	第38-41页
·HTML向XHTML的转换	第39-41页
·文档解析成树结构	第41-44页
·文档对象模型(DOM)	第41-44页
·Web网页噪声去除	第44-47页
·树过滤	第45-47页
第五章基于树结构的Deep Web数据抽取	第47-64页
·系统设计	第47-50页
·系统的总体框架	第47-49页
·基本设计思想	第49-50页
·抽取规则生成	第50-58页
·方法概述	第50页
·抽取规则生成	第50-58页
·自顶向下树匹配算法	第50-55页
·自顶向下树匹配	第50-51页
·匹配算法	第51-55页
·数据块定位	第55-57页
·生成抽取规则	第57-58页
·Web数据抽取	第58-60页
·Web数据抽取	第58页
·Web数据抽取结果	第58-60页
·XML文档的存储	第60-64页
·XML文档存储的常用方法	第60-61页
·XML到关系数据库映射的现状	第61页
·XML文档的存储	第61-64页
第六章总结与展望	第64-65页
·本文工作的总结	第64页
·工作展望	第64-65页
致谢	第65-66页
参考文献	第66-69页
攻读学位期间发表论文情况	第69页