首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于XML的HTML和PDF信息抽取技术的研究

摘要第1-3页
ABSTRACT第3-4页
目录第4-7页
第一章 引言第7-11页
 1.1 研究背景第7-8页
 1.2 国内外研究现状第8-9页
 1.3 本文工作第9页
 1.4 论文结构第9-11页
第二章 基于规则的信息抽取技术第11-21页
 2.1 引言第11页
 2.2 基于规则的信息抽取的关键技术第11-16页
  2.2.1 规则的描述第11-15页
  2.2.2 规则的生成第15-16页
 2.3 基于规则的信息抽取技术的分类第16-18页
  2.3.1 基于自然语言理解的信息抽取第16-17页
  2.3.2 基于Ontology 方式的信息抽取第17页
  2.3.3 基于DOM 树结构的信息抽取第17-18页
 2.4 基于规则的信息抽取技术存在的问题第18页
 2.5 本文思路的形成第18-19页
  2.5.1 HTML 信息抽取解决方案的形成第18-19页
  2.5.2 PDF 信息抽取解决方案的形成第19页
 2.6 本章小结第19-21页
第三章 基础理论和相关技术第21-37页
 3.1 引言第21页
 3.2 HTML 和PDF 文档格式介绍第21-28页
  3.2.1 HTML第21-23页
  3.2.2 PDF第23-28页
 3.3 XML第28-30页
  3.3.1 XML 的历史第28页
  3.3.2 XML 的名称含义第28-29页
  3.3.3 XML 的结构第29-30页
 3.4 模式定义文件第30-32页
  3.4.1 DTD第30-31页
  3.4.2 XML Schema第31页
  3.4.3 DTD 和XML Schema 的分析比较第31-32页
 3.5 XML 解析工具第32-34页
  3.5.1 DOM第32页
  3.5.2 SAX第32-33页
  3.5.3 SAX 和DOM 的分析比较第33-34页
 3.6 XSLT第34页
 3.7 XPATH第34-36页
 3.8 本章小结第36-37页
第四章 基于XSLT 的HTML 信息抽取技术第37-46页
 4.1 引言第37页
 4.2 设计的基本思想第37-38页
 4.3 HTML 到XHTML 的转换第38-39页
 4.4 XHTML 到语义化的XML 文档的转换第39-42页
 4.5 XSLT 抽取规则的健壮性研究第42-45页
  4.5.1 基于树的绝对路径的定位方式第42-43页
  4.5.2 基于关键词的定位方式第43-44页
  4.5.3 基于属性的定位方式第44页
  4.5.4 三种定位方式的总结第44-45页
 4.6 本章小结第45-46页
第五章 基于XML 的PDF 信息抽取系统第46-65页
 5.1 引言第46页
 5.2 概述第46-50页
  5.2.1 设计目标第46-47页
  5.2.2 系统的总体框架第47-48页
  5.2.3 PDF 文档自动抽取过程第48-49页
  5.2.4 语义模型第49-50页
  5.2.5 XML 和XSLT 在系统中的作用第50页
 5.3 中间文档生成模块第50-53页
  5.3.1 模块分析第50-51页
  5.3.2 实现思路和过程第51-53页
 5.4 系统中的抽取规则第53-54页
 5.5 规则生成模块第54-60页
  5.5.1 模块分析第54页
  5.5.2 实现思路第54页
  5.5.3 实现过程第54-60页
 5.6 自动抽取模块第60-61页
 5.7 手动转换模块第61-63页
  5.7.1 模块分析第61页
  5.7.2 实现思路第61-62页
  5.7.3 实现过程第62-63页
 5.8 实验结果第63-64页
 5.9 本章小结第64-65页
结论第65-66页
 论文工作总结第65页
 工作展望第65-66页
参考文献第66-69页
致谢第69-70页
个人简历、在学期间研究成果以及发表的论文第70页

论文共70页,点击 下载论文
上一篇:腺嘌呤制备阳虚型慢性肾功能衰竭大鼠模型综合指标及其机理研究
下一篇:围绝经期妇女证素特点的研究