基于XML的HTML和PDF信息抽取技术的研究

摘要	第1-3页
ABSTRACT	第3-4页
目录	第4-7页
第一章引言	第7-11页
1．1 研究背景	第7-8页
1．2 国内外研究现状	第8-9页
1．3 本文工作	第9页
1．4 论文结构	第9-11页
第二章基于规则的信息抽取技术	第11-21页
2．1 引言	第11页
2．2 基于规则的信息抽取的关键技术	第11-16页
2．2．1 规则的描述	第11-15页
2．2．2 规则的生成	第15-16页
2．3 基于规则的信息抽取技术的分类	第16-18页
2．3．1 基于自然语言理解的信息抽取	第16-17页
2．3．2 基于Ontology 方式的信息抽取	第17页
2．3．3 基于DOM 树结构的信息抽取	第17-18页
2．4 基于规则的信息抽取技术存在的问题	第18页
2．5 本文思路的形成	第18-19页
2．5．1 HTML 信息抽取解决方案的形成	第18-19页
2．5．2 PDF 信息抽取解决方案的形成	第19页
2．6 本章小结	第19-21页
第三章基础理论和相关技术	第21-37页
3．1 引言	第21页
3．2 HTML 和PDF 文档格式介绍	第21-28页
3．2．1 HTML	第21-23页
3．2．2 PDF	第23-28页
3．3 XML	第28-30页
3．3．1 XML 的历史	第28页
3．3．2 XML 的名称含义	第28-29页
3．3．3 XML 的结构	第29-30页
3．4 模式定义文件	第30-32页
3．4．1 DTD	第30-31页
3．4．2 XML Schema	第31页
3．4．3 DTD 和XML Schema 的分析比较	第31-32页
3．5 XML 解析工具	第32-34页
3．5．1 DOM	第32页
3．5．2 SAX	第32-33页
3．5．3 SAX 和DOM 的分析比较	第33-34页
3．6 XSLT	第34页
3．7 XPATH	第34-36页
3．8 本章小结	第36-37页
第四章基于XSLT 的HTML 信息抽取技术	第37-46页
4．1 引言	第37页
4．2 设计的基本思想	第37-38页
4．3 HTML 到XHTML 的转换	第38-39页
4．4 XHTML 到语义化的XML 文档的转换	第39-42页
4．5 XSLT 抽取规则的健壮性研究	第42-45页
4．5．1 基于树的绝对路径的定位方式	第42-43页
4．5．2 基于关键词的定位方式	第43-44页
4．5．3 基于属性的定位方式	第44页
4．5．4 三种定位方式的总结	第44-45页
4．6 本章小结	第45-46页
第五章基于XML 的PDF 信息抽取系统	第46-65页
5．1 引言	第46页
5．2 概述	第46-50页
5．2．1 设计目标	第46-47页
5．2．2 系统的总体框架	第47-48页
5．2．3 PDF 文档自动抽取过程	第48-49页
5．2．4 语义模型	第49-50页
5．2．5 XML 和XSLT 在系统中的作用	第50页
5．3 中间文档生成模块	第50-53页
5．3．1 模块分析	第50-51页
5．3．2 实现思路和过程	第51-53页
5．4 系统中的抽取规则	第53-54页
5．5 规则生成模块	第54-60页
5．5．1 模块分析	第54页
5．5．2 实现思路	第54页
5．5．3 实现过程	第54-60页
5．6 自动抽取模块	第60-61页
5．7 手动转换模块	第61-63页
5．7．1 模块分析	第61页
5．7．2 实现思路	第61-62页
5．7．3 实现过程	第62-63页
5．8 实验结果	第63-64页
5．9 本章小结	第64-65页
结论	第65-66页
论文工作总结	第65页
工作展望	第65-66页
参考文献	第66-69页
致谢	第69-70页
个人简历、在学期间研究成果以及发表的论文	第70页