基于XML的中间文档信息提取技术研究
摘要 | 第1-6页 |
ABSTRACT | 第6-7页 |
第一章引言 | 第7-9页 |
1.1 背景 | 第7-8页 |
1.2 本文安排 | 第8-9页 |
第二章 信息提取技术概述 | 第9-14页 |
2.1 问题的提出 | 第9-10页 |
2.2 信息提取的定义 | 第10-11页 |
2.3 信息提取系统实现的两种方法 | 第11-13页 |
2.4 信息提取的一般过程 | 第13-14页 |
第三章 IEML中间文档格式 | 第14-21页 |
3.1 背景 | 第14-15页 |
3.2 IEML文档的DTD | 第15-21页 |
第四章 用IEML文档表示PDF文档 | 第21-37页 |
4.1 PDF文档的结构 | 第22-24页 |
4.2 从PDF文档到IEML文档的转换算法 | 第24-28页 |
4.3 一个PDF文档转换为IEML文档的实例 | 第28-37页 |
第五章 用IEML文档表示Word文档 | 第37-43页 |
5.1 Word文档结构 | 第37-42页 |
5.2 从Word文档到IEML文档的转换算法 | 第42-43页 |
第六章 IEML中间文档用于信息提取 | 第43-48页 |
6.1 对中间文档的文本内容特征提取 | 第43-45页 |
6.2 论文关键信息提取 | 第45-48页 |
第七章 结束语 | 第48-50页 |
7.1 系统的实现与总结 | 第48页 |
7.2 下一步的工作 | 第48-50页 |
参考文献 | 第50-53页 |
致谢 | 第53-54页 |