基于XML的中间文档信息提取技术研究
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-7页 |
| 第一章引言 | 第7-9页 |
| 1.1 背景 | 第7-8页 |
| 1.2 本文安排 | 第8-9页 |
| 第二章 信息提取技术概述 | 第9-14页 |
| 2.1 问题的提出 | 第9-10页 |
| 2.2 信息提取的定义 | 第10-11页 |
| 2.3 信息提取系统实现的两种方法 | 第11-13页 |
| 2.4 信息提取的一般过程 | 第13-14页 |
| 第三章 IEML中间文档格式 | 第14-21页 |
| 3.1 背景 | 第14-15页 |
| 3.2 IEML文档的DTD | 第15-21页 |
| 第四章 用IEML文档表示PDF文档 | 第21-37页 |
| 4.1 PDF文档的结构 | 第22-24页 |
| 4.2 从PDF文档到IEML文档的转换算法 | 第24-28页 |
| 4.3 一个PDF文档转换为IEML文档的实例 | 第28-37页 |
| 第五章 用IEML文档表示Word文档 | 第37-43页 |
| 5.1 Word文档结构 | 第37-42页 |
| 5.2 从Word文档到IEML文档的转换算法 | 第42-43页 |
| 第六章 IEML中间文档用于信息提取 | 第43-48页 |
| 6.1 对中间文档的文本内容特征提取 | 第43-45页 |
| 6.2 论文关键信息提取 | 第45-48页 |
| 第七章 结束语 | 第48-50页 |
| 7.1 系统的实现与总结 | 第48页 |
| 7.2 下一步的工作 | 第48-50页 |
| 参考文献 | 第50-53页 |
| 致谢 | 第53-54页 |