科技文档信息抽取与格式化技术研究

摘要	第1-5页
ABSTRACT	第5-6页
目录	第6-8页
第一章引言	第8-12页
·研究的目的和意义	第8页
·国内外信息抽取研究	第8-10页
·国外信息抽取研究	第8-9页
·国内信息抽取研究	第9-10页
·本文工作	第10页
·论文结构	第10-11页
·本章小结	第11-12页
第二章基于模板的信息抽取技术	第12-19页
·信息抽取的定义	第12页
·信息提取的任务和工作过程	第12-13页
·本文信息抽取方案分析	第13-15页
·申报书的格式特点	第13-14页
·申报书信息抽取与WEB信息抽取的区别	第14页
·信息抽取方案的形成	第14-15页
·模板	第15-18页
·模板的概念	第15页
·模板的生成方式	第15-16页
·模板库的建立	第16-18页
·本章小结	第18-19页
第三章关键信息存储格式分析	第19-27页
·需求分析	第19页
·存储格式比较	第19-23页
·关系数据库	第19-20页
·XML	第20-21页
·存储格式的确定	第21-23页
·XML相关技术	第23-26页
·XML相关标准	第23-24页
·模式定义文档	第24-26页
·本章小结	第26-27页
第四章文档信息抽取算法	第27-46页
·WORD文档格式分析	第27-30页
·Word文档结构	第27-28页
·Word文档解析	第28-30页
·PDF文档格式分析	第30-34页
·PDF文档结构	第30-31页
·PDF文档解析	第31-34页
·文档信息抽取算法分析	第34-45页
·封面信息抽取	第34-35页
·表格信息抽取	第35-41页
·正文信息抽取	第41-45页
·本章小结	第45-46页
第五章科技文档信息抽取系统设计与实现	第46-55页
·设计目标	第46页
·系统的总体框架	第46-47页
·模块功能说明	第47-52页
·文档解析模块	第47页
·模板匹配模块	第47-48页
·DTD文档选择模块	第48-49页
·文档信息抽取模块	第49页
·XML文档生成模块	第49-52页
·系统界面	第52-53页
·实验结果	第53-54页
·本章小结	第54-55页
第六章总结与展望	第55-57页
·论文总结	第55-56页
·工作展望	第56-57页
参考文献	第57-62页
致谢	第62-63页
攻读学位期间主要研究成果	第63页