首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

半结构化文本中的表格信息抽取技术的研究

摘要第1-6页
Abstract第6-10页
第1章 绪论第10-19页
   ·课题背景第10-14页
     ·信息抽取的历史第11-12页
     ·信息抽取的四种形式第12-13页
     ·半结构化文本中表格信息提取的重要性第13-14页
   ·国内外相关研究工作第14-17页
     ·早期纯文本表格信息抽取技术的研究第14-16页
     ·早期半结构化文本表格信息抽取技术的研究第16-17页
     ·召回率、准确率、F 值评测第17页
   ·本文的研究内容第17-19页
第2章 表格的概述和语料库的标注第19-25页
   ·表格的定义、特点和作用第19-22页
     ·表格的定义第19-21页
     ·表格的特点第21页
     ·表格的作用第21-22页
   ·表格的分类第22-23页
   ·语料库的标注第23-24页
   ·本章小结第24-25页
第3章 表格框架的提取和特征的选取第25-32页
   ·表格框架的提取第25-26页
   ·表格的规范化第26-28页
   ·表格特征的选取第28-31页
     ·表格布局的特征第28-30页
     ·表格内容的特征第30-31页
   ·本章小结第31-32页
第4章 最大熵模型的应用及与决策树的比较第32-46页
   ·最大熵模型训练第32-39页
     ·最大熵模型在文本分类中的应用第32-36页
     ·基于最大熵模型的表格识别分类器第36-37页
     ·特征模版和取值范围第37-39页
   ·决策树模型训练第39-43页
     ·决策树分类器第39-42页
     ·基于决策树模型的表格识别第42-43页
   ·最大熵和决策树方法的比较与分析第43-45页
   ·本章小结第45-46页
第5章 Web 表格信息提取第46-56页
   ·HTML 文档的不规范化问题第46页
   ·XML 相对HTML 的优势第46-47页
   ·基于HTML Tidy 的网页规范化第47-49页
     ·HTML Tidy 介绍第47-48页
     ·HTML 规范化为XML第48-49页
   ·基于Wrapper 的提取方法第49-50页
   ·基于DOM 的提取方法第50-51页
   ·Web 表格信息抽取算法第51-55页
     ·用HTML Dom 树解析web 网页第51-53页
     ·用Dom 方法提取web 表格第53-55页
   ·本章小结第55-56页
结论第56-58页
参考文献第58-62页
硕士期间发表的论文第62-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:燃烧假人系统烧伤分析软件平台的设计与实现
下一篇:基于DM642的红外小目标图像处理技术研究