半结构化文本中的表格信息抽取技术的研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-19页
·课题背景	第10-14页
·信息抽取的历史	第11-12页
·信息抽取的四种形式	第12-13页
·半结构化文本中表格信息提取的重要性	第13-14页
·国内外相关研究工作	第14-17页
·早期纯文本表格信息抽取技术的研究	第14-16页
·早期半结构化文本表格信息抽取技术的研究	第16-17页
·召回率、准确率、F 值评测	第17页
·本文的研究内容	第17-19页
第2章表格的概述和语料库的标注	第19-25页
·表格的定义、特点和作用	第19-22页
·表格的定义	第19-21页
·表格的特点	第21页
·表格的作用	第21-22页
·表格的分类	第22-23页
·语料库的标注	第23-24页
·本章小结	第24-25页
第3章表格框架的提取和特征的选取	第25-32页
·表格框架的提取	第25-26页
·表格的规范化	第26-28页
·表格特征的选取	第28-31页
·表格布局的特征	第28-30页
·表格内容的特征	第30-31页
·本章小结	第31-32页
第4章最大熵模型的应用及与决策树的比较	第32-46页
·最大熵模型训练	第32-39页
·最大熵模型在文本分类中的应用	第32-36页
·基于最大熵模型的表格识别分类器	第36-37页
·特征模版和取值范围	第37-39页
·决策树模型训练	第39-43页
·决策树分类器	第39-42页
·基于决策树模型的表格识别	第42-43页
·最大熵和决策树方法的比较与分析	第43-45页
·本章小结	第45-46页
第5章 Web 表格信息提取	第46-56页
·HTML 文档的不规范化问题	第46页
·XML 相对HTML 的优势	第46-47页
·基于HTML Tidy 的网页规范化	第47-49页
·HTML Tidy 介绍	第47-48页
·HTML 规范化为XML	第48-49页
·基于Wrapper 的提取方法	第49-50页
·基于DOM 的提取方法	第50-51页
·Web 表格信息抽取算法	第51-55页
·用HTML Dom 树解析web 网页	第51-53页
·用Dom 方法提取web 表格	第53-55页
·本章小结	第55-56页
结论	第56-58页
参考文献	第58-62页
硕士期间发表的论文	第62-64页
致谢	第64页