基于树自动机的Web信息抽取

摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-12页
·研究背景	第7-8页
·Web信息抽取研究现状	第8-10页
·国外研究现状	第8-9页
·国内研究现状	第9-10页
·论文的组织结构	第10-12页
第二章相关技术	第12-20页
·Web信息抽取技术	第12-15页
·Web信息抽取技术的分类	第12-14页
·信息抽取的评价指标	第14-15页
·自动机技术	第15-18页
·文法推理	第15页
·自动机技术	第15-16页
·树自动机	第16-17页
·文法推理的信息抽取	第17-18页
·HTML、XHTML和XML	第18-19页
·HTML	第18页
·XHTML	第18-19页
·XML	第19页
·本章小结	第19-20页
第三章信息抽取的方法和算法	第20-37页
·预处理	第20-22页
·将无秩树转化为有秩树	第22-23页
·抽取方法	第23-25页
·树自动机推理算法	第25-31页
·定义	第25-26页
·k-testable算法	第26-27页
·g-testable算法	第27-28页
·gl-testable算法	第28-31页
·系统设计目标	第31-33页
·系统中信息表示模型的选取	第31页
·系统总体设计思想	第31-33页
·Web文档准备阶段	第33-35页
·Web到DOM树的转化	第33-35页
·Web文档信息抽取阶段	第35页
·本章小结	第35-37页
第四章实验结果及其分析	第37-45页
·基准数据集的测试	第37-42页
·实验结果的比较	第38-39页
·实验结果详细分析	第39-42页
·大型数据集中的测试	第42-44页
·本章小结	第44-45页
第五章论文总结与展望	第45-47页
·总结	第45页
·展望	第45-47页
参考文献	第47-52页
个人简历在读期间发表的学术论文	第52-53页
致谢	第53页