基于包装器模型的信息抽取算法研究

摘要	第1-5页
ABSTRACT	第5-8页
第一章绪论	第8-12页
·信息抽取概述	第8-10页
·什么是信息抽取	第8页
·信息抽取系统的评价	第8-9页
·国内外研究现状	第9-10页
·信息抽取的研究意义	第10页
·信息抽取系统的两大设计方法	第10-11页
·本文的主要工作	第11-12页
·本文的研究内容	第11页
·本文的组织	第11-12页
第二章 Web信息抽取技术分类对比	第12-18页
·按照抽取技术路线的分类	第12-15页
·基于包装器开发语言的抽取技术	第12页
·基于HTML 树结构的抽取技术	第12-13页
·基于自然语言处理的抽取技术	第13页
·基于包装器归纳的抽取技术	第13-14页
·基于模型的抽取技术	第14-15页
·基于本体的抽取技术	第15页
·按照抽取自动化程度的分类	第15-18页
·手工式Web 信息抽取	第15-16页
·有监督的Web 信息抽取	第16页
·半监督的Web 信息抽取	第16页
·无监督的Web 信息抽取	第16-18页
第三章基于视觉的DOM 树去噪方法研究	第18-28页
·相关概念	第18-20页
·数据类型及其实例	第18-19页
·页面创建模型	第19页
·包装器生成	第19页
·Union-free 正则表达式	第19-20页
·HTML 解析器	第20-22页
·清洗页面文档	第20-21页
·页面解析	第21-22页
·页面去噪算法设计	第22-24页
·基于DOM 的页面噪声去除方法	第22页
·基于信息块的去噪方法	第22-23页
·基于视觉的DOM 树去噪方法	第23-24页
·相关工作	第24页
·实验	第24-28页
·实验设置	第25页
·结果分析	第25-28页
第四章 Web 页面模式发现与包装器生成	第28-41页
·页面词法分析	第28-29页
·页面树匹配算法	第29-40页
·页面树匹配算法介绍	第31-33页
·页面树匹配算法实现过程	第33-39页
·抽象有序树	第39-40页
·包装器生成	第40页
·相关工作	第40-41页
第五章结论与展望	第41-42页
·总结	第41页
·下一步工作	第41-42页
参考文献	第42-45页
附录A 模板生成系统界面	第45-46页
附录B 模板生成系统转化结果	第46-47页
致谢	第47-48页
作者在读期间的研究成果	第48页