WEB信息抽取的研究

摘要	第1-5页
ABSTRACT	第5-10页
第1章引言	第10-14页
·信息抽取研究背景	第10-11页
·信息抽取概念及研究现状	第11-12页
·信息抽取的概念及目的	第11页
·信息抽取国内外研究现状	第11-12页
·主要研究内容	第12-13页
·本章小结	第13-14页
第2章包装器 Wrapper 及相关技术	第14-20页
·概述	第14页
·网页结构的特点	第14-15页
·网页技术简介	第15-18页
·HTML 介绍	第15页
·XML 介绍	第15-16页
·DOM 树介绍	第16页
·XPATH 介绍	第16-18页
·包装器介绍	第18-19页
·本章小结	第19-20页
第3章传统的包装器抽取规则	第20-26页
·相关抽取技术介绍	第20-22页
·手工方式抽取	第20页
·基于样本学习的半自动化方式抽取	第20-21页
·利用页面结构特点的半自动化方式抽取	第21页
·其他方式的模式抽取	第21-22页
·EWDT 的抽取规则	第22-25页
·信息抽取的基本原理	第22-23页
·抽取规则与算法	第23-24页
·衡量指标与结论	第24-25页
·本章小结	第25-26页
第4章 TSND 包装器抽取规则及实现	第26-42页
·预处理过程	第27-28页
·构造框架结构体	第28-29页
·HTML 路径和结构体的定义	第28页
·框架结构体的生成	第28-29页
·主结构体的构造	第29-31页
·结构体分割算法	第29-31页
·主结构体的构造	第31页
·准确链接组生成	第31-32页
·结构体集合的构造	第32-33页
·Wrapper 的抽取公式	第33页
·抽取规则的维护	第33-34页
·包装器的设计与实现	第34-39页
·包装器系统分析	第34页
·信息抽取包装器的框架结构	第34-36页
·包装器的实现	第36-39页
·试验和结果分析	第39-41页
·本章小结	第41-42页
第5章总结与展望	第42-44页
·本文总结	第42页
·未来工作的展望	第42-44页
参考文献	第44-47页
致谢	第47-48页
附录	第48页