基于Web页面嵌套模式的包装器生成系统的设计与实现

摘要	第1-5页
ABSTRACT	第5-9页
第一章引言	第9-14页
·研究背景	第9页
·DEEP WEB	第9-12页
·Deep Web的提出	第9-10页
·Deep Web数据提取与集成	第10-12页
·本文所做的工作以及内容安排	第12-14页
·本文所做的工作	第12-13页
·本文内容安排	第13-14页
第二章 WEB信息提取综述和相关原理	第14-34页
·WEB页面特性	第14-17页
·半结构化数据	第14页
·Web页面模型	第14-17页
·Deep Web页面生成的模型	第17页
·WEB信息的提取	第17-23页
·Web信息提取的定义	第17-18页
·Web页面信息提取模型	第18页
·Web信息提取技术的产生发展与研究	第18-23页
·本文所用的基本原理	第23-34页
·后缀树	第23-29页
·后缀树查找连续重复子串	第29-31页
·Web页面嵌套模式	第31-33页
·数据的最终提取	第33-34页
第三章 WEB页面噪声的去除	第34-52页
·DOM技术介绍	第35-36页
·基于DOM树的WEB页面噪声去除技术	第36-52页
·算法的实现	第36-39页
·算法的缺陷	第39-40页
·算法的改进	第40-47页
·对改进算法的分析	第47-48页
·除噪算法测试	第48-52页
第四章页面嵌套模式	第52-63页
·概述	第52-53页
·基于UKKONEN算法构造后缀树的模式	第53-57页
·HTML代码预处理	第53-54页
·构造字符串后缀树的意义	第54-57页
·连续重复子串的具体实现	第57-59页
·基于后缀树发现连续重复子串的实现	第57-58页
·算法分析	第58-59页
·WEB页面嵌套模式的实现	第59-63页
·模式树的实现	第59-60页
·算法设计分析	第60页
·需要解决的问题	第60-63页
第五章应用包装器的系统测试	第63-68页
·系统架构	第63页
·系统流程	第63-65页
·系统测试	第65-68页
第六章结束语	第68-70页
·论文工作总结	第68页
·工作展望	第68-70页
·针对页面去噪技术的展望	第68-69页
·对发现Web页面嵌套模式的展望	第69页
·对信息提取技术的工作展望	第69-70页
参考文献	第70-72页
致谢	第72页