首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web页面嵌套模式的包装器生成系统的设计与实现

摘要第1-5页
ABSTRACT第5-9页
第一章 引言第9-14页
   ·研究背景第9页
   ·DEEP WEB第9-12页
     ·Deep Web的提出第9-10页
     ·Deep Web数据提取与集成第10-12页
   ·本文所做的工作以及内容安排第12-14页
     ·本文所做的工作第12-13页
     ·本文内容安排第13-14页
第二章 WEB信息提取综述和相关原理第14-34页
   ·WEB页面特性第14-17页
     ·半结构化数据第14页
     ·Web页面模型第14-17页
     ·Deep Web页面生成的模型第17页
   ·WEB信息的提取第17-23页
     ·Web信息提取的定义第17-18页
     ·Web页面信息提取模型第18页
     ·Web信息提取技术的产生发展与研究第18-23页
   ·本文所用的基本原理第23-34页
     ·后缀树第23-29页
     ·后缀树查找连续重复子串第29-31页
     ·Web页面嵌套模式第31-33页
     ·数据的最终提取第33-34页
第三章 WEB页面噪声的去除第34-52页
   ·DOM技术介绍第35-36页
   ·基于DOM树的WEB页面噪声去除技术第36-52页
     ·算法的实现第36-39页
     ·算法的缺陷第39-40页
     ·算法的改进第40-47页
     ·对改进算法的分析第47-48页
     ·除噪算法测试第48-52页
第四章 页面嵌套模式第52-63页
   ·概述第52-53页
   ·基于UKKONEN算法构造后缀树的模式第53-57页
     ·HTML代码预处理第53-54页
     ·构造字符串后缀树的意义第54-57页
   ·连续重复子串的具体实现第57-59页
     ·基于后缀树发现连续重复子串的实现第57-58页
     ·算法分析第58-59页
   ·WEB页面嵌套模式的实现第59-63页
     ·模式树的实现第59-60页
     ·算法设计分析第60页
     ·需要解决的问题第60-63页
第五章 应用包装器的系统测试第63-68页
   ·系统架构第63页
   ·系统流程第63-65页
   ·系统测试第65-68页
第六章 结束语第68-70页
   ·论文工作总结第68页
   ·工作展望第68-70页
     ·针对页面去噪技术的展望第68-69页
     ·对发现Web页面嵌套模式的展望第69页
     ·对信息提取技术的工作展望第69-70页
参考文献第70-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:Java安全体系结构设计与实现
下一篇:基于Linux的网络高清播放器的设计与实现