基于标签树的列表页面数据抽取技术研究

摘要	第1-8页
ABSTRACT	第8-10页
目录	第10-12页
第一章绪论	第12-18页
·论文的研究背景及意义	第12-14页
·国内外研究现状	第14-15页
·论文的研究内容及创新之处	第15-16页
·论文的组织结构	第16-18页
第二章 Web数据抽取技术的相关概述	第18-26页
·半结构化数据	第18-19页
·半结构化数据的定义	第18页
·半结构化数据的产生原因	第18-19页
·半结构化数据的特点	第19页
·Web数据抽取	第19-24页
·Web数据抽取的定义	第19-20页
·Web数据抽取技术的产生与发展	第20页
·Web数据抽取技术的分类	第20-22页
·Web数据抽取技术的比较分析	第22-23页
·Web数据抽取技术的未来发展方向	第23-24页
·列表页面	第24-26页
第三章自动抽取Web数据的树对齐算法	第26-35页
·引言	第26-27页
·相关研究	第27-28页
·树对齐算法	第28-32页
·实验结果	第32-34页
·结论	第34-35页
第四章基于标签树的列表页面数据抽取系统的设计、实现与实验	第35-68页
·基于标签树的列表页面数据抽取系统的设计	第35-37页
·基于标签树的列表页面数据抽取系统的总体框架	第35-36页
·基于标签树的列表页而数据抽取系统的基本设计思想	第36-37页
·基于标签树的列表页面数据抽取系统的实现—模块1:标签树构造	第37-41页
·HTML页面预处理的重要性及目的	第37页
·HTML页面的标签树构造算法	第37-41页
·基于标签树的列表页面数据抽取系统的实现—模块2:主数据区域挖掘	第41-50页
·涉及的主要概念	第41-43页
·相似度的计算	第43-44页
·基于相似度的层次划分思想	第44-50页
·基于标签树的列表页而数据抽取系统的实现-模块3:数据记录识别	第50-52页
·数据记录节点的定义	第50页
·数据记录识别算法	第50-52页
·基于标签树的列表页面数据抽取系统的实现—模块4:记录模式生成	第52-60页
·树距离度量标准的介绍	第52-54页
·基于动态规划的树匹配算法	第54-56页
·基于树匹配的记录模式生成算法	第56-60页
·基于标签树的列表页面数据抽取系统的实验	第60-68页
·评价指标介绍	第60-63页
·实验设计与性能分析	第63-68页
第五章总结和展望	第68-70页
·总结	第68-69页
·展望	第69-70页
附录	第70-71页
参考文献	第71-77页
致谢	第77页