Web数据抽取技术的研究

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-14页
·论文的研究背景及意义	第9-11页
·Web数据抽取的概念及应用场景	第9-10页
·Web数据抽取面临的问题	第10-11页
·Web数据抽取的研究现状	第11-12页
·论文的研究内容	第12-13页
·论文的内容组织	第13-14页
第二章 Web数据抽取相关概述	第14-23页
·Web数据抽取的形式化定义及过程	第14-16页
·Web数据抽取的形式化定义	第14页
·Web数据抽取的过程	第14-16页
·Web数据抽取技术分类	第16-18页
·按照自动化程度进行分类	第16-17页
·按照工作原理进行分类	第17-18页
·基本概念	第18-21页
·HTML	第18-19页
·DOM树	第19-20页
·XPATH	第20-21页
·Web数据抽取的评价指标	第21-23页
第三章不规则列表数据抽取技术	第23-37页
·列表页相关概念	第24页
·挖掘列表页的数据区域	第24-27页
·识别数据区域中的数据记录	第27-30页
·生成数据记录的最大匹配结构	第30-34页
·对已有标签树匹配算法的改进	第30-33页
·标签树部分对齐算法	第33-34页
·基于列表页的Web数据抽取系统的设计与实现	第34-37页
第四章基于内容页的Web数据抽取技术的研究	第37-51页
·内容页相关概念	第37-39页
·无结构内容页正文的抽取	第39-42页
·对网页进行分块	第39-41页
·内容页的正文块的选取	第41-42页
·结构型内容页的数据抽取	第42-47页
·对字符串不匹配的处理	第43-44页
·对标签不匹配的处理	第44-47页
·基于内容页的Web数据抽取系统的设计与实现	第47-51页
·无结构内容页正文抽取系统	第47-48页
·结构型内容页数据抽取系统	第48-51页
第五章总结	第51-52页
·本文总结	第51页
·下一步工作	第51-52页
参考文献	第52-55页
攻读硕士期间发表的学术论文及主持的项目	第55-56页
致谢	第56页