Web数据抽取技术的研究
摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-14页 |
·论文的研究背景及意义 | 第9-11页 |
·Web数据抽取的概念及应用场景 | 第9-10页 |
·Web数据抽取面临的问题 | 第10-11页 |
·Web数据抽取的研究现状 | 第11-12页 |
·论文的研究内容 | 第12-13页 |
·论文的内容组织 | 第13-14页 |
第二章 Web数据抽取相关概述 | 第14-23页 |
·Web数据抽取的形式化定义及过程 | 第14-16页 |
·Web数据抽取的形式化定义 | 第14页 |
·Web数据抽取的过程 | 第14-16页 |
·Web数据抽取技术分类 | 第16-18页 |
·按照自动化程度进行分类 | 第16-17页 |
·按照工作原理进行分类 | 第17-18页 |
·基本概念 | 第18-21页 |
·HTML | 第18-19页 |
·DOM树 | 第19-20页 |
·XPATH | 第20-21页 |
·Web数据抽取的评价指标 | 第21-23页 |
第三章 不规则列表数据抽取技术 | 第23-37页 |
·列表页相关概念 | 第24页 |
·挖掘列表页的数据区域 | 第24-27页 |
·识别数据区域中的数据记录 | 第27-30页 |
·生成数据记录的最大匹配结构 | 第30-34页 |
·对已有标签树匹配算法的改进 | 第30-33页 |
·标签树部分对齐算法 | 第33-34页 |
·基于列表页的Web数据抽取系统的设计与实现 | 第34-37页 |
第四章 基于内容页的Web数据抽取技术的研究 | 第37-51页 |
·内容页相关概念 | 第37-39页 |
·无结构内容页正文的抽取 | 第39-42页 |
·对网页进行分块 | 第39-41页 |
·内容页的正文块的选取 | 第41-42页 |
·结构型内容页的数据抽取 | 第42-47页 |
·对字符串不匹配的处理 | 第43-44页 |
·对标签不匹配的处理 | 第44-47页 |
·基于内容页的Web数据抽取系统的设计与实现 | 第47-51页 |
·无结构内容页正文抽取系统 | 第47-48页 |
·结构型内容页数据抽取系统 | 第48-51页 |
第五章 总结 | 第51-52页 |
·本文总结 | 第51页 |
·下一步工作 | 第51-52页 |
参考文献 | 第52-55页 |
攻读硕士期间发表的学术论文及主持的项目 | 第55-56页 |
致谢 | 第56页 |