基于树形结构的Web信息抽取技术研究

摘要	第1-5页
Abstract	第5-8页
第一章绪论	第8-11页
·论文的研究背景	第8-9页
·本课题的研究价值	第9-10页
·本文的主要内容和组织	第10-11页
第二章 WEB 信息抽取概述	第11-17页
·半结构化数据	第11-12页
·半结构化数据定义	第11-12页
·半结构化数据特点	第12页
·WEB 信息抽取	第12-15页
·Web 信息抽取定义	第12-13页
·信息抽取与信息检索的区别	第13页
·Web 信息抽取的产生与发展	第13-15页
·Web 信息抽取技术分类	第15页
·多记录DATAINTENSIVE 型页面	第15-17页
第三章 WEB 信息抽取技术分类对比	第17-27页
·按照抽取技术路线的分类	第17-21页
·基于包装器开发语言的抽取技术	第17-18页
·基于HTML 树结构的抽取技术	第18页
·基于自然语言处理的抽取技术	第18-19页
·基于包装器归纳的抽取技术	第19-20页
·基于模型的抽取技术	第20-21页
·基于本体论的抽取技术	第21页
·按照抽取自动化程度的分类	第21-24页
·手工式Web 信息抽取	第22页
·有监督的Web 信息抽取	第22页
·半监督的Web 信息抽取	第22-23页
·无监督的Web 信息抽取	第23-24页
·不同抽取技术的对比分析	第24-25页
·WEB 信息抽取技术的发展方向	第25-27页
第四章基于树形结构的WEB 信息抽取	第27-54页
·基于HTML 树形结构的信息抽取流程介绍	第27-28页
·HTML 页面的预处理	第28-31页
·引言	第28页
·基于标签位置的HTML 树构造算法	第28-31页
·HTML 页面主数据区域的挖掘	第31-41页
·有关概念	第31-34页
·相似度计算	第34-35页
·基于相似度的层次划分算法	第35-41页
·HTML 页面数据记录的挖掘	第41-44页
·记录节点定义	第41-42页
·数据记录挖掘算法	第42-44页
·数据项的抽取与结构化数据的生成	第44-51页
·树距离度量介绍	第44-45页
·基于动态规划的树匹配算法	第45-47页
·基于树匹配的数据记录模式生成算法	第47-51页
·实验与性能分析	第51-54页
·评价指标介绍	第51-52页
·实验设计与分析	第52-54页
第五章结束语	第54-56页
·总结	第54页
·下一步工作	第54-56页
参考文献	第56-60页
研究生期间发表的论文和参加的项目	第60-61页
致谢	第61页