基于树结构的Web信息抽取技术研究

摘要	第1-5页
ABSTRACT	第5-8页
图表清单	第8-10页
注释表	第10-11页
第一章绪论	第11-17页
·研究背景和意义	第11-12页
·国内外研究现状	第12-13页
·研究对象和研究模型	第13-15页
·本文的研究内容及组织	第15-17页
第二章 Web 信息抽取技术	第17-23页
·Web 信息抽取技术的概念	第17页
·信息抽取与信息检索	第17-18页
·现有Web 信息抽取技术的分类	第18-21页
·根据自动化程度分类	第18页
·根据抽取原理分类	第18-21页
·Web 信息抽取存在的问题	第21页
·Web 信息抽取系统的评价指标	第21-22页
·小结	第22-23页
第三章基于二叉树的HTML 到XML 的转换方法	第23-34页
·引言	第23-24页
·HTML、XML 和XHTML	第24-25页
·XML 和HTML 的二叉树表示	第25-27页
·基于二叉树的HTML 到 XML 的转换算法	第27-31页
·算法流程	第27页
·将HTML 划分为段列表	第27-28页
·HTML 二叉树的构造	第28-30页
·XML 文件的输出	第30-31页
·算法实例	第31页
·算法修正	第31页
·实验及分析	第31-33页
·小结	第33-34页
第四章 Web 信息抽取中的数据记录定位	第34-60页
·引言	第34-35页
·主要内容区的定位	第35-37页
·数据区域的定位	第37-54页
·树的编辑距离	第38-39页
·树的最大匹配	第39-46页
·树的相似度计算	第46-49页
·一般节点的比较	第49-51页
·数据区域的定位	第51-54页
·数据记录的定位	第54-56页
·实验及分析	第56-59页
·小结	第59-60页
第五章 Web 信息抽取中的数据属性对齐和抽取	第60-70页
·引言	第60-61页
·数据记录的聚类	第61-62页
·数据属性的对齐	第62-64页
·处理流程	第62-63页
·插入主树的条件	第63-64页
·基于聚类的数据记录对齐算法	第64-67页
·实验及分析	第67-69页
·小结	第69-70页
第六章总结与展望	第70-72页
·总结	第70页
·展望	第70-72页
参考文献	第72-76页
致谢	第76-77页
在学期间的研究成果及发表的学术论文	第77页