首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于树结构的Web信息抽取技术研究

摘要第1-5页
ABSTRACT第5-8页
图表清单第8-10页
注释表第10-11页
第一章 绪论第11-17页
   ·研究背景和意义第11-12页
   ·国内外研究现状第12-13页
   ·研究对象和研究模型第13-15页
   ·本文的研究内容及组织第15-17页
第二章 Web 信息抽取技术第17-23页
   ·Web 信息抽取技术的概念第17页
   ·信息抽取与信息检索第17-18页
   ·现有Web 信息抽取技术的分类第18-21页
     ·根据自动化程度分类第18页
     ·根据抽取原理分类第18-21页
   ·Web 信息抽取存在的问题第21页
   ·Web 信息抽取系统的评价指标第21-22页
   ·小结第22-23页
第三章 基于二叉树的HTML 到XML 的转换方法第23-34页
   ·引言第23-24页
   ·HTML、XML 和XHTML第24-25页
   ·XML 和HTML 的二叉树表示第25-27页
   ·基于二叉树的HTML 到 XML 的转换算法第27-31页
     ·算法流程第27页
     ·将HTML 划分为段列表第27-28页
     ·HTML 二叉树的构造第28-30页
     ·XML 文件的输出第30-31页
     ·算法实例第31页
     ·算法修正第31页
   ·实验及分析第31-33页
   ·小结第33-34页
第四章 Web 信息抽取中的数据记录定位第34-60页
   ·引言第34-35页
   ·主要内容区的定位第35-37页
   ·数据区域的定位第37-54页
     ·树的编辑距离第38-39页
     ·树的最大匹配第39-46页
     ·树的相似度计算第46-49页
     ·一般节点的比较第49-51页
     ·数据区域的定位第51-54页
   ·数据记录的定位第54-56页
   ·实验及分析第56-59页
   ·小结第59-60页
第五章 Web 信息抽取中的数据属性对齐和抽取第60-70页
   ·引言第60-61页
   ·数据记录的聚类第61-62页
   ·数据属性的对齐第62-64页
     ·处理流程第62-63页
     ·插入主树的条件第63-64页
   ·基于聚类的数据记录对齐算法第64-67页
   ·实验及分析第67-69页
   ·小结第69-70页
第六章 总结与展望第70-72页
   ·总结第70页
   ·展望第70-72页
参考文献第72-76页
致谢第76-77页
在学期间的研究成果及发表的学术论文第77页

论文共77页,点击 下载论文
上一篇:嵌入式数据库文件管理软件构架研究
下一篇:嵌入式数据库性能评价与测试技术的研究