首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于树形结构的Web信息抽取技术研究

摘要第1-5页
Abstract第5-8页
第一章 绪论第8-11页
   ·论文的研究背景第8-9页
   ·本课题的研究价值第9-10页
   ·本文的主要内容和组织第10-11页
第二章 WEB 信息抽取概述第11-17页
   ·半结构化数据第11-12页
     ·半结构化数据定义第11-12页
     ·半结构化数据特点第12页
   ·WEB 信息抽取第12-15页
     ·Web 信息抽取定义第12-13页
     ·信息抽取与信息检索的区别第13页
     ·Web 信息抽取的产生与发展第13-15页
     ·Web 信息抽取技术分类第15页
   ·多记录DATAINTENSIVE 型页面第15-17页
第三章 WEB 信息抽取技术分类对比第17-27页
   ·按照抽取技术路线的分类第17-21页
     ·基于包装器开发语言的抽取技术第17-18页
     ·基于HTML 树结构的抽取技术第18页
     ·基于自然语言处理的抽取技术第18-19页
     ·基于包装器归纳的抽取技术第19-20页
     ·基于模型的抽取技术第20-21页
     ·基于本体论的抽取技术第21页
   ·按照抽取自动化程度的分类第21-24页
     ·手工式Web 信息抽取第22页
     ·有监督的Web 信息抽取第22页
     ·半监督的Web 信息抽取第22-23页
     ·无监督的Web 信息抽取第23-24页
   ·不同抽取技术的对比分析第24-25页
   ·WEB 信息抽取技术的发展方向第25-27页
第四章 基于树形结构的WEB 信息抽取第27-54页
   ·基于HTML 树形结构的信息抽取流程介绍第27-28页
   ·HTML 页面的预处理第28-31页
     ·引言第28页
     ·基于标签位置的HTML 树构造算法第28-31页
   ·HTML 页面主数据区域的挖掘第31-41页
     ·有关概念第31-34页
     ·相似度计算第34-35页
     ·基于相似度的层次划分算法第35-41页
   ·HTML 页面数据记录的挖掘第41-44页
     ·记录节点定义第41-42页
     ·数据记录挖掘算法第42-44页
   ·数据项的抽取与结构化数据的生成第44-51页
     ·树距离度量介绍第44-45页
     ·基于动态规划的树匹配算法第45-47页
     ·基于树匹配的数据记录模式生成算法第47-51页
   ·实验与性能分析第51-54页
     ·评价指标介绍第51-52页
     ·实验设计与分析第52-54页
第五章 结束语第54-56页
   ·总结第54页
   ·下一步工作第54-56页
参考文献第56-60页
研究生期间发表的论文和参加的项目第60-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:夏河县旅游资源开发与可持续发展研究
下一篇:柴达木盆地贝壳堤剖面稳定同位素与沉积环境