首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于DOM和本体的Web信息抽取方法研究

摘要第1-6页
ABSTRACT第6-11页
图表目录第11-13页
第1章 绪论第13-20页
   ·研究背景和研究意义第13-14页
   ·国内外研究现状第14-17页
     ·国外研究现状第14-16页
     ·国内研究现状第16-17页
   ·研究目标和本文主要工作第17-18页
   ·本文结构安排第18-20页
第2章 Web 信息抽取技术介绍第20-34页
   ·Web 信息抽取介绍第20-26页
     ·Web 信息抽取概述第20-21页
     ·Web 信息抽取模型第21页
     ·Web 信息抽取技术分类第21-25页
     ·Web 信息抽取评价标准第25-26页
   ·HTML 与 XML第26-28页
     ·基本知识介绍第26-27页
     ·XML 约束第27-28页
   ·DOM 相关介绍第28-31页
     ·DOM 简介第28-30页
     ·DOM 接口第30-31页
   ·XPath 查询语言第31-32页
   ·XSL 相关知识介绍第32-33页
   ·本章小结第33-34页
第3章 一种相异子树构建的 Web 信息抽取方法第34-49页
   ·问题分析第34-35页
   ·Web 页面的预处理第35-40页
     ·Web 页面的清洗第35-36页
     ·Web 页面的 DOM 解析第36-40页
   ·相异子树构建第40-43页
     ·相关定义第40-41页
     ·构造 DOM 子树第41-42页
     ·构造相异子树集第42页
     ·构造最大相异子树第42-43页
   ·DOM 子树相似度计算第43-47页
     ·DOM 子树各节点的权重第43-45页
     ·节点相似度第45页
     ·相异子树相似度第45-46页
     ·相似度阈值取舍第46-47页
   ·数据区域的确定第47-48页
   ·本章小结第48-49页
第4章 一种改进的基于本体的语义标注方法第49-65页
   ·语义标注第49-51页
     ·语义的获取方法第49-51页
     ·本体第51页
   ·准备工作第51-53页
     ·相关定义第51-52页
     ·本体的构建第52-53页
   ·改进的基于本体的信息抽取方法第53-59页
     ·改进的信息项本体的构建方法第53-56页
     ·抽取过程第56-57页
     ·“伪本体”的构建第57-58页
     ·规则生成第58-59页
   ·数据区域的确定第59-63页
     ·基于本体的数据区域确定方法相关问题第59-60页
     ·改进的相异子树构建的数据区域确定方法第60-63页
   ·规则的编写第63-64页
   ·本章小结第64-65页
第5章 实验及性能评估第65-74页
   ·准备工作第65-66页
   ·模块实现过程第66-71页
     ·清洗模块实现过程第66-68页
     ·DOM 子树相似度计算模块第68-70页
     ·本体模块第70页
     ·规则生成模块第70-71页
   ·性能评估第71-73页
   ·本章小结第73-74页
第6章 总结和展望第74-76页
   ·本文研究总结第74-75页
   ·工作展望第75-76页
致谢第76-77页
参考文献第77-81页
攻读学位期间发表的学术论文及参加科研情况第81-82页

论文共82页,点击 下载论文
上一篇:基于体育旅游者行为特征的棋盘山体育旅游产品开发研究
下一篇:基于粒子滤波的RFID事件概率计算方法研究