基于DOM和本体的Web信息抽取方法研究

摘要	第1-6页
ABSTRACT	第6-11页
图表目录	第11-13页
第1章绪论	第13-20页
·研究背景和研究意义	第13-14页
·国内外研究现状	第14-17页
·国外研究现状	第14-16页
·国内研究现状	第16-17页
·研究目标和本文主要工作	第17-18页
·本文结构安排	第18-20页
第2章 Web 信息抽取技术介绍	第20-34页
·Web 信息抽取介绍	第20-26页
·Web 信息抽取概述	第20-21页
·Web 信息抽取模型	第21页
·Web 信息抽取技术分类	第21-25页
·Web 信息抽取评价标准	第25-26页
·HTML 与 XML	第26-28页
·基本知识介绍	第26-27页
·XML 约束	第27-28页
·DOM 相关介绍	第28-31页
·DOM 简介	第28-30页
·DOM 接口	第30-31页
·XPath 查询语言	第31-32页
·XSL 相关知识介绍	第32-33页
·本章小结	第33-34页
第3章一种相异子树构建的 Web 信息抽取方法	第34-49页
·问题分析	第34-35页
·Web 页面的预处理	第35-40页
·Web 页面的清洗	第35-36页
·Web 页面的 DOM 解析	第36-40页
·相异子树构建	第40-43页
·相关定义	第40-41页
·构造 DOM 子树	第41-42页
·构造相异子树集	第42页
·构造最大相异子树	第42-43页
·DOM 子树相似度计算	第43-47页
·DOM 子树各节点的权重	第43-45页
·节点相似度	第45页
·相异子树相似度	第45-46页
·相似度阈值取舍	第46-47页
·数据区域的确定	第47-48页
·本章小结	第48-49页
第4章一种改进的基于本体的语义标注方法	第49-65页
·语义标注	第49-51页
·语义的获取方法	第49-51页
·本体	第51页
·准备工作	第51-53页
·相关定义	第51-52页
·本体的构建	第52-53页
·改进的基于本体的信息抽取方法	第53-59页
·改进的信息项本体的构建方法	第53-56页
·抽取过程	第56-57页
·“伪本体”的构建	第57-58页
·规则生成	第58-59页
·数据区域的确定	第59-63页
·基于本体的数据区域确定方法相关问题	第59-60页
·改进的相异子树构建的数据区域确定方法	第60-63页
·规则的编写	第63-64页
·本章小结	第64-65页
第5章实验及性能评估	第65-74页
·准备工作	第65-66页
·模块实现过程	第66-71页
·清洗模块实现过程	第66-68页
·DOM 子树相似度计算模块	第68-70页
·本体模块	第70页
·规则生成模块	第70-71页
·性能评估	第71-73页
·本章小结	第73-74页
第6章总结和展望	第74-76页
·本文研究总结	第74-75页
·工作展望	第75-76页
致谢	第76-77页
参考文献	第77-81页
攻读学位期间发表的学术论文及参加科研情况	第81-82页