基于页面结构分析的语义数据抽取方法研究

摘要	第5-7页
ABSTRACT	第7-8页
符号对照表	第11-12页
缩略语对照表	第12-15页
第一章绪论	第15-19页
1.1 研究背景与意义	第15-16页
1.2 国内外研究现状	第16-17页
1.3 论文工作内容	第17-18页
1.4 论文组织结构	第18-19页
第二章基础理论与技术	第19-27页
2.1 知识库	第19-20页
2.2 语义网	第20-22页
2.2.1 XML	第21页
2.2.2 RDF	第21页
2.2.3 Ontology	第21-22页
2.3 Web语义信息抽取	第22-25页
2.3.1 基本概念	第22页
2.3.2 抽取过程模型	第22-23页
2.3.3 信息抽取关键技术	第23-25页
2.4 本章小结	第25-27页
第三章面向特定网络站点的核心本体构建	第27-41页
3.1 问题分析	第27-28页
3.2 领域本体特征词扩展	第28-30页
3.3 站点页面预处理	第30-34页
3.3.1 获取网络站点的HTML页面	第30-31页
3.3.2 对HTML页面进行预处理	第31-34页
3.4 网络站点核心本体的构建	第34-39页
3.4.1 两个词语之间的相似度计算	第34-36页
3.4.2 本体概念和标签文本相似度计算	第36页
3.4.3 构建特定网络站点的核心本体	第36-39页
3.5 本章小结	第39-41页
第四章基于页面结构分析的核心本体扩展	第41-51页
4.1 数据区域的划分	第41-43页
4.1.1 相关定义	第41-42页
4.1.2 DOM子树的构造	第42-43页
4.1.3 网页结构区域划分	第43页
4.2 DOM子树相似度计算	第43-46页
4.2.1 DOM子树中节点的权值	第44-45页
4.2.2 DOM子树相似度计算	第45-46页
4.3 核心本体扩展的过程	第46-48页
4.4 信息抽取评价标准	第48页
4.5 本章小结	第48-51页
第五章实验与结果分析	第51-59页
5.1 准备工作	第51页
5.2 实验过程	第51-55页
5.2.1 基于领域本体构建网络站点的核心本体	第51-55页
5.2.2 基于页面结构分析对核心本体进行扩展	第55页
5.3 测试实验参数	第55-57页
5.4 本章小结	第57-59页
第六章结束语	第59-61页
参考文献	第61-65页
致谢	第65-67页
作者简介	第67-68页