摘要 | 第1-6页 |
Abstract | 第6-11页 |
第1章 绪论 | 第11-16页 |
·选题背景及意义 | 第11-12页 |
·信息抽取技术的研究现状 | 第12-14页 |
·本文研究内容 | 第14-15页 |
·论文结构 | 第15-16页 |
第2章 相关工作基础 | 第16-28页 |
·Web信息抽取技术概述 | 第16-21页 |
·Web信息抽取技术 | 第16-18页 |
·现有Web信息抽取方法的技术路线分析与比较 | 第18-21页 |
·本文的Web信息抽取方法 | 第21页 |
·XML相关技术 | 第21-24页 |
·XML基础知识介绍 | 第21-22页 |
·XML在信息抽取系统中的优势及其应用 | 第22-24页 |
·本体技术 | 第24-27页 |
·本体基础知识介绍 | 第24-27页 |
·使用本体的优势 | 第27页 |
·本章小结 | 第27-28页 |
第3章 基于语义的Web信息抽取系统的设计 | 第28-43页 |
·系统的框架模型结构 | 第28-30页 |
·文档解析 | 第30-31页 |
·模式提取 | 第31页 |
·基于语义的本体建立方法 | 第31-36页 |
·本体定义方法 | 第31-33页 |
·基于术语语义聚类生成概念的方法 | 第33-34页 |
·概念关系的建立 | 第34-35页 |
·本体学习与领域本体的构建 | 第35-36页 |
·基于OWL描述本体的语义信息抽取 | 第36-42页 |
·基于本体的抽取规则的生成 | 第36-39页 |
·关系数据库的创建 | 第39-40页 |
·具有语义信息的RDF数据模型的生成 | 第40-42页 |
·本章小结 | 第42-43页 |
第4章 基于栈与链式结构的HTML到XML转换算法 | 第43-52页 |
·问题描述 | 第43-44页 |
·HTML到XML的转换原理与步骤 | 第44-48页 |
·现有的转换系统和算法 | 第44-46页 |
·HTML和XML格式比较 | 第46-47页 |
·转换原理与步骤 | 第47-48页 |
·HTML到XML转换算法 | 第48-51页 |
·解析HTML文档为二叉链表结构 | 第48-49页 |
·消除HTML的不严格语法 | 第49-50页 |
·XML文档的输出 | 第50-51页 |
·本章小结 | 第51-52页 |
第5章 基于SuffixTree的数据模式提取算法研究 | 第52-66页 |
·模式提取的方法介绍 | 第52-54页 |
·样本文档的Suffix Tree解析 | 第54-61页 |
·Suffix Tree的定义 | 第55-56页 |
·Suffix Tree的构造方法 | 第56-59页 |
·样本文档解析举例 | 第59-61页 |
·备选数据模式集的生成 | 第61-63页 |
·相关定义 | 第61-62页 |
·备选数据模式集的生成算法 | 第62-63页 |
·有效数据模式提取算法 | 第63-65页 |
·有效模式提取的依据 | 第63-64页 |
·有效数据模式提取算法 | 第64-65页 |
·本章小结 | 第65-66页 |
第6章 实例验证与分析 | 第66-75页 |
·样本页面的获取及处理 | 第66-67页 |
·Suffix Tree编码实现 | 第67-69页 |
·构造领域本体 | 第69-71页 |
·抽取Web信息 | 第71-73页 |
·实验结果及分析 | 第73-74页 |
·本章小结 | 第74-75页 |
结论 | 第75-77页 |
参考文献 | 第77-83页 |
攻读硕士学位期间发表的论文和取得的科研成果 | 第83-84页 |
致谢 | 第84页 |