摘要 | 第1-4页 |
Abatract | 第4-10页 |
第一章 绪言 | 第10-15页 |
1.1 基于本体的 Web非规范知识采集研究的产生背景 | 第10页 |
1.2 基于本体的 Web非规范知识采集研究的发展 | 第10-12页 |
1.2.1 基于本体的 Web非规范知识采集的相关方法 | 第10-11页 |
1.2.1.1 直接解析 HTML文档的方法 | 第11页 |
1.2.1.2 基于概念建模的方法(Conceptual-Model-Based Approach) | 第11页 |
1.2.2 基于本体的Web非规范知识采集中规则的表示 | 第11-12页 |
1.2.3 基于本体的web非规范知识采集具有的特点 | 第12页 |
1.2.3.1 语义分析 | 第12页 |
1.2.3.2 针对性强,精度高 | 第12页 |
1.3 本课题主要解决的问题 | 第12-13页 |
1.4 本课题的主要研究内容 | 第13页 |
1.5 论文的结构 | 第13-15页 |
第二章 相关标准 | 第15-34页 |
2.1 HTML (Hyper Text Markup Language) | 第15-16页 |
2.2 XML | 第16-34页 |
2.2.1 XML的产生 | 第16页 |
2.2.2 XML语法 | 第16-18页 |
2.2.2.1 XML文档 | 第17-18页 |
2.2.3 元素(Element)与标记(Tag) | 第18页 |
2.2.4 属性(Attribute) | 第18页 |
2.2.5 XML验证(Validation) | 第18-19页 |
2.2.5.1 DTD | 第18-19页 |
2.2.5.2 模式 | 第19页 |
2.2.6 样式单 | 第19-20页 |
2.2.6.1 XSLT(XSL Transformation) | 第20页 |
2.2.7 XML包括一套相关的标准 | 第20页 |
2.3 XHTML | 第20-21页 |
2.4 DOM(Document Object Model) | 第21页 |
2.5 XPath | 第21-26页 |
2.5.1 查询 | 第22-23页 |
2.5.2 定位路径(Location Path) | 第23-25页 |
2.5.2.1 轴 | 第23页 |
2.5.2.2 节点测试 | 第23-24页 |
2.5.2.3 谓词 | 第24页 |
2.5.2.4 复合定位路径 | 第24页 |
2.5.2.5 绝对定位路径 | 第24页 |
2.5.2.6 缩写定位路径 | 第24-25页 |
2.5.3 表达式 | 第25-26页 |
2.5.3.1 常量 | 第25页 |
2.5.3.2 运算符 | 第25-26页 |
2.5.3.3 函数 | 第26页 |
2.6 XSLT | 第26-34页 |
2.6.1 模板 | 第27页 |
2.6.2 取得节点值 | 第27-28页 |
2.6.3 应用模板 | 第28页 |
2.6.4 默认模板规则 | 第28-29页 |
2.6.5 循环 | 第29页 |
2.6.6 选择 | 第29-30页 |
2.6.7 变量 | 第30-31页 |
2.6.8 按名称调用模板 | 第31-32页 |
2.6.9 用 Java扩展XSLT | 第32页 |
2.6.10 EXSLT(Extensions to XSLT) | 第32-34页 |
第三章 相关技术综述 | 第34-58页 |
3.1 Bot技术 | 第34-38页 |
3.1.1 网络机器人的结构分析 | 第34-35页 |
3.1.1.1 如何解析 HTML | 第34-35页 |
3.1.2 Spider程序结构 | 第35-36页 |
3.1.3 如何构造 Spider程序 | 第36-38页 |
3.1.4 小节 | 第38页 |
3.2 Lucene技术 | 第38-41页 |
3.2.1 Lucene的原理分析 | 第38-40页 |
3.2.1.1 全文检索的实现机制 | 第38-39页 |
3.2.1.2 Lucene的索引效率 | 第39-40页 |
3.2.1.3 中文切分词机制 | 第40页 |
3.2.2 小节 | 第40-41页 |
3.3 本体 | 第41-47页 |
3.3.1 本体的概念 | 第41-42页 |
3.3.2 本体的建立过程 | 第42-43页 |
3.3.3 Ontology的知识表示 | 第43页 |
3.3.4 Ontology的构建规范 | 第43页 |
3.3.5 本体建设工具 | 第43-47页 |
3.3.5.1 基于Al的本体描述语言的一类工具 | 第43-45页 |
3.3.5.2 基于Web的本体描述语言的一类工具 | 第45-47页 |
3.3.6 本课题使用的技术 | 第47页 |
3.4 DOM模板 | 第47-52页 |
3.4.1 DOM 的定义 | 第47-48页 |
3.4.2 DOM 模板的简介和发展 | 第48-50页 |
3.4.3 DOM 的主要特点 | 第50-51页 |
3.4.5 DOM 和HTML 树型逻辑结构 | 第51-52页 |
3.4.6 两个常用的编程接口: Node和 HTML Collection | 第52页 |
3.5 HTML转换 XML的技术 | 第52-54页 |
3.5.1 问题的提出 | 第52-53页 |
3.5.2 实现HTML到XML转换的必要性 | 第53页 |
3.5.3 HTML-XML转换相关的技术 | 第53-54页 |
3.5.4 本课题使用的技术 | 第54页 |
3.6 XML的存储技术 | 第54-58页 |
3.6.1 XML数据存储技术研究现状 | 第55-57页 |
3.6.2 本课题采用的技术 | 第57-58页 |
第四章 基于领域本体的资源管理平台 | 第58-67页 |
4.1 总体框架 | 第58-60页 |
4.2 各部分的功能 | 第60-62页 |
4.3 平台管理的资源 | 第62页 |
4.4 基于本体的领域资源管理系统框架的设计原则 | 第62-64页 |
4.5 本体开发语言 RDF/RDFS | 第64页 |
4.6 资源存储 | 第64-67页 |
第五章 基于本体的Web非规范知识采集系统 | 第67-89页 |
5.1 Web页面信息抽取系统的一般实现 | 第67-68页 |
5.1.1 Web信息抽取系统的工作过程 | 第67页 |
5.1.2 Web信息抽取系统工作原理示意图 | 第67-68页 |
5.2 基于本体的 Web非规范知识采集系统 | 第68-89页 |
5.2.1 HTML-XML转换包装器的系统设计思想 | 第69-70页 |
5.2.2 HTML-ML包装器的软件结构 | 第70-74页 |
5.2.2.1 HTML句法规范器 | 第71页 |
5.2.2.2 HTML解析器 | 第71页 |
5.2.2.3 XSLT信息抽取器 | 第71-73页 |
5.2.2.4 结构列表生成器 | 第73页 |
5.2.2.5 XML模板映射器 | 第73-74页 |
5.2.2.6 XML信元生成器 | 第74页 |
5.2.3 HTML-XML包装器的实现流程 | 第74-89页 |
5.2.3.1 HTML句法规范器的具体实现 | 第74页 |
5.2.3.2 HTML解析器的具体实现 | 第74-76页 |
5.2.3.3 XSLT信息抽取器的具体实现 | 第76-83页 |
5.2.3.4 结构列表生成器的具体实现 | 第83-84页 |
5.2.3.5 XML模板映射器的具体实现 | 第84-87页 |
5.2.3.6 XML信元生成器的具体实现 | 第87-89页 |
第六章 总结与展望 | 第89-91页 |
致谢 | 第91-92页 |
参考文献 | 第92-96页 |
附录:攻读学位期间发表论文情况 | 第96页 |