基于本体的Web非规范知识处理中采集技术研究

摘要	第1-4页
Abatract	第4-10页
第一章绪言	第10-15页
1．1 基于本体的 Web非规范知识采集研究的产生背景	第10页
1．2 基于本体的 Web非规范知识采集研究的发展	第10-12页
1．2．1 基于本体的 Web非规范知识采集的相关方法	第10-11页
1．2．1．1 直接解析 HTML文档的方法	第11页
1．2．1．2 基于概念建模的方法(Conceptual-Model-Based Approach)	第11页
1．2．2 基于本体的Web非规范知识采集中规则的表示	第11-12页
1．2．3 基于本体的web非规范知识采集具有的特点	第12页
1．2．3．1 语义分析	第12页
1．2．3．2 针对性强，精度高	第12页
1．3 本课题主要解决的问题	第12-13页
1．4 本课题的主要研究内容	第13页
1．5 论文的结构	第13-15页
第二章相关标准	第15-34页
2．1 HTML (Hyper Text Markup Language)	第15-16页
2．2 XML	第16-34页
2．2．1 XML的产生	第16页
2．2．2 XML语法	第16-18页
2．2．2．1 XML文档	第17-18页
2．2．3 元素(Element)与标记(Tag)	第18页
2．2．4 属性(Attribute)	第18页
2．2．5 XML验证(Validation)	第18-19页
2．2．5．1 DTD	第18-19页
2．2．5．2 模式	第19页
2．2．6 样式单	第19-20页
2．2．6．1 XSLT(XSL Transformation)	第20页
2．2．7 XML包括一套相关的标准	第20页
2．3 XHTML	第20-21页
2．4 DOM(Document Object Model)	第21页
2．5 XPath	第21-26页
2．5．1 查询	第22-23页
2．5．2 定位路径(Location Path)	第23-25页
2．5．2．1 轴	第23页
2．5．2．2 节点测试	第23-24页
2．5．2．3 谓词	第24页
2．5．2．4 复合定位路径	第24页
2．5．2．5 绝对定位路径	第24页
2．5．2．6 缩写定位路径	第24-25页
2．5．3 表达式	第25-26页
2．5．3．1 常量	第25页
2．5．3．2 运算符	第25-26页
2．5．3．3 函数	第26页
2．6 XSLT	第26-34页
2．6．1 模板	第27页
2．6．2 取得节点值	第27-28页
2．6．3 应用模板	第28页
2．6．4 默认模板规则	第28-29页
2．6．5 循环	第29页
2．6．6 选择	第29-30页
2．6．7 变量	第30-31页
2．6．8 按名称调用模板	第31-32页
2．6．9 用 Java扩展XSLT	第32页
2．6．10 EXSLT(Extensions to XSLT)	第32-34页
第三章相关技术综述	第34-58页
3．1 Bot技术	第34-38页
3．1．1 网络机器人的结构分析	第34-35页
3．1．1．1 如何解析 HTML	第34-35页
3．1．2 Spider程序结构	第35-36页
3．1．3 如何构造 Spider程序	第36-38页
3．1．4 小节	第38页
3．2 Lucene技术	第38-41页
3．2．1 Lucene的原理分析	第38-40页
3．2．1．1 全文检索的实现机制	第38-39页
3．2．1．2 Lucene的索引效率	第39-40页
3．2．1．3 中文切分词机制	第40页
3．2．2 小节	第40-41页
3．3 本体	第41-47页
3．3．1 本体的概念	第41-42页
3．3．2 本体的建立过程	第42-43页
3．3．3 Ontology的知识表示	第43页
3．3．4 Ontology的构建规范	第43页
3．3．5 本体建设工具	第43-47页
3．3．5．1 基于Al的本体描述语言的一类工具	第43-45页
3．3．5．2 基于Web的本体描述语言的一类工具	第45-47页
3．3．6 本课题使用的技术	第47页
3．4 DOM模板	第47-52页
3．4．1 DOM 的定义	第47-48页
3．4．2 DOM 模板的简介和发展	第48-50页
3．4．3 DOM 的主要特点	第50-51页
3．4．5 DOM 和HTML 树型逻辑结构	第51-52页
3．4．6 两个常用的编程接口: Node和 HTML Collection	第52页
3．5 HTML转换 XML的技术	第52-54页
3．5．1 问题的提出	第52-53页
3．5．2 实现HTML到XML转换的必要性	第53页
3．5．3 HTML-XML转换相关的技术	第53-54页
3．5．4 本课题使用的技术	第54页
3．6 XML的存储技术	第54-58页
3．6．1 XML数据存储技术研究现状	第55-57页
3．6．2 本课题采用的技术	第57-58页
第四章基于领域本体的资源管理平台	第58-67页
4．1 总体框架	第58-60页
4．2 各部分的功能	第60-62页
4．3 平台管理的资源	第62页
4．4 基于本体的领域资源管理系统框架的设计原则	第62-64页
4．5 本体开发语言 RDF/RDFS	第64页
4．6 资源存储	第64-67页
第五章基于本体的Web非规范知识采集系统	第67-89页
5．1 Web页面信息抽取系统的一般实现	第67-68页
5．1．1 Web信息抽取系统的工作过程	第67页
5．1．2 Web信息抽取系统工作原理示意图	第67-68页
5．2 基于本体的 Web非规范知识采集系统	第68-89页
5．2．1 HTML-XML转换包装器的系统设计思想	第69-70页
5．2．2 HTML-ML包装器的软件结构	第70-74页
5．2．2．1 HTML句法规范器	第71页
5．2．2．2 HTML解析器	第71页
5．2．2．3 XSLT信息抽取器	第71-73页
5．2．2．4 结构列表生成器	第73页
5．2．2．5 XML模板映射器	第73-74页
5．2．2．6 XML信元生成器	第74页
5．2．3 HTML-XML包装器的实现流程	第74-89页
5．2．3．1 HTML句法规范器的具体实现	第74页
5．2．3．2 HTML解析器的具体实现	第74-76页
5．2．3．3 XSLT信息抽取器的具体实现	第76-83页
5．2．3．4 结构列表生成器的具体实现	第83-84页
5．2．3．5 XML模板映射器的具体实现	第84-87页
5．2．3．6 XML信元生成器的具体实现	第87-89页
第六章总结与展望	第89-91页
致谢	第91-92页
参考文献	第92-96页
附录:攻读学位期间发表论文情况	第96页