基于本体和文本特征的Web信息抽取技术研究
摘要 | 第1-4页 |
Abstract | 第4-7页 |
第一章 绪论 | 第7-11页 |
·研究背景 | 第7页 |
·国内外发展与研究现状 | 第7-9页 |
·本文的研究内容与组织结构 | 第9-11页 |
第二章 Web信息抽取技术 | 第11-17页 |
·信息抽取技术综述 | 第11-13页 |
·数据的组织形式 | 第11页 |
·信息抽取技术概述 | 第11-12页 |
·Web信息抽取概述 | 第12-13页 |
·Web信息抽取的方法 | 第13-16页 |
·基于自然语言处理方式的信息抽取 | 第13-14页 |
·基于包装器归纳方式的信息抽取 | 第14页 |
·基于本体方式的信息抽取 | 第14-15页 |
·基于HTML结构的信息抽取 | 第15页 |
·基于Web查询的信息抽取 | 第15-16页 |
·小结 | 第16-17页 |
第三章 相关理论与关键技术研究 | 第17-29页 |
·本体的基本理论 | 第17-20页 |
·本体的形式化定义 | 第17-18页 |
·本体的特点 | 第18页 |
·本体的描述语言 | 第18-20页 |
·本体的构建 | 第20-25页 |
·本体的构建准则 | 第20-21页 |
·本体的构建方法 | 第21-23页 |
·本体的构建工具 | 第23-25页 |
·Web相关技术 | 第25-28页 |
·XML概述 | 第25-26页 |
·文档对象模型DOM | 第26-27页 |
·XPath技术 | 第27-28页 |
·小结 | 第28-29页 |
第四章 基于本体和文本特征的Web信息抽取方法 | 第29-41页 |
·使用文本特征的噪音处理方法 | 第29-34页 |
·基于文本分块的噪音处理 | 第29-30页 |
·基于文本密度的噪音处理 | 第30-31页 |
·阈值估计算法 | 第31-33页 |
·基于文本标签的噪音处理 | 第33-34页 |
·本体导向的规则系统 | 第34-39页 |
·构建本体 | 第34-36页 |
·本体解析 | 第36-39页 |
·抽取规则的生成 | 第39页 |
·小结 | 第39-41页 |
第五章 系统的设计与实现 | 第41-53页 |
·预处理阶段 | 第42-45页 |
·页面文档清洗 | 第42-43页 |
·编码转换 | 第43-44页 |
·页面解析 | 第44-45页 |
·噪音处理 | 第45页 |
·规则生成与信息抽取 | 第45-47页 |
·数据库的设计 | 第47页 |
·系统的运行实现 | 第47-49页 |
·系统评测及结果 | 第49-51页 |
·评测方法 | 第49-50页 |
·评测结果及分析 | 第50-51页 |
·小结 | 第51-53页 |
第六章 总结与展望 | 第53-55页 |
·研究工作的总结 | 第53页 |
·趋势与展望 | 第53-55页 |
致谢 | 第55-57页 |
参考文献 | 第57-61页 |