基于Web的信息抽取技术研究
摘要 | 第1-7页 |
Abstract | 第7-10页 |
第1章 绪论 | 第10-14页 |
·研究背景 | 第10-11页 |
·研究意义 | 第11-12页 |
·本文研究内容 | 第12页 |
·论文结构安排 | 第12-14页 |
第2章 Web信息抽取概述 | 第14-28页 |
·Web信息抽取的发展历史 | 第14-15页 |
·Web信息抽取的定义和Web信息的特点 | 第15-17页 |
·Web信息抽取技术分析 | 第17-26页 |
·基于正则表达式的信息抽取 | 第17-19页 |
·基于自然语言处理的信息抽取 | 第19-20页 |
·基于本体的信息抽取 | 第20-23页 |
·基于包装器归纳的信息抽取 | 第23-25页 |
·基于HTML结构的信息抽取 | 第25-26页 |
·基于Web查询的信息抽取 | 第26页 |
·本章小结 | 第26-28页 |
第3章 基于XML技术的Web信息抽取 | 第28-38页 |
·概述 | 第28-30页 |
·问题的提出 | 第28页 |
·网页的格式及XML技术的优势 | 第28-30页 |
·Web信息抽取流程 | 第30-31页 |
·相关技术介绍 | 第31-38页 |
·DOM模型 | 第32-34页 |
·XPath | 第34-38页 |
第四章 基于XML技术的Web信息抽取的实现 | 第38-66页 |
·Web文档的预处理 | 第38-45页 |
·将HTML文档解析为DOM模型 | 第39页 |
·将HTML文档转换为形式上的XML文档 | 第39-45页 |
·抽取规则 | 第45-53页 |
·抽取规则的设计 | 第45-48页 |
·抽取规则的生成 | 第48-53页 |
·信息抽取 | 第53-57页 |
·附加语义 | 第57-60页 |
·抽取规则的优化 | 第60-66页 |
·利用标记属性进行优化 | 第61-62页 |
·利用标记之间的数量关系进行优化 | 第62-63页 |
·对新闻信息抽取规则进行优化 | 第63-66页 |
第五章 原型系统和实验 | 第66-72页 |
·原型系统的介绍 | 第66-68页 |
·开发平台和工具 | 第66页 |
·操作界面和功能介绍 | 第66-68页 |
·信息抽取的评价标准 | 第68-69页 |
·实验结果及分析 | 第69-72页 |
结论 | 第72-74页 |
本文总结 | 第72页 |
下一步工作 | 第72-74页 |
致谢 | 第74-75页 |
参考文献 | 第75-79页 |
攻读硕士学位期间发表的论文 | 第79页 |