基于Web的信息抽取技术研究
| 摘要 | 第1-7页 |
| Abstract | 第7-10页 |
| 第1章 绪论 | 第10-14页 |
| ·研究背景 | 第10-11页 |
| ·研究意义 | 第11-12页 |
| ·本文研究内容 | 第12页 |
| ·论文结构安排 | 第12-14页 |
| 第2章 Web信息抽取概述 | 第14-28页 |
| ·Web信息抽取的发展历史 | 第14-15页 |
| ·Web信息抽取的定义和Web信息的特点 | 第15-17页 |
| ·Web信息抽取技术分析 | 第17-26页 |
| ·基于正则表达式的信息抽取 | 第17-19页 |
| ·基于自然语言处理的信息抽取 | 第19-20页 |
| ·基于本体的信息抽取 | 第20-23页 |
| ·基于包装器归纳的信息抽取 | 第23-25页 |
| ·基于HTML结构的信息抽取 | 第25-26页 |
| ·基于Web查询的信息抽取 | 第26页 |
| ·本章小结 | 第26-28页 |
| 第3章 基于XML技术的Web信息抽取 | 第28-38页 |
| ·概述 | 第28-30页 |
| ·问题的提出 | 第28页 |
| ·网页的格式及XML技术的优势 | 第28-30页 |
| ·Web信息抽取流程 | 第30-31页 |
| ·相关技术介绍 | 第31-38页 |
| ·DOM模型 | 第32-34页 |
| ·XPath | 第34-38页 |
| 第四章 基于XML技术的Web信息抽取的实现 | 第38-66页 |
| ·Web文档的预处理 | 第38-45页 |
| ·将HTML文档解析为DOM模型 | 第39页 |
| ·将HTML文档转换为形式上的XML文档 | 第39-45页 |
| ·抽取规则 | 第45-53页 |
| ·抽取规则的设计 | 第45-48页 |
| ·抽取规则的生成 | 第48-53页 |
| ·信息抽取 | 第53-57页 |
| ·附加语义 | 第57-60页 |
| ·抽取规则的优化 | 第60-66页 |
| ·利用标记属性进行优化 | 第61-62页 |
| ·利用标记之间的数量关系进行优化 | 第62-63页 |
| ·对新闻信息抽取规则进行优化 | 第63-66页 |
| 第五章 原型系统和实验 | 第66-72页 |
| ·原型系统的介绍 | 第66-68页 |
| ·开发平台和工具 | 第66页 |
| ·操作界面和功能介绍 | 第66-68页 |
| ·信息抽取的评价标准 | 第68-69页 |
| ·实验结果及分析 | 第69-72页 |
| 结论 | 第72-74页 |
| 本文总结 | 第72页 |
| 下一步工作 | 第72-74页 |
| 致谢 | 第74-75页 |
| 参考文献 | 第75-79页 |
| 攻读硕士学位期间发表的论文 | 第79页 |