基于XML的Web信息抽取设计与实现
中文摘要 | 第1-4页 |
英文摘要 | 第4-7页 |
1 绪论 | 第7-11页 |
·论文选题的背景及意义 | 第7页 |
·国内外现状综述 | 第7-9页 |
·论文的内容及组织 | 第9-11页 |
2 XML 技术标准与 Web 信息抽取技术 | 第11-24页 |
·XML 技术标准 | 第11-16页 |
·XML 技术介绍 | 第11-14页 |
·XHTML | 第14-15页 |
·DOM | 第15页 |
·XSLT | 第15-16页 |
·Web 信息抽取技术介绍 | 第16-23页 |
·Web 信息抽取技术概述 | 第16-17页 |
·Web 信息抽取技术的分类 | 第17-22页 |
·Web 信息抽取的应用 | 第22页 |
·信息抽取系统的评测指标 | 第22-23页 |
·本章小结 | 第23-24页 |
3 基于 XML 的 Web 信息抽取方法 | 第24-37页 |
·引言 | 第24页 |
·现有的Web 页面信息抽取的相关方法 | 第24-27页 |
·手工方式的信息抽取 | 第24-25页 |
·半自动化的信息抽取 | 第25-26页 |
·自动(基于规则)的信息抽取 | 第26-27页 |
·基于树型结构的Web 数据抽取规则 | 第27-31页 |
·用树型结构表示Web 文档 | 第27页 |
·算法总体思路 | 第27-30页 |
·抽取数据的XML 输出 | 第30-31页 |
·XML 的数据访问机制 | 第31-36页 |
·XML 数据岛 | 第31-32页 |
·使用DOM 访问XML 文档 | 第32-36页 |
·本章小结 | 第36-37页 |
4 XML 信息抽取的健壮性 | 第37-46页 |
·引言 | 第37页 |
·问题描述 | 第37-38页 |
·健壮性标准 | 第38-39页 |
·区域定位 | 第39-43页 |
·使用唯一的ID | 第39页 |
·搜索相似上下文 | 第39-40页 |
·遍历树节点 | 第40-43页 |
·数据映射以及合并 | 第43-44页 |
·数据映射 | 第43-44页 |
·数据合并 | 第44页 |
·本章小结 | 第44-46页 |
5 信息抽取原型系统的设计与实现 | 第46-54页 |
·需求分析 | 第46-48页 |
·基于规则的自动抽取 | 第46-47页 |
·基于人工的手动抽取 | 第47页 |
·系统用例设计及分析 | 第47-48页 |
·原型系统总体框架设计 | 第48-51页 |
·系统功能模块设计 | 第48-49页 |
·系统体系结构设计 | 第49页 |
·功能模块的介绍 | 第49-51页 |
·原型系统的实现及评价 | 第51-53页 |
·系统实现环境 | 第51-52页 |
·原型系统评价策略 | 第52-53页 |
·本章小结 | 第53-54页 |
6 结论 | 第54-56页 |
·论文总结 | 第54页 |
·工作展望 | 第54-56页 |
致谢 | 第56-57页 |
参考文献 | 第57-60页 |
附录 部分模块程序代码 | 第60-62页 |
作者在攻读硕士学位期间发表及录用的论文目录 | 第62页 |