摘要 | 第1-6页 |
Abstract | 第6-11页 |
1 绪论 | 第11-20页 |
·选题背景和意义 | 第11-12页 |
·信息抽取技术 | 第12-18页 |
·本文研究内容与创新之处 | 第18-19页 |
·本文的章节安排 | 第19-20页 |
2 本文涉及的相关概念 | 第20-29页 |
·领域关键词 | 第20-21页 |
·HTML | 第21-23页 |
·XML | 第23-25页 |
·DOM树 | 第25-26页 |
·正则表达式 | 第26-28页 |
·本章小结 | 第28-29页 |
3 面向特定领域半结构化文本 Web信息抽取系统的总体设计 | 第29-35页 |
·特定领域的半结构化文本Web信息特征分析 | 第29-32页 |
·系统的总体设计 | 第32-34页 |
·系统开发平台 | 第34页 |
·本章小结 | 第34-35页 |
4 领域关键词词库的建立 | 第35-50页 |
·领域关键词词库的建立流程 | 第35-36页 |
·包装器的构建 | 第36-39页 |
·网站搜索器的构建 | 第39-46页 |
·领域关键词词库的创建 | 第46-49页 |
·本章小结 | 第49-50页 |
5 基于领域关键词词库的抽取规则自动生成技术 | 第50-62页 |
·抽取规则的自动生成流程 | 第50页 |
·将样本页面转化为DOM树 | 第50-53页 |
·有效结点的提取算法 | 第53-56页 |
·抽取规则自动归纳的实现 | 第56-61页 |
·本章小结 | 第61-62页 |
6 总结与展望 | 第62-64页 |
致谢 | 第64-65页 |
攻读硕士期间主要成果 | 第65-66页 |
参考文献 | 第66-69页 |