| 摘要 | 第1-6页 |
| Abstract | 第6-11页 |
| 1 绪论 | 第11-20页 |
| ·选题背景和意义 | 第11-12页 |
| ·信息抽取技术 | 第12-18页 |
| ·本文研究内容与创新之处 | 第18-19页 |
| ·本文的章节安排 | 第19-20页 |
| 2 本文涉及的相关概念 | 第20-29页 |
| ·领域关键词 | 第20-21页 |
| ·HTML | 第21-23页 |
| ·XML | 第23-25页 |
| ·DOM树 | 第25-26页 |
| ·正则表达式 | 第26-28页 |
| ·本章小结 | 第28-29页 |
| 3 面向特定领域半结构化文本 Web信息抽取系统的总体设计 | 第29-35页 |
| ·特定领域的半结构化文本Web信息特征分析 | 第29-32页 |
| ·系统的总体设计 | 第32-34页 |
| ·系统开发平台 | 第34页 |
| ·本章小结 | 第34-35页 |
| 4 领域关键词词库的建立 | 第35-50页 |
| ·领域关键词词库的建立流程 | 第35-36页 |
| ·包装器的构建 | 第36-39页 |
| ·网站搜索器的构建 | 第39-46页 |
| ·领域关键词词库的创建 | 第46-49页 |
| ·本章小结 | 第49-50页 |
| 5 基于领域关键词词库的抽取规则自动生成技术 | 第50-62页 |
| ·抽取规则的自动生成流程 | 第50页 |
| ·将样本页面转化为DOM树 | 第50-53页 |
| ·有效结点的提取算法 | 第53-56页 |
| ·抽取规则自动归纳的实现 | 第56-61页 |
| ·本章小结 | 第61-62页 |
| 6 总结与展望 | 第62-64页 |
| 致谢 | 第64-65页 |
| 攻读硕士期间主要成果 | 第65-66页 |
| 参考文献 | 第66-69页 |