| 摘要 | 第1-5页 |
| ABSTRACT | 第5-10页 |
| 第一章 引言 | 第10-16页 |
| ·论文选题及研究意义 | 第10-11页 |
| ·Web 信息自动抽取技术发展历史 | 第11-12页 |
| ·Web 信息自动抽取技术的研究现状 | 第12-14页 |
| ·本文的研究内容 | 第14页 |
| ·论文结构 | 第14-16页 |
| 第二章 Web 信息自动抽取技术综述 | 第16-30页 |
| ·Web 信息自动抽取技术分类 | 第17-24页 |
| ·基于自然语言理解(NLP)的信息抽取 | 第17-18页 |
| ·基于包装器归纳的信息抽取 | 第18-20页 |
| ·基于 HTML 结构的信息抽取 | 第20-23页 |
| ·基于 Web 查询技术的信息抽取 | 第23页 |
| ·基于本体(ontology)方式的信息抽取 | 第23页 |
| ·基于模型(Modeling-based)的信息抽取 | 第23-24页 |
| ·Web 信息自动抽取技术的比较 | 第24-28页 |
| ·Web 信息抽取的评价指标 | 第28页 |
| ·Web 信息自动抽取存在的问题 | 第28-29页 |
| ·本章小结 | 第29-30页 |
| 第三章 Web 信息抽取技术的基础研究 | 第30-40页 |
| ·智能 Web 爬虫 | 第30-32页 |
| ·网页预处理技术 | 第32-33页 |
| ·浏览器 DOM 模型 | 第33-39页 |
| ·浏览器内核 | 第34-35页 |
| ·DOM 模型 | 第35-37页 |
| ·DOM 框架结构 | 第37-39页 |
| ·本章小结 | 第39-40页 |
| 第四章 基于模型的信息抽取技术 | 第40-59页 |
| ·基本概念定义 | 第40-46页 |
| ·定义 1:RPath | 第40-41页 |
| ·定义 2:IPath | 第41-42页 |
| ·定义 3:IPATH2 | 第42-46页 |
| ·基于模型的信息抽取总体结构 | 第46-47页 |
| ·抽取规则生成 | 第47-54页 |
| ·用户操作行为分析 | 第47-49页 |
| ·三元素 | 第49-50页 |
| ·IPATH 和 IPATH2 的生成 | 第50-54页 |
| ·抽取规则解析 | 第54-58页 |
| ·Script 定义 | 第55页 |
| ·Script 解析规则 | 第55-58页 |
| ·本章小结 | 第58-59页 |
| 第五章 基于模型的信息抽取技术在 M-IE 系统中的应用 | 第59-70页 |
| ·M-IE 系统简介 | 第59-60页 |
| ·M-IE 系统总体设计 | 第60-63页 |
| ·M-IE 系统模块设计与实现 | 第63-69页 |
| ·抽取规则生成模块 | 第63-66页 |
| ·抽取规则解析模块 | 第66-67页 |
| ·信息过滤模块 | 第67-68页 |
| ·数据库模块和数据分析模块 | 第68-69页 |
| ·本章小结 | 第69-70页 |
| 第六章 测试与分析 | 第70-78页 |
| ·测试环境 | 第70页 |
| ·抽取规则生成测试 | 第70-73页 |
| ·测试结果分析 | 第73-77页 |
| ·本章小结 | 第77-78页 |
| 第七章 结论 | 第78-80页 |
| ·总结 | 第78页 |
| ·下一步工作 | 第78-80页 |
| 致谢 | 第80-81页 |
| 参考文献 | 第81-86页 |
| 攻硕期间取得的成果 | 第86-87页 |