摘要 | 第1-5页 |
ABSTRACT | 第5-10页 |
第一章 引言 | 第10-16页 |
·论文选题及研究意义 | 第10-11页 |
·Web 信息自动抽取技术发展历史 | 第11-12页 |
·Web 信息自动抽取技术的研究现状 | 第12-14页 |
·本文的研究内容 | 第14页 |
·论文结构 | 第14-16页 |
第二章 Web 信息自动抽取技术综述 | 第16-30页 |
·Web 信息自动抽取技术分类 | 第17-24页 |
·基于自然语言理解(NLP)的信息抽取 | 第17-18页 |
·基于包装器归纳的信息抽取 | 第18-20页 |
·基于 HTML 结构的信息抽取 | 第20-23页 |
·基于 Web 查询技术的信息抽取 | 第23页 |
·基于本体(ontology)方式的信息抽取 | 第23页 |
·基于模型(Modeling-based)的信息抽取 | 第23-24页 |
·Web 信息自动抽取技术的比较 | 第24-28页 |
·Web 信息抽取的评价指标 | 第28页 |
·Web 信息自动抽取存在的问题 | 第28-29页 |
·本章小结 | 第29-30页 |
第三章 Web 信息抽取技术的基础研究 | 第30-40页 |
·智能 Web 爬虫 | 第30-32页 |
·网页预处理技术 | 第32-33页 |
·浏览器 DOM 模型 | 第33-39页 |
·浏览器内核 | 第34-35页 |
·DOM 模型 | 第35-37页 |
·DOM 框架结构 | 第37-39页 |
·本章小结 | 第39-40页 |
第四章 基于模型的信息抽取技术 | 第40-59页 |
·基本概念定义 | 第40-46页 |
·定义 1:RPath | 第40-41页 |
·定义 2:IPath | 第41-42页 |
·定义 3:IPATH2 | 第42-46页 |
·基于模型的信息抽取总体结构 | 第46-47页 |
·抽取规则生成 | 第47-54页 |
·用户操作行为分析 | 第47-49页 |
·三元素 | 第49-50页 |
·IPATH 和 IPATH2 的生成 | 第50-54页 |
·抽取规则解析 | 第54-58页 |
·Script 定义 | 第55页 |
·Script 解析规则 | 第55-58页 |
·本章小结 | 第58-59页 |
第五章 基于模型的信息抽取技术在 M-IE 系统中的应用 | 第59-70页 |
·M-IE 系统简介 | 第59-60页 |
·M-IE 系统总体设计 | 第60-63页 |
·M-IE 系统模块设计与实现 | 第63-69页 |
·抽取规则生成模块 | 第63-66页 |
·抽取规则解析模块 | 第66-67页 |
·信息过滤模块 | 第67-68页 |
·数据库模块和数据分析模块 | 第68-69页 |
·本章小结 | 第69-70页 |
第六章 测试与分析 | 第70-78页 |
·测试环境 | 第70页 |
·抽取规则生成测试 | 第70-73页 |
·测试结果分析 | 第73-77页 |
·本章小结 | 第77-78页 |
第七章 结论 | 第78-80页 |
·总结 | 第78页 |
·下一步工作 | 第78-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-86页 |
攻硕期间取得的成果 | 第86-87页 |