Web信息自动抽取技术的研究

摘要	第1-5页
ABSTRACT	第5-10页
第一章引言	第10-16页
·论文选题及研究意义	第10-11页
·Web 信息自动抽取技术发展历史	第11-12页
·Web 信息自动抽取技术的研究现状	第12-14页
·本文的研究内容	第14页
·论文结构	第14-16页
第二章 Web 信息自动抽取技术综述	第16-30页
·Web 信息自动抽取技术分类	第17-24页
·基于自然语言理解(NLP)的信息抽取	第17-18页
·基于包装器归纳的信息抽取	第18-20页
·基于 HTML 结构的信息抽取	第20-23页
·基于 Web 查询技术的信息抽取	第23页
·基于本体(ontology)方式的信息抽取	第23页
·基于模型(Modeling-based)的信息抽取	第23-24页
·Web 信息自动抽取技术的比较	第24-28页
·Web 信息抽取的评价指标	第28页
·Web 信息自动抽取存在的问题	第28-29页
·本章小结	第29-30页
第三章 Web 信息抽取技术的基础研究	第30-40页
·智能 Web 爬虫	第30-32页
·网页预处理技术	第32-33页
·浏览器 DOM 模型	第33-39页
·浏览器内核	第34-35页
·DOM 模型	第35-37页
·DOM 框架结构	第37-39页
·本章小结	第39-40页
第四章基于模型的信息抽取技术	第40-59页
·基本概念定义	第40-46页
·定义 1:RPath	第40-41页
·定义 2:IPath	第41-42页
·定义 3:IPATH2	第42-46页
·基于模型的信息抽取总体结构	第46-47页
·抽取规则生成	第47-54页
·用户操作行为分析	第47-49页
·三元素	第49-50页
·IPATH 和 IPATH2 的生成	第50-54页
·抽取规则解析	第54-58页
·Script 定义	第55页
·Script 解析规则	第55-58页
·本章小结	第58-59页
第五章基于模型的信息抽取技术在 M-IE 系统中的应用	第59-70页
·M-IE 系统简介	第59-60页
·M-IE 系统总体设计	第60-63页
·M-IE 系统模块设计与实现	第63-69页
·抽取规则生成模块	第63-66页
·抽取规则解析模块	第66-67页
·信息过滤模块	第67-68页
·数据库模块和数据分析模块	第68-69页
·本章小结	第69-70页
第六章测试与分析	第70-78页
·测试环境	第70页
·抽取规则生成测试	第70-73页
·测试结果分析	第73-77页
·本章小结	第77-78页
第七章结论	第78-80页
·总结	第78页
·下一步工作	第78-80页
致谢	第80-81页
参考文献	第81-86页
攻硕期间取得的成果	第86-87页