一种高适应性的网页信息抽取机制的设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 研究背景与意义	第9-10页
1.2 国内外研究现状	第10-13页
1.3 研究内容	第13-14页
1.4 本文结构组织安排	第14页
1.5 本章小结	第14-15页
第二章相关概念、理论与关键技术	第15-24页
2.1 网页信息抽取相关概念	第15-19页
2.1.1 HTML & DOM	第15-16页
2.1.2 XML & Xpath	第16-18页
2.1.3 正则表达式	第18-19页
2.2 爬虫技术	第19-21页
2.3 网页信息抽取系统的关键技术	第21-23页
2.3.1 抽取规则的描述	第21-22页
2.3.2 规则的生成	第22-23页
2.4 本章小结	第23-24页
第三章信息抽取机制研究	第24-34页
3.1 网页信息抽取模型	第24-25页
3.2 网页导航过程与模型	第25-26页
3.3 网页数据抽取过程与模型	第26-28页
3.4 数据集成模型与流程控制	第28-31页
3.4.1 数据集成模型	第28-30页
3.4.2 流程控制	第30-31页
3.5 动态页面获取策略	第31-32页
3.6 网页元素识别	第32-33页
3.7 本章小结	第33-34页
第四章信息抽取系统设计	第34-47页
4.1 系统设计目标	第34-35页
4.2 系统整体设计	第35-37页
4.2.1 机制整体框架	第35-36页
4.2.2 系统处理流程	第36-37页
4.3 各模块详细设计	第37-44页
4.3.1 抽取控制器	第37-38页
4.3.2 抽取过滤器	第38-41页
4.3.3 规则包装器	第41-42页
4.3.4 信息抽取器	第42-44页
4.4 网页元素类型设计	第44-46页
4.5 本章小结	第46-47页
第五章系统实现与验证	第47-60页
5.1 技术方案选型	第47-48页
5.2 抽取规则信息与生成	第48-50页
5.2.1 人工规则的生成方式	第48-50页
5.2.2 抽取规则信息	第50页
5.3 系统的实现	第50-56页
5.3.1 抽取任务运行模块的实现	第50-52页
5.3.2 URL处理模块的实现	第52-54页
5.3.3 数据集成模块的实现	第54-56页
5.4 评估方法	第56页
5.5 系统实验与结果分析	第56-59页
5.6 本章小结	第59-60页
第六章总结与展望	第60-63页
6.1 论文工作总结	第60-61页
6.2 展望	第61-62页
6.3 本章小结	第62-63页
参考文献	第63-66页
致谢	第66-67页
攻读学位期间发表的学术论文目录	第67页