精确web信息抽取系统的设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-14页
1.1 研究背景与意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 研究内容	第12-13页
1.4 本文组织结构安排	第13-14页
第二章相关概念、理论与关键技术	第14-22页
2.1 信息抽取相关概念	第14-17页
2.1.1 HTML & DOM	第14-15页
2.1.2 XML & XPath	第15-16页
2.1.3 正则表达式	第16-17页
2.2 爬虫技术	第17-18页
2.3 页面渲染引擎	第18-19页
2.4 信息检索模型	第19-21页
2.4.1 布尔模型	第20页
2.4.2 向量空间模型	第20-21页
2.5 本章小结	第21-22页
第三章精确WEB信息抽取系统的研究	第22-31页
3.1 精确WEB信息抽取模型	第22-23页
3.2 抽取规则与基于XML的抽取模版生成	第23-26页
3.2.1 基于用户交互的抽取信息定义及规则生成	第24页
3.2.2 模版引擎与抽取模版生成	第24-26页
3.3 抽取字段元素和导航元素类型研究	第26-28页
3.4 网页浏览导航模型	第28-29页
3.5 网页元素识别	第29-30页
3.6 本章小结	第30-31页
第四章精确WEB信息抽取系统的设计	第31-42页
4.1 系统设计目标	第31页
4.2 系统总体设计	第31-34页
4.2.1 系统处理流程	第31-33页
4.2.2 总体架构和模块设计	第33-34页
4.3 系统各功能模块的设计	第34-35页
4.3.1 网页数据识别与标注模块	第34页
4.3.2 抽取规则与模版生成模块	第34页
4.3.3 抽取任务运行模块	第34-35页
4.3.4 数据集成模块	第35页
4.4 元素与导航类型设计	第35-38页
4.4.1 网页抽取元素类型	第35-37页
4.4.2 导航元素类型	第37-38页
4.5 数据结构设计	第38-40页
4.6 接口设计	第40页
4.7 系统主界面的设计	第40-41页
4.8 本章小结	第41-42页
第五章精确WEB信息抽取系统的实现	第42-55页
5.1 开发技术选型	第43页
5.2 网页数据识别与标注模块的实现	第43-48页
5.3 抽取模版生成模块的实现	第48-51页
5.3.1 抽取模版的定义	第48-50页
5.3.2 抽取模版文件的生成	第50-51页
5.4 抽取任务运行模块的实现	第51-53页
5.5 数据集成模块的实现	第53-54页
5.6 本章小结	第54-55页
第六章实验结果分析	第55-59页
6.1 实验环境	第55页
6.2 评估方法及实验结果	第55-58页
6.2.1 评估方法	第55-56页
6.2.2 Web信息抽取系统实验	第56-58页
6.3 结果分析	第58页
6.4 本章小结	第58-59页
第七章总结与展望	第59-61页
7.1 论文工作总结	第59-60页
7.2 展望	第60-61页
参考文献	第61-63页
致谢	第63-64页
攻读学位期间发表的学术论文目录	第64页