基于浏览器的Web结构化数据抽取的研究及实现

提要	第1-7页
第1章绪论	第7-11页
·研究背景及意义	第7-8页
·国内外研究现状	第8-9页
·本文的研究思路和主要内容	第9-11页
第2章 WEB 信息抽取相关概念和技术	第11-18页
·相关概念	第11-12页
·相关技术	第12-18页
·Web 挖掘技术	第12-13页
·Web 信息抽取技术	第13页
·两种富含结构化数据的网页	第13-15页
·数据模型介绍	第15页
·网页信息定位方法	第15-16页
·信息抽取规则描述方法	第16页
·深度网信息抽取技术	第16-18页
第3章 WEB 信息抽取定位算法及其抽取规则	第18-25页
·基于DOM 树路径的算法	第18-22页
·EPath（Exaction Path）	第18-19页
·EPath 的生成	第19-20页
·使用EPath 定位	第20-22页
·基于不变文本算法	第22-23页
·抽取规则	第23-24页
·抽取规则解析	第24-25页
第4章深度网信息抽取	第25-30页
·基于浏览器的深度网导航	第25页
·表单处理	第25-26页
·重复结构识别	第26-28页
·基于规则的翻页的识别	第28-30页
第5章总体设计	第30-37页
·系统架构	第30-31页
·系统模块	第31-32页
·定义抽取指令	第32-33页
·交互式抽取规则生成工具总体设计	第33-34页
·抽取运行时（RUNTIME）总体设计	第34-36页
·其他工具类模块设计	第36-37页
第6章详细设计及其实现	第37-49页
·交互式规则生成工具	第37-42页
·实现功能	第37-38页
·主要设计思路及其算法	第38-39页
·主要模块及其实现	第39-42页
·抽取运行时	第42-48页
·实现功能	第42-43页
·主要设计思想及其算法	第43页
·主要模块及其实现	第43-48页
·网页库和链接库	第48-49页
·实现功能	第48页
·主要设计思想及其算法	第48-49页
第7章实验数据和结论	第49-53页
·实验数据	第49-51页
·结论与展望	第51-53页
·本文的创新工作	第51页
·不足之处和未来的工作	第51-53页
参考文献	第53-57页
攻读硕士学位期间发表的论文和参与的项目	第57-58页
致谢	第58-59页
摘要	第59-62页
ABSTRACT	第62-65页