首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于浏览器的Web结构化数据抽取的研究及实现

提要第1-7页
第1章 绪论第7-11页
   ·研究背景及意义第7-8页
   ·国内外研究现状第8-9页
   ·本文的研究思路和主要内容第9-11页
第2章 WEB 信息抽取相关概念和技术第11-18页
   ·相关概念第11-12页
   ·相关技术第12-18页
     ·Web 挖掘技术第12-13页
     ·Web 信息抽取技术第13页
     ·两种富含结构化数据的网页第13-15页
     ·数据模型介绍第15页
     ·网页信息定位方法第15-16页
     ·信息抽取规则描述方法第16页
     ·深度网信息抽取技术第16-18页
第3章 WEB 信息抽取定位算法及其抽取规则第18-25页
   ·基于DOM 树路径的算法第18-22页
     ·EPath(Exaction Path)第18-19页
     ·EPath 的生成第19-20页
     ·使用EPath 定位第20-22页
   ·基于不变文本算法第22-23页
   ·抽取规则第23-24页
   ·抽取规则解析第24-25页
第4章 深度网信息抽取第25-30页
   ·基于浏览器的深度网导航第25页
   ·表单处理第25-26页
   ·重复结构识别第26-28页
   ·基于规则的翻页的识别第28-30页
第5章 总体设计第30-37页
   ·系统架构第30-31页
   ·系统模块第31-32页
   ·定义抽取指令第32-33页
   ·交互式抽取规则生成工具总体设计第33-34页
   ·抽取运行时(RUNTIME)总体设计第34-36页
   ·其他工具类模块设计第36-37页
第6章 详细设计及其实现第37-49页
   ·交互式规则生成工具第37-42页
     ·实现功能第37-38页
     ·主要设计思路及其算法第38-39页
     ·主要模块及其实现第39-42页
   ·抽取运行时第42-48页
     ·实现功能第42-43页
     ·主要设计思想及其算法第43页
     ·主要模块及其实现第43-48页
   ·网页库和链接库第48-49页
     ·实现功能第48页
     ·主要设计思想及其算法第48-49页
第7章 实验数据和结论第49-53页
   ·实验数据第49-51页
   ·结论与展望第51-53页
     ·本文的创新工作第51页
     ·不足之处和未来的工作第51-53页
参考文献第53-57页
攻读硕士学位期间发表的论文和参与的项目第57-58页
致谢第58-59页
摘要第59-62页
ABSTRACT第62-65页

论文共65页,点击 下载论文
上一篇:规则交换格式RIF在表示语义Web规则中的应用及其推理研究
下一篇:基于组件与终端输出关系的诊断求解