首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

对Web网页的信息提取技术的研究

第一章 绪 论第1-10页
 1.1 课题的来源第6页
 1.2 网页信息提取问题的提出第6页
 1.3 信息提取与多WEB数据库集成第6-9页
  1.2.1 多Web数据库集成的提出第6-7页
  1.2.2 多Web数据库集成的基本结构第7-8页
  1.2.3 多Web数据库合成所要解决的问题第8-9页
 1.4 论文的工作与内容第9-10页
第二章 基于WEB数据库的数据源分析第10-16页
 2.1 数据库系统的结构第10-13页
  2.1.1 Client/Server结构的数据库系统第10-11页
  2.1.2 多层Client/Server计算第11页
  2.1.3 Web数据库第11-13页
 2.2 访问WEB数据库的多种方法第13-16页
  2.2.1 CGI公共网关接口第13-14页
  2.2.2 INTERNET数据库连接器IDC第14页
  2.2.3 JAVA/JDBC语言编程第14页
  2.2.4 动态服务器页面ASP第14-16页
第三章 标记语言语法结构分析第16-22页
 3.1 标记语言简介第16-19页
  3.1.1 SMGL第16-17页
  3.1.2 HTML第17-18页
  3.1.3 XML第18页
  3.1.4 VRML第18-19页
  3.1.5 WML第19页
 3.2 SGML、HTML、XML之间的关系第19-20页
 3.3 关于HTML的语言结构分析第20-22页
第四章 对WEB网页的信息提取技术第22-38页
 4.1 基于HTML的WEB网页信息提取方法第22-23页
 4.2 采用OEM方式进行网页信息提取第23-30页
  4.2.1 OEM数据模型介绍第24-25页
  4.2.2 识别段标题第25-26页
  4.2.3 确定页面初步层次结构第26页
  4.2.4 数据抽取格式的描述第26-28页
  4.2.5 抽取算法实现第28-29页
  4.2.6 抽取算法测试第29-30页
  4.2.7 需要改进的地方第30页
 4.3 对半结构化数据的局部模式提取第30-36页
  4.3.1 半结构化信息源的语义网络结构第31-33页
  4.3.2 局部模式提取方法第33-36页
 4.4 基于XML的WEB网页信息提取第36-38页
第五章 抽取工具DIWD_EXTRACTOR的实现第38-41页
 5.1 DIWD_EXTRACTOR工具简述第38页
 5.2 数据库分析第38-39页
 5.3 DIWD_EXTRACTOR的系统设计第39-41页
第六章 结束语第41-42页
感    谢第42-43页
参考文献第43-45页
附    录第45页

论文共45页,点击 下载论文
上一篇:广泛焦虑障碍的心理社会因素、神经内分泌及免疫学相关研究
下一篇:经皮松质骨螺钉骺板阻滞术(PETS)的实验研究