首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web信息采集与信息抽取技术的研究

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-18页
   ·课题研究的背景及意义第10-11页
   ·国内外发展概况及研究现状第11-17页
     ·Web 信息采集技术的发展概况及研究现状第11-15页
     ·Web 信息抽取技术的发展概况及研究现状第15-17页
   ·本课题的主要研究内容第17-18页
第2章 WEB 信息采集系统的研究第18-32页
   ·WEB 的组成和支撑技术第18-19页
   ·WEB 信息采集的基本原理第19-21页
   ·WEB 信息采集面临的主要困难和相应的解决方案第21-24页
     ·当前Web 的特点第21-22页
     ·Web 信息采集面临的技术困难和相应的解决方案第22-23页
     ·Web 采集面临的工程困难和相应手段第23-24页
   ·WEB 信息采集系统的关键技术第24-31页
     ·页面采集第24-26页
     ·URL 的提取和正规化处理第26-28页
     ·原始网页的存储第28-30页
     ·避免网页的重复访问第30-31页
   ·本章小结第31-32页
第3章 分布式WEB 信息采集系统的设计与实现第32-41页
   ·分布式WEB 信息采集系统的设计第32-39页
     ·节点间URL 的划分策略第32-33页
     ·负载平衡分析第33-34页
     ·分布式系统的体系结构设计第34-36页
     ·可扩展性设计第36-39页
   ·实验验证及性能分析第39-40页
     ·实验1 负载平衡的验证第39-40页
     ·实验2 可扩展性的验证第40页
   ·本章小结第40-41页
第4章 基于XPATH 的WEB 信息抽取技术的研究第41-57页
   ·WEB 信息抽取概述第41-44页
     ·Web 信息抽取的难点第41-42页
     ·常见的Web 信息抽取方法第42-44页
   ·与本信息抽取系统相关的技术标准第44-47页
     ·XML 与XHTML第44-45页
     ·DOM第45-46页
     ·XPath 和XPath 扩展第46-47页
   ·基于扩展XPATH 的WEB 信息抽取技术的研究第47-55页
     ·基于扩展XPath 的Web 信息抽取系统的设计与实现第47-51页
     ·基于扩展XPath 的Web 信息抽取系统的应用分析第51-52页
     ·信息抽取结果的再处理-电话图片的识别第52-55页
   ·本章小结第55-57页
结论第57-58页
参考文献第58-61页
攻读硕士学位期间发表的学术论文第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于改进FP-树的最大频繁项目集研究
下一篇:基于LabVIEW的泵站远程监控系统的研究