Web信息采集与信息抽取技术的研究

摘要	第1-6页
ABSTRACT	第6-10页
第1章绪论	第10-18页
·课题研究的背景及意义	第10-11页
·国内外发展概况及研究现状	第11-17页
·Web 信息采集技术的发展概况及研究现状	第11-15页
·Web 信息抽取技术的发展概况及研究现状	第15-17页
·本课题的主要研究内容	第17-18页
第2章 WEB 信息采集系统的研究	第18-32页
·WEB 的组成和支撑技术	第18-19页
·WEB 信息采集的基本原理	第19-21页
·WEB 信息采集面临的主要困难和相应的解决方案	第21-24页
·当前Web 的特点	第21-22页
·Web 信息采集面临的技术困难和相应的解决方案	第22-23页
·Web 采集面临的工程困难和相应手段	第23-24页
·WEB 信息采集系统的关键技术	第24-31页
·页面采集	第24-26页
·URL 的提取和正规化处理	第26-28页
·原始网页的存储	第28-30页
·避免网页的重复访问	第30-31页
·本章小结	第31-32页
第3章分布式WEB 信息采集系统的设计与实现	第32-41页
·分布式WEB 信息采集系统的设计	第32-39页
·节点间URL 的划分策略	第32-33页
·负载平衡分析	第33-34页
·分布式系统的体系结构设计	第34-36页
·可扩展性设计	第36-39页
·实验验证及性能分析	第39-40页
·实验1 负载平衡的验证	第39-40页
·实验2 可扩展性的验证	第40页
·本章小结	第40-41页
第4章基于XPATH 的WEB 信息抽取技术的研究	第41-57页
·WEB 信息抽取概述	第41-44页
·Web 信息抽取的难点	第41-42页
·常见的Web 信息抽取方法	第42-44页
·与本信息抽取系统相关的技术标准	第44-47页
·XML 与XHTML	第44-45页
·DOM	第45-46页
·XPath 和XPath 扩展	第46-47页
·基于扩展XPATH 的WEB 信息抽取技术的研究	第47-55页
·基于扩展XPath 的Web 信息抽取系统的设计与实现	第47-51页
·基于扩展XPath 的Web 信息抽取系统的应用分析	第51-52页
·信息抽取结果的再处理-电话图片的识别	第52-55页
·本章小结	第55-57页
结论	第57-58页
参考文献	第58-61页
攻读硕士学位期间发表的学术论文	第61-62页
致谢	第62页