基于Deep Web的网络信息抽取技术研究

摘要	第1-6页
Abstract	第6-9页
第一章绪论	第9-14页
·研究背景	第9-10页
·国内外研究现状	第10-12页
·论文的主要研究工作	第12页
·论文的组织结构	第12-14页
第二章 Web 信息抽取概述	第14-20页
·Web 信息抽取的概念	第14页
·Web 信息抽取技术的分类	第14-18页
·人为手工编写抽取规则的Web 信息抽取方法	第14-15页
·半自动的Web 信息抽取方法	第15-17页
·全自动的Web 信息抽取方法	第17-18页
·各种信息抽取技术的比较	第18-19页
·本章小结	第19-20页
第三章相关技术	第20-29页
·HTML 技术	第20-21页
·XML 技术	第21-24页
·XHTML 技术	第24页
·XPath 技术	第24-25页
·XSLT 技术	第25-26页
·正则表达式	第26-27页
·DOM 技术	第27-28页
·本章小结	第28-29页
第四章基于Deep Web 的半结构化信息抽取方法	第29-50页
·Deep Web 数据特点分析	第29-30页
·HTML 页面预处理	第30-35页
·HTML 网页信息清洗	第31-33页
·HTML 的DOM 树生成	第33-35页
·数据区域识别	第35-43页
·相关概念	第35-37页
·叶子节点相似度	第37-39页
·基于相似度的层次划分算法	第39-43页
·数据块提取	第43-45页
·数据项抽取	第45-48页
·基于树匹配的编辑算法	第46-47页
·基于树匹配的数据项发现算法	第47-48页
·本章小结	第48-50页
第五章 Deep Web Extractor 系统的设计与实现	第50-55页
·系统的设计目标	第50页
·系统的架构	第50-51页
·系统的实现	第51-53页
·实验结果分析	第53-54页
·本章小结	第54-55页
结束语	第55-56页
参考文献	第56-58页
攻读硕士学位期间取得的研究成果	第58-59页
致谢	第59页