基于XML的Web信息抽取技术研究

摘要	第1-6页
Abstract	第6-9页
第一章绪论	第9-13页
·课题研究的背景和意义	第9-10页
·国内外研究现状与分析	第10-11页
·国外Web信息抽取现状	第10-11页
·国内Web信息抽取现状	第11页
·论文的研究内容	第11-12页
·论文的组织结构	第12-13页
第二章 Web信息抽取方法	第13-21页
·Web信息抽取方法概述	第13页
·Web信息抽取的分类	第13-20页
·基于自然语言理解方式的信息抽取	第13-14页
·基于包装器归纳方式的样本学习	第14-16页
·基于Ontology方式的信息抽取	第16-17页
·基于HTML结构的信息抽取	第17-19页
·基于Web查询方式的信息抽取	第19-20页
·本章小结	第20-21页
第三章基于XML的Web信息抽取技术	第21-32页
·HTML、XHTML与XML	第21-26页
·HTML	第21-22页
·XHTML	第22页
·XML	第22-26页
·XPath、XSLT	第26-29页
·XPath	第26-27页
·XSLT	第27-29页
·XML DOM模型	第29-31页
·本章小结	第31-32页
第四章基于XML的Web信息抽取模型	第32-42页
·基于Web的信息抽取面临的问题	第32-33页
·信息抽取目标	第33页
·样本网页的获取	第33-38页
·相似页面的意义	第33-34页
·基于URL结构比较法	第34-35页
·基于子树最优自由匹配	第35-38页
·Web信息抽取模型	第38-41页
·Web信息抽取思路	第38-39页
·Web信息抽取流程	第39-41页
·本章小结	第41-42页
第五章基于XML的Web信息抽取系统的实现	第42-57页
·数据采集	第42-43页
·页面预处理	第43-48页
·页面清洗	第44-46页
·页面解析	第46-48页
·生成抽取规则	第48-55页
·利用JTree显示DOM树	第49-50页
·生成XPath表达式	第50-52页
·抽取模板XSLT	第52-53页
·Web信息抽取	第53-55页
·系统性能评估	第55-56页
·本章小结	第56-57页
第六章总结与展望	第57-59页
·总结	第57页
·展望	第57-59页
参考文献	第59-62页
攻读硕士学位期间发表的学术论文	第62-63页
致谢	第63页