Web信息抽取技术研究

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-14页
·研究背景和意义	第10-11页
·Web 信息抽取研究现状	第11-12页
·国外研究现状	第11-12页
·国内研究现状	第12页
·研究内容	第12页
·结构安排	第12-14页
第二章 Web 信息抽取技术概述	第14-24页
·自由式、结构化和半结构化文本	第14-15页
·自由文本	第14页
·结构化文本	第14页
·半结构化文本	第14-15页
·Web 网页特点	第15-17页
·列表页	第15-16页
·详情页	第16-17页
·Web 信息抽取分类	第17-23页
·基于自然语言处理方式的信息抽取	第17-18页
·基于包装器归纳方式的信息抽取	第18-20页
·基于本体方式的信息抽取	第20-21页
·基于HTML 结构的信息抽取	第21-23页
·基于Web 查询的信息抽取	第23页
·本章小结	第23-24页
第三章基于XML 的Web 信息抽取相关技术	第24-28页
·HTML、XHTML 与XML	第24页
·HTML	第24页
·XHTML	第24页
·XML	第24页
·DOM 模型	第24-26页
·XPath 介绍	第26-27页
·轴心	第26页
·节点测试	第26页
·谓词	第26-27页
·XSLT	第27页
·本章小结	第27-28页
第四章 Web 信息抽取的目标与设计	第28-33页
·Web 信息抽取存在的问题	第28-29页
·Web 信息抽取的目标	第29页
·Web 信息抽取的流程设计	第29-32页
·Web 信息抽取设计思路	第29-31页
·Web 信息抽取流程	第31-32页
·本章小结	第32-33页
第五章基于XML 的Web 信息抽取的实现	第33-46页
·数据预处理	第34-39页
·页面清洗	第35-37页
·页面解析	第37-39页
·抽取规则构造	第39-43页
·使用JTree 显示XHTML 文档的DOM 树	第39-40页
·基于DOM 的XPath 生成	第40-41页
·基于XSLT 的抽取规则生成	第41-43页
·信息抽取	第43-44页
·信息抽取性能评估	第44-45页
·本章小结	第45-46页
第六章总结与展望	第46-48页
·总结	第46页
·展望	第46-48页
参考文献	第48-51页
致谢	第51-52页
作者简介	第52页