基于页面主体提取的WEB信息抽取技术研究

摘要	第1-5页
Abstract	第5-8页
专用术语注释表	第8-10页
第一章绪论	第10-16页
·研究背景	第10-13页
·网页主体提取	第10-11页
·中介真值程度度量	第11-12页
·Web 信息抽取	第12-13页
·研究目标及主要内容	第13-14页
·本文组织结构	第14-16页
第二章 Web 信息抽取	第16-23页
·Web 信息抽取概念	第16-17页
·Web 信息抽取方法分类	第17-21页
·基于自然语言处理的信息抽取	第17-18页
·基于包装器归纳的信息抽取	第18-19页
·基于 Ontology 的信息抽取	第19页
·基于 Web 查询的信息抽取	第19-20页
·基于视觉特征的信息抽取	第20页
·基于 HTML 的信息抽取	第20-21页
·Web 信息抽取方法评价指标	第21-22页
·本章小结	第22-23页
第三章基于 MMTD 的页面主体提取	第23-38页
·HTML 与 XML	第23-25页
·HTML	第23-24页
·XML	第24-25页
·页面预处理	第25-28页
·页面整理	第25-27页
·页面去噪	第27-28页
·基于 MMTD 的页面主体提取	第28-35页
·HTMLParser	第28-29页
·MMTD	第29-31页
·页面主体特征分析	第31-34页
·提取算法	第34-35页
·实验	第35-37页
·本章小结	第37-38页
第四章基于页面主体提取的 WEB 信息抽取方法	第38-50页
·基于页面主体提取的 Web 信息抽取方法概述	第38-39页
·抽取规则的生成	第39-47页
·XPATH	第39-41页
·XSLT	第41-42页
·信息定位	第42-44页
·路径转换及生成抽取规则	第44-47页
·信息抽取	第47-49页
·本章小结	第49-50页
第五章基于页面主体提取的 WEB 信息抽取设计与实现	第50-57页
·系统设计目标	第50-51页
·系统总体设计	第51-53页
·功能模块设计	第51-52页
·体系结构设计	第52-53页
·系统的实现与测试	第53-56页
·系统开发工具介绍	第53-54页
·系统操作界面	第54-55页
·实验及结果分析	第55-56页
·本章小结	第56-57页
第六章总结与展望	第57-59页
·本文工作总结	第57页
·未来工作展望	第57-59页
参考文献	第59-62页
附录 1 攻读硕士学位期间撰写的论文	第62-63页
附录 2 攻读硕士学位期间参加的科研项目	第63-64页
致谢	第64页