基于DOM的Web信息抽取技术的研究与实现

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-12页
·选题背景和研究意义	第9页
·国内外现状综述	第9-11页
·论文研究内容与结构安排	第11-12页
2 Web信息抽取	第12-19页
·Web信息抽取概述	第12-13页
·Web信息抽取分类	第13-17页
·Web信息抽取的应用	第17-18页
·信息抽取系统的评价指标	第18页
·本章小结	第18-19页
3 信息抽取相关技术	第19-27页
·HTML	第19-20页
·XML	第20-24页
·WAP与 WML	第24页
·XPath	第24-25页
·正则表达式	第25-26页
·本章小结	第26-27页
4 基于DOM的 Web信息抽取方法	第27-48页
·获取相似页面	第27-32页
·相似页面的作用	第27页
·获取 URL	第27-28页
·基于 URL结构比较法	第28-30页
·简单树匹配比较法	第30-32页
·总体抽取过程描述	第32-34页
·HTML文档的预处理	第34-36页
·清洗 HTML文档	第34-36页
·XML文档的解析	第36页
·采用特征比较法进行信息抽取	第36-39页
·特征的选择与提取	第36-38页
·相似度计算	第38-39页
·针对多记录网页的信息抽取	第39-45页
·实验结果与分析	第45-47页
·本章小结	第47-48页
5 信息抽取系统的设计与实现	第48-57页
·设计目标	第48页
·系统总体框架	第48-52页
·功能模块设计	第48-49页
·功能模块介绍	第49-52页
·系统的实现	第52-56页
·工作总览	第52-53页
·系统操作界面	第53-55页
·系统评价策略	第55-56页
·本章小结	第56-57页
结论	第57-59页
参考文献	第59-62页
攻读硕士学位期间发表学术论文情况	第62-63页
致谢	第63-64页