面向领域的半结构化Web信息抽取技术

摘要	第1-6页
Abstract	第6-11页
1 绪论	第11-20页
·选题背景和意义	第11-12页
·信息抽取技术	第12-18页
·本文研究内容与创新之处	第18-19页
·本文的章节安排	第19-20页
2 本文涉及的相关概念	第20-29页
·领域关键词	第20-21页
·HTML	第21-23页
·XML	第23-25页
·DOM树	第25-26页
·正则表达式	第26-28页
·本章小结	第28-29页
3 面向特定领域半结构化文本 Web信息抽取系统的总体设计	第29-35页
·特定领域的半结构化文本Web信息特征分析	第29-32页
·系统的总体设计	第32-34页
·系统开发平台	第34页
·本章小结	第34-35页
4 领域关键词词库的建立	第35-50页
·领域关键词词库的建立流程	第35-36页
·包装器的构建	第36-39页
·网站搜索器的构建	第39-46页
·领域关键词词库的创建	第46-49页
·本章小结	第49-50页
5 基于领域关键词词库的抽取规则自动生成技术	第50-62页
·抽取规则的自动生成流程	第50页
·将样本页面转化为DOM树	第50-53页
·有效结点的提取算法	第53-56页
·抽取规则自动归纳的实现	第56-61页
·本章小结	第61-62页
6 总结与展望	第62-64页
致谢	第64-65页
攻读硕士期间主要成果	第65-66页
参考文献	第66-69页