Web信息抽取规则的设计和实现

摘要	第1-7页
Abstract	第7-11页
第一章绪论	第11-16页
·研究背景	第11-12页
·相关研究工作现状	第12-13页
·本文主要工作	第13-14页
·本文的内容组织	第14-16页
第二章 Web信息抽取的基本过程和模型	第16-24页
·全过程化Web信息抽取模型	第16-17页
·网页浏览导航过程和模型	第17-18页
·网页数据抽取过程和模型	第18-21页
·数据集成处理过程和模型	第21-24页
·ETI集成处理过程和模型	第21-22页
·数据集成目标数据模型	第22-24页
第三章抽取规则语言的设计与实现	第24-39页
·抽取规则体系和语言的基本设计目标和结构	第24页
·抽取规则语言的设计	第24-25页
·页面模型	第25-26页
·规则语言描述和数据源描述控件	第26-32页
·页面数据记录到目标数据记录的转换集成脚本语言	第32-33页
·浏览导航链接跳转和多网页数据记录关系的维护	第33-35页
·抽取规则执行的总流程	第35-36页
·预编译	第36-39页
第四章基于小样本学习的文本抽取规则自动生成	第39-55页
·文本抽取规则	第39-40页
·引入文本抽取规则的原因	第39-40页
·文本抽取规则的生成	第40页
·相关工作	第40-41页
·算法的主要步骤	第41-42页
·迭代式多序列比对	第42-46页
·核心序列法	第43-45页
·迭代式核心序列法	第45-46页
·模板推导和文本抽取规则生成	第46-50页
·计算栏的信息熵	第46-48页
·多模板的处理	第48-50页
·应用文本抽取规则抽取字段	第50-51页
·实验结果	第51-53页
·相关定理的证明	第53-55页
第五章抽取规则的生成	第55-61页
·多种抽取处理方法的融合与抽取规则的生成	第55-56页
·基于Web数据记录挖掘的结果辅助生成抽取规则	第56-61页
·Web数据记录挖掘简介	第56-57页
·根据记录挖掘的结果生成抽取规则	第57-61页
第六章总结与进一步工作	第61-63页
·本文总结	第61页
·进一步的研究工作	第61-63页
参考文献	第63-66页
致谢	第66-67页
附录	第67-68页