信息集成系统中面向领域的Web信息抽取研究

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-13页
·研究背景	第7-8页
·研究现状	第8-10页
·论文的工作	第10-13页
第二章 IIS信息集成系统	第13-21页
·信息集成简介	第13-15页
·IIS信息集成系统	第15-17页
·系统结构	第15-16页
·系统的主要模块	第16-17页
·Web信息抽取子系统	第17-21页
·信息集成中Web信息抽取面临的挑战	第17-18页
·面向领域的Web抽取系统框架	第18-21页
第三章基于DOM的半结构抽取方法	第21-39页
·相关技术	第21-28页
·HTML	第21-22页
·XML	第22-25页
·XPath	第25-28页
·基于DOM树映射的抽取方法	第28-31页
·抽取规则建立的过程	第28-30页
·映射规则自动创建	第30-31页
·Web信息抽取的过程	第31页
·抽取实验	第31-34页
·抽取规则健壮性分析	第34-36页
·基于DOM树路径	第34-35页
·基于内容的定位	第35页
·基于节点属性的定位	第35-36页
·本章小结	第36-39页
第四章基于NLP的无结构抽取方法	第39-49页
·相关技术	第39-42页
·分词/分类	第39-40页
·JNI的转换	第40-41页
·语义距离计算	第41-42页
·基于NLP的抽取方法	第42-45页
·词条抽取规则	第42-43页
·抽取约束规则	第43-44页
·抽取算法	第44-45页
·基于NLP的抽取实验	第45-47页
·本章小结	第47-49页
第五章面向领域的Web信息抽取系统	第49-65页
·抽取系统难点及目标	第49页
·网页信息抽取的难点	第49页
·网页信息抽取平台的目标	第49页
·系统框架模块	第49-51页
·详细工作流程	第51-62页
·获取网页	第51-53页
·页面信息块检测与提取	第53-54页
·样本学习归纳规则	第54-57页
·分词/分类处理	第57-58页
·模板抽取规则生成	第58页
·领域Ontology库建立与维护	第58-60页
·Jena语义推导	第60-61页
·半结构和无结构自适应提取	第61-62页
·实验结果及结论	第62-63页
·抽取规则的维护	第63-65页
第六章总结与展望	第65-67页
致谢	第67-69页
参考文献	第69-73页
作者在读期间的科研成果	第73页