基于XML的Web信息抽取研究

第1章绪论	第1-12页
·选题背景和意义	第9-10页
·Web信息的抽取	第10页
·信息抽取与信息检索的区别	第10-11页
·本文的研究内容	第11页
·本文的组织	第11-12页
第2章 Web信息抽取技术与XML相关标准	第12-27页
·Web信息抽取技术	第12-21页
·Web信息抽取技术的分类	第12-18页
·Web信息抽取存在的问题	第18-19页
·Web信息抽取的关键技术	第19-20页
·信息抽取系统的评测指标	第20-21页
·XML相关标准	第21-27页
·XML	第21-24页
·XHTML	第24页
·DOM	第24页
·XPath	第24-25页
·XSLT	第25-27页
第3章基于XML的Web信息抽取系统	第27-48页
·设计目标与思路	第27-31页
·系统的目标	第27页
·设计的基本思路	第27-28页
·XML和XSLT在系统中的角色	第28-30页
·数据导向型页面	第30-31页
·系统的总体框架	第31-32页
·系统中的知识库与数据库	第32-34页
·构造领域知识库	第32-33页
·抽取规则库	第33-34页
·抽取结果数据库和Web页面数据库	第34页
·页面优化模块	第34-37页
·清洗页面文档	第34-37页
·页面解析	第37页
·信息抽取模块	第37-48页
·规则学习的依据	第38-40页
·规则学习的步骤	第40-47页
·信息抽取	第47-48页
第4章抽取规则的优化方法研究	第48-56页
·优化问题的提出	第48-49页
·改进的定位方法	第49-52页
·路径与内容结合的方法	第49-50页
·完全基于文本的方法	第50-51页
·基于属性的方法	第51页
·几种方法的比较	第51-52页
·方法的组合	第52-54页
·优化后的抽取规则	第54-55页
·抽取结果的处理	第55-56页
第5章结论	第56-57页
攻读学位期间公开发表的论文	第57-58页
致谢	第58-59页
参考文献	第59-63页
附录	第63-67页
部分程序代码	第63-67页
研究生履历	第67页