Web信息自动抽取技术的研究与实现

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-15页
·课题研究的背景和意义	第9-10页
·课题研究的现状	第10-13页
·信息抽取的发展简史	第10-11页
·国外研究现状	第11-12页
·国内研究现状	第12-13页
·本文研究的关键问题	第13-14页
·本文组织结构	第14-15页
第2章 Web信息抽取技术综述	第15-22页
·Web信息抽取技术的相关概念	第15-16页
·Web信息抽取技术分类及技术分析	第16-19页
·基于自然语言处理方式的信息抽取(NLP)	第16-17页
·包装器归纳方式的信息抽取	第17页
·基于ontology方式的信息抽取	第17-18页
·基于HTML结构的信息抽取	第18-19页
·基于Web查询的信息抽取	第19页
·Web信息抽取的评价指标	第19-20页
·Web信息抽取存在的问题	第20-21页
·本章小结	第21-22页
第3章网页预处理技术的研究	第22-39页
·网页预处理过程中存在的问题	第23页
·各种文档的分析	第23-34页
·HTML文档分析	第23-25页
·XML文档分析	第25-29页
·XHTML文档分析	第29-31页
·DOM简介	第31-34页
·网页的预处理	第34-37页
·清洗页面文档	第34-37页
·页面解析	第37页
·本章小结	第37-39页
第4章基于树结构的Web信息自动抽取方法	第39-53页
·网页获取	第41-42页
·噪声处理	第42-43页
·页面包装器(Wrapper)自动生成算法的研究	第43-50页
·RoadRunner算法简介	第43-47页
·基于树结构的匹配算法	第47-50页
·数据项的语义分析算法	第50-51页
·数据抽取算法的研究	第51-52页
·数据抽取过程	第51-52页
·数据存储研究	第52页
·本章小结	第52-53页
第5章系统设计与实现	第53-61页
·总体设计	第53-54页
·开发工具介绍和分析	第54-55页
·开发工具	第54页
·开发工具的介绍和分析	第54-55页
·用户界面介绍	第55-59页
·实验结果分析	第59-60页
·本章小结	第60-61页
第6章总结与展望	第61-63页
·总结	第61-62页
·展望	第62-63页
参考文献	第63-67页
致谢	第67-68页
附录	第68页
攻读硕士学位期间公开发表的论文和参加的项目	第68页