一种基于前缀表达式的Web信息抽取方法的关键问题的实现

摘要	第1-6页
Abstract	第6-11页
1 引言	第11-18页
·选题背景	第11-12页
·信息抽取技术的历史与现状	第12-13页
·信息抽取技术的实现方法和挑战	第13-16页
·本文的主要工作	第16页
·本文的章节安排	第16-18页
2. 相关概念	第18-25页
·HTML	第18-19页
·XML	第19-20页
·HTTP	第20-21页
·DOM	第21-22页
·正则表达式	第22-24页
·本章小结	第24-25页
3. Web信息抽取的整体架构设计	第25-32页
·本文的研究对象	第25-28页
·Web信息抽取的整体架构	第28-31页
·实验平台	第31页
·本章小结	第31-32页
4. 基于DOM树比较的网页去噪	第32-43页
·Web页面去噪概述	第32-35页
·Web页面去噪的整体流程	第35-36页
·Web页面去噪的关键问题	第36-40页
·实验与分析	第40-42页
·本章小结	第42-43页
5. 基于前缀表达式的Web信息抽取	第43-55页
·基于前缀表达式的Web信息抽取概述	第43-45页
·基于前缀表达式的Web信息抽取的整体流程	第45-46页
·基于前缀表达式的Web信息抽取的实现	第46-53页
·实验与分析	第53-54页
·本章小结	第54-55页
6. 总结与展望	第55-56页
致谢	第56-57页
攻读硕士期间主要成果	第57-58页
参考文献	第58-61页