一种基于前缀表达式的Web信息抽取方法的关键问题的实现
摘要 | 第1-6页 |
Abstract | 第6-11页 |
1 引言 | 第11-18页 |
·选题背景 | 第11-12页 |
·信息抽取技术的历史与现状 | 第12-13页 |
·信息抽取技术的实现方法和挑战 | 第13-16页 |
·本文的主要工作 | 第16页 |
·本文的章节安排 | 第16-18页 |
2. 相关概念 | 第18-25页 |
·HTML | 第18-19页 |
·XML | 第19-20页 |
·HTTP | 第20-21页 |
·DOM | 第21-22页 |
·正则表达式 | 第22-24页 |
·本章小结 | 第24-25页 |
3. Web信息抽取的整体架构设计 | 第25-32页 |
·本文的研究对象 | 第25-28页 |
·Web信息抽取的整体架构 | 第28-31页 |
·实验平台 | 第31页 |
·本章小结 | 第31-32页 |
4. 基于DOM树比较的网页去噪 | 第32-43页 |
·Web页面去噪概述 | 第32-35页 |
·Web页面去噪的整体流程 | 第35-36页 |
·Web页面去噪的关键问题 | 第36-40页 |
·实验与分析 | 第40-42页 |
·本章小结 | 第42-43页 |
5. 基于前缀表达式的Web信息抽取 | 第43-55页 |
·基于前缀表达式的Web信息抽取概述 | 第43-45页 |
·基于前缀表达式的Web信息抽取的整体流程 | 第45-46页 |
·基于前缀表达式的Web信息抽取的实现 | 第46-53页 |
·实验与分析 | 第53-54页 |
·本章小结 | 第54-55页 |
6. 总结与展望 | 第55-56页 |
致谢 | 第56-57页 |
攻读硕士期间主要成果 | 第57-58页 |
参考文献 | 第58-61页 |