Web信息自动抽取技术的研究与实现
摘要 | 第1-5页 |
Abstract | 第5-9页 |
第1章 绪论 | 第9-15页 |
·课题研究的背景和意义 | 第9-10页 |
·课题研究的现状 | 第10-13页 |
·信息抽取的发展简史 | 第10-11页 |
·国外研究现状 | 第11-12页 |
·国内研究现状 | 第12-13页 |
·本文研究的关键问题 | 第13-14页 |
·本文组织结构 | 第14-15页 |
第2章 Web信息抽取技术综述 | 第15-22页 |
·Web信息抽取技术的相关概念 | 第15-16页 |
·Web信息抽取技术分类及技术分析 | 第16-19页 |
·基于自然语言处理方式的信息抽取(NLP) | 第16-17页 |
·包装器归纳方式的信息抽取 | 第17页 |
·基于ontology方式的信息抽取 | 第17-18页 |
·基于HTML结构的信息抽取 | 第18-19页 |
·基于Web查询的信息抽取 | 第19页 |
·Web信息抽取的评价指标 | 第19-20页 |
·Web信息抽取存在的问题 | 第20-21页 |
·本章小结 | 第21-22页 |
第3章 网页预处理技术的研究 | 第22-39页 |
·网页预处理过程中存在的问题 | 第23页 |
·各种文档的分析 | 第23-34页 |
·HTML文档分析 | 第23-25页 |
·XML文档分析 | 第25-29页 |
·XHTML文档分析 | 第29-31页 |
·DOM简介 | 第31-34页 |
·网页的预处理 | 第34-37页 |
·清洗页面文档 | 第34-37页 |
·页面解析 | 第37页 |
·本章小结 | 第37-39页 |
第4章 基于树结构的Web信息自动抽取方法 | 第39-53页 |
·网页获取 | 第41-42页 |
·噪声处理 | 第42-43页 |
·页面包装器(Wrapper)自动生成算法的研究 | 第43-50页 |
·RoadRunner算法简介 | 第43-47页 |
·基于树结构的匹配算法 | 第47-50页 |
·数据项的语义分析算法 | 第50-51页 |
·数据抽取算法的研究 | 第51-52页 |
·数据抽取过程 | 第51-52页 |
·数据存储研究 | 第52页 |
·本章小结 | 第52-53页 |
第5章 系统设计与实现 | 第53-61页 |
·总体设计 | 第53-54页 |
·开发工具介绍和分析 | 第54-55页 |
·开发工具 | 第54页 |
·开发工具的介绍和分析 | 第54-55页 |
·用户界面介绍 | 第55-59页 |
·实验结果分析 | 第59-60页 |
·本章小结 | 第60-61页 |
第6章 总结与展望 | 第61-63页 |
·总结 | 第61-62页 |
·展望 | 第62-63页 |
参考文献 | 第63-67页 |
致谢 | 第67-68页 |
附录 | 第68页 |
攻读硕士学位期间公开发表的论文和参加的项目 | 第68页 |