基于树形结构的Web信息抽取技术研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
第一章 绪论 | 第8-11页 |
·论文的研究背景 | 第8-9页 |
·本课题的研究价值 | 第9-10页 |
·本文的主要内容和组织 | 第10-11页 |
第二章 WEB 信息抽取概述 | 第11-17页 |
·半结构化数据 | 第11-12页 |
·半结构化数据定义 | 第11-12页 |
·半结构化数据特点 | 第12页 |
·WEB 信息抽取 | 第12-15页 |
·Web 信息抽取定义 | 第12-13页 |
·信息抽取与信息检索的区别 | 第13页 |
·Web 信息抽取的产生与发展 | 第13-15页 |
·Web 信息抽取技术分类 | 第15页 |
·多记录DATAINTENSIVE 型页面 | 第15-17页 |
第三章 WEB 信息抽取技术分类对比 | 第17-27页 |
·按照抽取技术路线的分类 | 第17-21页 |
·基于包装器开发语言的抽取技术 | 第17-18页 |
·基于HTML 树结构的抽取技术 | 第18页 |
·基于自然语言处理的抽取技术 | 第18-19页 |
·基于包装器归纳的抽取技术 | 第19-20页 |
·基于模型的抽取技术 | 第20-21页 |
·基于本体论的抽取技术 | 第21页 |
·按照抽取自动化程度的分类 | 第21-24页 |
·手工式Web 信息抽取 | 第22页 |
·有监督的Web 信息抽取 | 第22页 |
·半监督的Web 信息抽取 | 第22-23页 |
·无监督的Web 信息抽取 | 第23-24页 |
·不同抽取技术的对比分析 | 第24-25页 |
·WEB 信息抽取技术的发展方向 | 第25-27页 |
第四章 基于树形结构的WEB 信息抽取 | 第27-54页 |
·基于HTML 树形结构的信息抽取流程介绍 | 第27-28页 |
·HTML 页面的预处理 | 第28-31页 |
·引言 | 第28页 |
·基于标签位置的HTML 树构造算法 | 第28-31页 |
·HTML 页面主数据区域的挖掘 | 第31-41页 |
·有关概念 | 第31-34页 |
·相似度计算 | 第34-35页 |
·基于相似度的层次划分算法 | 第35-41页 |
·HTML 页面数据记录的挖掘 | 第41-44页 |
·记录节点定义 | 第41-42页 |
·数据记录挖掘算法 | 第42-44页 |
·数据项的抽取与结构化数据的生成 | 第44-51页 |
·树距离度量介绍 | 第44-45页 |
·基于动态规划的树匹配算法 | 第45-47页 |
·基于树匹配的数据记录模式生成算法 | 第47-51页 |
·实验与性能分析 | 第51-54页 |
·评价指标介绍 | 第51-52页 |
·实验设计与分析 | 第52-54页 |
第五章 结束语 | 第54-56页 |
·总结 | 第54页 |
·下一步工作 | 第54-56页 |
参考文献 | 第56-60页 |
研究生期间发表的论文和参加的项目 | 第60-61页 |
致谢 | 第61页 |