基于标签的网页信息抽取方法研究

摘要	第4-5页
abstract	第5页
第一章前言	第8-16页
1.1 课题背景与意义	第8-9页
1.2 国内外研究现状	第9-12页
1.3 论文研究内容	第12-14页
1.4 论文组织结构	第14-16页
第二章网页信息抽取方法综述	第16-25页
2.1 网页信息抽取概念	第16页
2.2 网页信息抽取重点解决的问题	第16-17页
2.3 网页信息抽取使用到的关键技术	第17-22页
2.3.1 HTML Parser技术	第17-18页
2.3.2 树编辑距离	第18-19页
2.3.3 网络爬虫	第19-21页
2.3.4 聚类算法	第21-22页
2.4 网页信息抽取方法介绍	第22-24页
2.4.1 基于ontology的信息抽取	第22-23页
2.4.2 基于统计的信息抽取	第23页
2.4.3 基于DOM树的信息抽取	第23页
2.4.4 基于Kernel的信息抽取	第23-24页
2.5 网页信息抽取方法评价标准	第24页
2.6 本章小结	第24-25页
第三章基于标签的数据区域定位和分割	第25-40页
3.1 网页预处理	第25页
3.2 定位抽取的数据区域	第25-29页
3.2.1 数据区域的特征	第26-27页
3.2.2 影响数据区域判定的问题及解决方案	第27-29页
3.3 分割数据区域得到数据记录	第29-39页
3.3.1 树编辑距离	第29-33页
3.3.2 树节点权重的设置	第33-35页
3.3.3 节点聚类	第35-38页
3.3.4 选择最佳聚类方案	第38-39页
3.4 本章小结	第39-40页
第四章数据记录属性抽取	第40-46页
4.1 SA算法介绍	第40-41页
4.2 迭代比对得到模板数据记录	第41-43页
4.3 抽取属性记录	第43-45页
4.4 本章小结	第45-46页
第五章实验系统	第46-59页
5.1 实验系统介绍	第46页
5.2 系统设计	第46-53页
5.2.1 网页预处理模块	第47-48页
5.2.2 数据区域定位模块	第48-49页
5.2.3 数据分割模块	第49-52页
5.2.4 属性补全和抽取模块	第52-53页
5.3 实验结果和分析	第53-58页
5.4 本章小结	第58-59页
总结与展望	第59-62页
总结	第59-60页
主要创新点	第60页
存在问题和未来方向	第60-62页
参考文献	第62-66页
在学期间的研究成果	第66-67页
致谢	第67页