Web信息抽取规则自动生成技术研究

摘要	第6-7页
Abstract	第7-8页
第一章绪论	第11-16页
1.1 研究背景	第11页
1.2 研究现状与分类	第11-12页
1.3 现有工作的不足	第12-13页
1.4 本文主要工作	第13-15页
1.5 本文组织结构	第15-16页
第二章 Web信息抽取基本模型和规则语言	第16-25页
2.1 引言	第16页
2.2 Web信息抽取全过程模型	第16-18页
2.3 网页数据抽取模型	第18-19页
2.4 网页数据记录模型	第19页
2.5 网页数据项模型	第19-21页
2.6 Web信息抽取规则语言	第21-24页
2.7 本章小结	第24-25页
第三章网页的多特征综合自动分析技术	第25-42页
3.1 引言	第25页
3.2 基于多特征的数据记录自动识别	第25-28页
3.2.1 数据记录识别的过程	第25-27页
3.2.2 基于多特征的数据记录相似度计算	第27-28页
3.3 基于多特征的数据项自动识别	第28-32页
3.3.1 数据项识别过程	第28-29页
3.3.2 基于多特征合并文本节点	第29-32页
3.4 基于聚类的数据项自动对齐	第32-37页
3.4.1 基于聚类的数据项对齐过程	第32-35页
3.4.2 基于多特征的数据项相似度	第35-37页
3.5 基于多特征的数据项自动标注	第37-39页
3.6 实验结果和分析	第39-41页
3.7 本章小结	第41-42页
第四章基于网页自动分析的抽取规则生成技术	第42-47页
4.1 引言	第42页
4.2 数据区抽取规则自动生成	第42-43页
4.3 数据记录抽取规则自动生成	第43-44页
4.4 数据项抽取规则自动生成	第44-45页
4.5 实验结果和分析	第45-46页
4.6 本章小结	第46-47页
第五章 Web信息抽取原型系统设计与实现	第47-52页
5.1 引言	第47页
5.2 Web信息抽取原型系统设计和实现	第47-49页
5.3 大规模Web信息抽取的并行化	第49-51页
5.3.1 Web信息抽取的并行化设计	第49-51页
5.3.2 实验结果和分析	第51页
5.4 本章小结	第51-52页
第六章总结和展望	第52-54页
6.1 本文工作总结	第52页
6.2 进一步工作	第52-54页
致谢	第54-55页
参考文献	第55-57页
附录	第57-58页