基于XML的Web数据抽取技术的研究

摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-13页
1．1 背景	第7-8页
1．1．1 数据抽取概念	第7页
1．1．2 Web为数据抽取带来的挑战	第7-8页
1．2 XML为Web数据抽取带来新的希望	第8-9页
1．3 基于XML的Web数据抽取技术的研究	第9-10页
1．4 研究方案	第10-12页
1．4．1 研究目标	第10页
1．4．2 研究思路	第10页
1．4．3 研究内容	第10-11页
1．4．4 研究意义	第11-12页
1．5 创新之处	第12页
1．6 论文组织结构	第12-13页
第二章获取Web数据源策略	第13-24页
2．1 引言	第13页
2．2 广域Web搜索	第13-17页
2．2．1 广域Web链接结构分析	第13-14页
2．2．2 广域Web搜索经典算法	第14-16页
2．2．3 广域Web搜索总结	第16-17页
2．3 小范围Web搜索	第17-21页
2．3．1 研究背景	第17-18页
2．3．2 小范围Web链接结构	第18-19页
2．3．3 改进的HITS算法(m-HITS)	第19-21页
2．4 实验及其分析	第21-23页
2．5 本章小结	第23-24页
第三章基于XML的Web数据转换算法	第24-39页
3．1 引言	第24页
3．2 相关工作	第24-26页
3．3 问题描述	第26-27页
3．4 基于栈结构的HTML到XML转换算法	第27-30页
3．4．1 方法规划	第27-28页
3．4．2 消除HTML的不严格语法	第28-29页
3．4．3 输出XML文件	第29-30页
3．5 实验及其分析	第30-38页
3．5．1 定义数据结构	第30-31页
3．5．2 实现栈算法	第31-37页
3．5．3 运行结果	第37-38页
3．6 本章小结	第38-39页
第四章健壮的XML数据抽取方法	第39-50页
4．1 引言	第39页
4．2 问题描述	第39-40页
4．3 健壮性标准	第40-41页
4．4 区域定位	第41-48页
4．4．1 使用唯一的ID	第41页
4．4．2 搜索相似上下文	第41-42页
4．4．3 遍历树节点	第42-48页
4．5 数据映射以及合并	第48-49页
4．5．1 数据映射	第48-49页
4．5．2 数据合并	第49页
4．6 本章小结	第49-50页
第五章原型系统的实现	第50-61页
5．1 引言	第50页
5．2 总体设计	第50-53页
5．2．1 相关技术	第50-52页
5．2．2 总体规划	第52-53页
5．3 详细设计	第53-57页
5．3．1 浏览端程序	第53-56页
5．3．2 转换程序	第56页
5．3．3 映射程序	第56-57页
5．4 运行结果	第57-60页
5．5 本章小结	第60-61页
第六章总结与展望	第61-63页
6．1 论文总结	第61页
6．2 未来工作展望	第61-63页
参考文献	第63-67页
致谢	第67-68页
主要研究成果	第68页