基于Hadoop的Deep Web查询结果自动抽取研究

摘要	第3-4页
ABSTRACT	第4-5页
1 绪论	第8-13页
1.1 背景和意义	第8-10页
1.2 国内外研究现状	第10-11页
1.3 本论文研究工作	第11-12页
1.4 本章小结	第12-13页
2 Hadoop 平台概述	第13-20页
2.1 Hadoop 平台背景	第13页
2.2 Hadoop 分布式文件系统 HDFS	第13-16页
2.2.1 HDFS 体系结构	第13-15页
2.2.2 HDFS 的工作流程	第15页
2.2.3 HDFS 的特点	第15-16页
2.3 Hadoop 的 MapReduce 计算框架	第16-19页
2.3.1 MapReduce 模型	第16-17页
2.3.2 MapReduce 的实现	第17-18页
2.3.3 Shuffle 过程	第18-19页
2.3.4 MapReduce 的特点	第19页
2.4 本章小结	第19-20页
3 Deep Web 信息抽取技术	第20-27页
3.1 信息抽取技术历史	第20页
3.2 Deep Web 信息抽取技术	第20-25页
3.2.1 基于 DOM 树结构的信息抽取	第21-23页
3.2.2 基于模板的信息抽取	第23-24页
3.2.3 基于视觉特征的信息抽取	第24页
3.2.4 基于统计理论的信息抽取	第24-25页
3.3 Deep Web 信息抽取技术分析	第25-26页
3.4 本章小结	第26-27页
4 基于 DOM 树和模板方法相结合的 Deep Web 查询结果抽取技术	第27-48页
4.1 FIME 算法名词解释	第27-28页
4.2 FIME 算法架构	第28-30页
4.3 清噪模块	第30-31页
4.4 迭代模块	第31-34页
4.5 匹配模块	第34-37页
4.6 抽取模块	第37-40页
4.7 基于 Hadoop 的 FIME 算法设计与实现	第40-47页
4.7.1 清噪模块分布式执行算法	第41-44页
4.7.2 抽取模块分布式执行算法	第44-47页
4.8 本章小结	第47-48页
5 实验设计与结果分析	第48-57页
5.1 实验数据与评价指标	第48页
5.2 集群环境	第48页
5.3 实验结果及分析	第48-56页
5.4 本章小结	第56-57页
6 总结与展望	第57-60页
6.1 本文总结	第57-58页
6.2 工作展望	第58-60页
致谢	第60-62页
参考文献	第62-66页
附录	第66页
A. 作者在攻读硕士学位期间成果目录	第66页
B. 作者在攻读硕士学位期间参加的项目	第66页