基于TPSN-LS和Hadoop的Web信息抽取技术研究

摘要	第4-5页
abstract	第5页
1 绪论	第9-15页
1.1 研究背景及意义	第9-10页
1.2 研究现状	第10-12页
1.2.1 国外研究现状	第10-11页
1.2.2 国内研究现状	第11页
1.2.3 发展趋势	第11-12页
1.3 研究内容及章节安排	第12-15页
1.3.1 研究内容	第12页
1.3.2 章节安排	第12-15页
2 相关技术研究	第15-31页
2.1 信息抽取介绍	第15-19页
2.1.1 常见Web信息抽取技术及不足	第15-17页
2.1.2 信息抽取层次及评价指标	第17-18页
2.1.3 信息抽取与信息检索的异同点	第18-19页
2.2 Hadoop技术简介	第19-24页
2.2.1 分布式文件系统HDFS	第22-23页
2.2.2Map/Reduce并行计算框架	第23-24页
2.3 复杂网络	第24-27页
2.3.1 复杂网络简述	第24-25页
2.3.2 复杂网络时间同步算法TPSN	第25-27页
2.4 网络爬虫原理	第27-31页
2.4.1 网络爬虫的工作原理及系统结构	第27-29页
2.4.2 分布式网络爬虫的工作原理	第29-31页
3 面向Web信息抽取的复杂网络TPSN算法改进	第31-39页
3.1 引入复杂网络时间同步算法的必要性	第31-32页
3.2 面向Web信息抽取的复杂网络参数改进	第32-35页
3.2.1 面向Web信息抽取的复杂网络模型	第32-34页
3.2.2 面向Web信息抽取的复杂网络参数改进及重定义	第34-35页
3.3 面向Web信息抽取的复杂网络时间同步	第35-39页
3.3.1 基于最小二乘估计法的时间同步算法TPSN-LS	第35-37页
3.3.2 TPSN-LS时间同步施行流程	第37-39页
4 基于TPSN-LS的Web信息抽取算法研究	第39-49页
4.1 DOM树模型	第39-41页
4.1.1 DOM树简述	第39-40页
4.1.2 DOM节点层次划分	第40-41页
4.2 TPSN-LS改进DOM树Web抽取的算法框架	第41-44页
4.2.1 算法框架设计	第41-42页
4.2.2 基于TPSN-LS的DOM树网络构造	第42-44页
4.3 核心模块	第44-49页
4.3.1 页面预处理	第44-46页
4.3.2 定位数据区域	第46-47页
4.3.3 目标数据抽取	第47-49页
5 基于TPSN-LS和Hadoop的Web信息抽取系统实现	第49-67页
5.1 采用Hadoop进行Web信息抽取的优势	第49-50页
5.2 基于TPSN-LS和Hadoop的Web信息抽取系统	第50-57页
5.2.1 系统功能模块	第50-52页
5.2.2 抽取基本流程	第52-54页
5.2.3 HDFS数据存储结构	第54-55页
5.2.4 系统的主要类	第55-57页
5.3 并行化信息抽取的Map/Reduce实现	第57-63页
5.3.1 CrawlerDriver	第57-58页
5.3.2 Parser Driver	第58-59页
5.3.3 OptimizerDriver	第59-61页
5.3.4 MergeDriver	第61-62页
5.3.5 HtmlToXMLDriver	第62-63页
5.4 实验分析	第63-67页
5.4.1 Hadoop集群网络搭建	第63-65页
5.4.2 实验过程与结果分析	第65-67页
6 总结与展望	第67-69页
6.1 工作总结	第67页
6.2 未来展望	第67-69页
参考文献	第69-75页
作者攻读学位期间发表学术论文清单	第75-77页
致谢	第77页