摘要 | 第4-5页 |
abstract | 第5页 |
1 绪论 | 第9-15页 |
1.1 研究背景及意义 | 第9-10页 |
1.2 研究现状 | 第10-12页 |
1.2.1 国外研究现状 | 第10-11页 |
1.2.2 国内研究现状 | 第11页 |
1.2.3 发展趋势 | 第11-12页 |
1.3 研究内容及章节安排 | 第12-15页 |
1.3.1 研究内容 | 第12页 |
1.3.2 章节安排 | 第12-15页 |
2 相关技术研究 | 第15-31页 |
2.1 信息抽取介绍 | 第15-19页 |
2.1.1 常见Web信息抽取技术及不足 | 第15-17页 |
2.1.2 信息抽取层次及评价指标 | 第17-18页 |
2.1.3 信息抽取与信息检索的异同点 | 第18-19页 |
2.2 Hadoop技术简介 | 第19-24页 |
2.2.1 分布式文件系统HDFS | 第22-23页 |
2.2.2Map/Reduce并行计算框架 | 第23-24页 |
2.3 复杂网络 | 第24-27页 |
2.3.1 复杂网络简述 | 第24-25页 |
2.3.2 复杂网络时间同步算法TPSN | 第25-27页 |
2.4 网络爬虫原理 | 第27-31页 |
2.4.1 网络爬虫的工作原理及系统结构 | 第27-29页 |
2.4.2 分布式网络爬虫的工作原理 | 第29-31页 |
3 面向Web信息抽取的复杂网络TPSN算法改进 | 第31-39页 |
3.1 引入复杂网络时间同步算法的必要性 | 第31-32页 |
3.2 面向Web信息抽取的复杂网络参数改进 | 第32-35页 |
3.2.1 面向Web信息抽取的复杂网络模型 | 第32-34页 |
3.2.2 面向Web信息抽取的复杂网络参数改进及重定义 | 第34-35页 |
3.3 面向Web信息抽取的复杂网络时间同步 | 第35-39页 |
3.3.1 基于最小二乘估计法的时间同步算法TPSN-LS | 第35-37页 |
3.3.2 TPSN-LS时间同步施行流程 | 第37-39页 |
4 基于TPSN-LS的Web信息抽取算法研究 | 第39-49页 |
4.1 DOM树模型 | 第39-41页 |
4.1.1 DOM树简述 | 第39-40页 |
4.1.2 DOM节点层次划分 | 第40-41页 |
4.2 TPSN-LS改进DOM树Web抽取的算法框架 | 第41-44页 |
4.2.1 算法框架设计 | 第41-42页 |
4.2.2 基于TPSN-LS的DOM树网络构造 | 第42-44页 |
4.3 核心模块 | 第44-49页 |
4.3.1 页面预处理 | 第44-46页 |
4.3.2 定位数据区域 | 第46-47页 |
4.3.3 目标数据抽取 | 第47-49页 |
5 基于TPSN-LS和Hadoop的Web信息抽取系统实现 | 第49-67页 |
5.1 采用Hadoop进行Web信息抽取的优势 | 第49-50页 |
5.2 基于TPSN-LS和Hadoop的Web信息抽取系统 | 第50-57页 |
5.2.1 系统功能模块 | 第50-52页 |
5.2.2 抽取基本流程 | 第52-54页 |
5.2.3 HDFS数据存储结构 | 第54-55页 |
5.2.4 系统的主要类 | 第55-57页 |
5.3 并行化信息抽取的Map/Reduce实现 | 第57-63页 |
5.3.1 CrawlerDriver | 第57-58页 |
5.3.2 Parser Driver | 第58-59页 |
5.3.3 OptimizerDriver | 第59-61页 |
5.3.4 MergeDriver | 第61-62页 |
5.3.5 HtmlToXMLDriver | 第62-63页 |
5.4 实验分析 | 第63-67页 |
5.4.1 Hadoop集群网络搭建 | 第63-65页 |
5.4.2 实验过程与结果分析 | 第65-67页 |
6 总结与展望 | 第67-69页 |
6.1 工作总结 | 第67页 |
6.2 未来展望 | 第67-69页 |
参考文献 | 第69-75页 |
作者攻读学位期间发表学术论文清单 | 第75-77页 |
致谢 | 第77页 |