摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第8-18页 |
1.1 研究背景及意义 | 第8-10页 |
1.1.1 研究背景 | 第8-10页 |
1.1.2 研究意义 | 第10页 |
1.2 国内外研究综述 | 第10-15页 |
1.2.1 民航业发展综述 | 第10-12页 |
1.2.2 航空电子货运发展综述 | 第12页 |
1.2.3 民航业大数据研究综述 | 第12-13页 |
1.2.4 Hadoop 平台应用综述 | 第13-14页 |
1.2.5 网页数据抓取与挖掘研究综述 | 第14-15页 |
1.3 本文研究内容和方法 | 第15-16页 |
1.3.1 研究内容 | 第15-16页 |
1.3.2 研究方法 | 第16页 |
1.4 研究创新点与重难点 | 第16页 |
1.5 本文组织结构 | 第16-18页 |
第2章 相关技术理论 | 第18-30页 |
2.1 Hadoop 技术 | 第18-22页 |
2.1.1 Hadoop 技术简介 | 第18-19页 |
2.1.2 HDFS 分布式文件系统 | 第19-20页 |
2.1.3 MapReduce 分布式计算框架 | 第20-22页 |
2.2 网络爬虫技术 | 第22-24页 |
2.2.1 网络爬虫的工作原理 | 第23-24页 |
2.2.2 网络爬虫的工作结构 | 第24页 |
2.3 R 与 Hadoop 集成 | 第24-27页 |
2.3.1 R 语言简介 | 第24-25页 |
2.3.2 R 语言在大数据处理中的应用 | 第25-27页 |
2.4 协同过滤算法 | 第27-28页 |
2.5 本章小结 | 第28-30页 |
第3章 FSU 数据信息库设计 | 第30-42页 |
3.1 航空货运轨迹数据 | 第30-37页 |
3.1.1 FSU 数据源简介 | 第30页 |
3.1.2 FSU 数据源网页结构特征 | 第30-33页 |
3.1.3 FSU 数据源报文结构特征 | 第33-37页 |
3.2 数据库设计需求分析 | 第37-38页 |
3.2.1 FSU 数据的用户体验现状 | 第37页 |
3.2.2 FSU 数据的市场运用前景 | 第37页 |
3.2.3 需求设计思路 | 第37-38页 |
3.3 数据信息库设计 | 第38-40页 |
3.3.1 数据字典设计 | 第38-39页 |
3.3.2 数据表结构设计 | 第39-40页 |
3.4 本章小结 | 第40-42页 |
第4章 FSU 数据抓取关键技术实现 | 第42-66页 |
4.1 分布式平台构建 | 第42页 |
4.2 FSU 数据抓取关键技术 | 第42-64页 |
4.2.1 爬虫抓取框架 | 第43页 |
4.2.2 爬虫抓取说明 | 第43-45页 |
4.2.3 爬虫抓取技术实现 | 第45-59页 |
4.2.4 爬虫抓取测试效果 | 第59-64页 |
4.3 数据入库分布式文件系统 | 第64-65页 |
4.4 本章小结 | 第65-66页 |
第5章 RHadoop 下协同过滤算法的数据挖掘应用 | 第66-76页 |
5.1 RHadoop 平台搭建 | 第66页 |
5.2 HDFS 中数据备份查找 | 第66-67页 |
5.3 协同过滤算法的应用 | 第67-74页 |
5.3.1 数据清洗说明 | 第68页 |
5.3.2 数据分析观察 | 第68-70页 |
5.3.3 协同过滤算法挖掘应用 | 第70-74页 |
5.4 本章小结 | 第74-76页 |
结论 | 第76-78页 |
参考文献 | 第78-82页 |
附录 | 第82-84页 |
攻读硕士学位期间取得的研究成果 | 第84-86页 |
致谢 | 第86-87页 |