摘要 | 第4-6页 |
ABSTRACT | 第6-8页 |
第一章 绪论 | 第15-19页 |
1.1 研究目的与意义 | 第15页 |
1.2 国内外研究现状 | 第15-16页 |
1.3 研究内容 | 第16-17页 |
1.4 本文的组织结构 | 第17-19页 |
第二章 相关技术 | 第19-23页 |
2.1 Hadoop概述 | 第19-20页 |
2.2 ETL工具Kettle概述 | 第20页 |
2.3 ElasticSearch分布式全文检索系统特性 | 第20-21页 |
2.4 Spark介绍 | 第21-23页 |
第三章 系统分析与设计 | 第23-33页 |
3.1 数据存储与综合应用需求分析 | 第23-24页 |
3.1.1 数据存储与综合应用现状 | 第23-24页 |
3.1.2 主要存在的问题 | 第24页 |
3.2 数据存储与综合应用需求 | 第24-26页 |
3.2.1 数据存储需求 | 第24页 |
3.2.2 业务流程分析 | 第24-25页 |
3.2.3 功能需求 | 第25-26页 |
3.2.4 非功能需求 | 第26页 |
3.3 系统总体设计方案 | 第26-33页 |
3.3.1 系统总体结构 | 第26-27页 |
3.3.2 主要功能设计 | 第27-28页 |
3.3.3 权限控制 | 第28-29页 |
3.3.4 数据库分布及设计 | 第29-30页 |
3.3.5 用户界面设计 | 第30-33页 |
第四章 核心业务技术设计 | 第33-49页 |
4.1 分布式数据比对引擎技术设计 | 第33-41页 |
4.1.1 技术原理和路线 | 第34-35页 |
4.1.2 地址比对设计 | 第35-37页 |
4.1.3 地址比对算法有效性研究 | 第37-38页 |
4.1.4 地址比对算法性能研究 | 第38-41页 |
4.2 分布式全文检索应用设计 | 第41-44页 |
4.2.1 分布式全文检索应用整体架构 | 第42-43页 |
4.2.2 分布式全文检索应用的中文分词 | 第43-44页 |
4.3 ETL应用设计 | 第44-49页 |
第五章 系统实现 | 第49-73页 |
5.1 Hadoop的安装与部署 | 第49-51页 |
5.2 ElasticSearch的安装部署 | 第51-52页 |
5.3 Spark的安装部署 | 第52-53页 |
5.4 数据信息比对的实现 | 第53-59页 |
5.4.1 外部数据源管理 | 第53-56页 |
5.4.2 业务目标数据源管理 | 第56-57页 |
5.4.3 数据源分组 | 第57-58页 |
5.4.4 设置比对规则 | 第58-59页 |
5.5 全文检索应用的实现 | 第59-62页 |
5.6 ETL实现 | 第62页 |
5.7 主要功能和性能指标的测试和验证 | 第62-73页 |
5.7.1 主要功能测试和验证 | 第62-68页 |
5.7.2 主要性能测试和验证 | 第68-73页 |
第六章 结论 | 第73-75页 |
参考文献 | 第75-77页 |
致谢 | 第77-79页 |
作者与导师简介 | 第79-80页 |
附件 | 第80-81页 |