首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

多源数据采集与分析系统的设计与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第10-16页
    1.1 研究的重要性第10-11页
    1.2 数据分析系统的国内外研究现状第11-14页
    1.3 自己做的主要工作第14页
    1.4 本文组织结构第14-16页
第二章 系统调研与技术规划第16-25页
    2.1 目标数据分析的现状第16-18页
        2.1.1 原始数据样例第16-17页
        2.1.2 业务现状调查第17-18页
    2.2 需求分析第18-19页
    2.3 技术选型与系统架构第19-24页
        2.3.1 CAP定理第20-23页
            2.3.1.1 CA分布式系统第20-22页
            2.3.1.2 CP分布式系统第22-23页
            2.3.1.3 AP分布式系统第23页
        2.3.2 复合数据架构第23-24页
    2.4 本章小结第24-25页
第三章 多源数据的ETL设计和实现第25-59页
    3.1 设计前的准备第25-30页
        3.1.1 多源数据的逻辑结构第25-26页
        3.1.2 数据仓库和ETL第26-28页
        3.1.3 HADOOP框架分析第28-30页
    3.2 原始数据的ETL第30-47页
        3.2.1 采集原始数据第30-31页
        3.2.2 原始数据的五元组模型第31-33页
        3.2.3 原始数据装载到HADOOP第33-36页
            3.2.3.1 用FILESYSTEM API装载原始文件到HDFS第33-35页
            3.2.3.2 用HIVEQL装载原始数据到HIVE第35-36页
        3.2.4 用MAP-REDUCE实现五元组模型第36-40页
        3.2.5 五元组数据装载到SQL SERVER第40-47页
            3.2.5.1 SQL SERVER的大容量导入第40-41页
            3.2.5.2 文件发现和装载第41-43页
            3.2.5.3 优化BULK INSERT第43-45页
            3.2.5.4 冷热数据分区第45-47页
    3.3 IP地址库数据的ETL第47-58页
        3.3.1 三层IP地址库数据模型第47-52页
            3.3.1.1 IP地址定位原理第47-48页
            3.3.1.2 地理元数据库第48-49页
            3.3.1.3 三层IP地址库模型第49-52页
        3.3.2 全球IP库的ETL第52-55页
        3.3.3 分布式级联IP地理信息采集第55-58页
    3.4 本章小结第58-59页
第四章 数据呈现与业务系统第59-67页
    4.1 用户的数据权限和功能权限第59-61页
    4.2 数据的二次分析第61-63页
        4.2.1 二次数据归并第61-62页
        4.2.2 输出报告第62页
        4.2.3 IP仲裁第62-63页
    4.3 数据可视化第63-66页
    4.4 本章小结第66-67页
第五章 全文总结与展望第67-69页
    5.1 全文总结第67-68页
    5.2 未来展望第68-69页
致谢第69-70页
参考文献第70页

论文共70页,点击 下载论文
上一篇:基于J2EE的高校干部信息管理系统的设计与实现
下一篇:HTGR公司信息化平台开发项目质量控制研究