首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

一种ETL与数据清洗相结合的分布式数据集成工具的研究与实现

摘要第2-3页
Abstract第3-4页
第一章 引言第8-12页
    1.1 研究的背景及意义第8页
    1.2 国内外研究现状与发展趋势第8-10页
    1.3 本文的主要工作第10-11页
    1.4 论文的组织第11-12页
第二章 相关技术和理论的研究第12-24页
    2.1 分布式计算技术第12-15页
        2.1.1 分布式对象技术第12-13页
        2.1.2 Web Services 技术第13页
        2.1.3 网格技术第13-14页
        2.1.4 基于多 Agent 的分布计算技术第14-15页
    2.2 数据集成技术第15-23页
        2.2.1 数据集成分法概述第15-17页
        2.2.2 ETL 过程第17-19页
            2.2.2.1 ETL 概述第17-18页
            2.2.2.2 抽取第18页
            2.2.2.3 转换第18页
            2.2.2.4 加载第18-19页
        2.2.3 数据清洗技术第19-23页
            2.2.3.1 数据质量问题第19-20页
                2.2.3.1.1 缺失数据第19-20页
                2.2.3.1.2 孤立点第20页
                2.2.3.1.3 不一致数据第20页
                2.2.3.1.4 相似重复记录第20页
            2.2.3.2 数据清洗方法第20-23页
                2.2.3.2.1 缺失数据处理第20-21页
                2.2.3.2.2 孤立点第21页
                2.2.3.2.3 不一致数据第21页
                2.2.3.2.4 重复记录第21-23页
    2.3 ETL 与数据清洗的元数据第23页
    2.4 本章小结第23-24页
第三章 一种 ETL 与数据清洗相结合的分布式数据集成(ETL&DC)工具的设计第24-44页
    3.1 设计目标第24-25页
        3.1.1 功能性设计目标第24-25页
            3.1.1.1 异构数据源抽取和跨平台性第24页
            3.1.1.2 丰富的 ETL 数据转换功能第24页
            3.1.1.3 数据质量检测和数据清洗第24-25页
            3.1.1.4 友好的界面第25页
        3.1.2 性能方面设计目标第25页
    3.2 基于环形计算服务器的网络架构设计第25-31页
        3.2.1 基于环形计算服务器的网络架构模型描述第25-27页
        3.2.2 协议 PM-环形计算服务器构建和维护第27-29页
        3.2.3 协议 PC-环形计算服务器网与客户端通信第29-30页
        3.2.4 环形计算服务器网的优势第30-31页
    3.3 ETL&DC 工具的体系结构第31-34页
        3.3.1 整体软件架构第31-34页
    3.4 主要模块设计第34-41页
        3.4.1 客户端与计算服务器端及注册中心的通信控制过程(Agent 协作过程)第34-36页
        3.4.2 分布式处理的协同管理第36页
        3.4.3 ETL 及数据清洗的执行引擎第36-39页
            3.4.3.1 数据抽取第37页
            3.4.3.2 数据转换第37-38页
            3.4.3.3 数据加载第38页
            3.4.3.4 数据清洗第38-39页
        3.4.4 多线程流水线设计第39-41页
    3.5 元数据库设计第41-43页
    3.6 本章小结第43-44页
第四章 ETL&DC 工具的实现第44-62页
    4.1 系统开发平台和实现技术第44-45页
        4.1.1 系统底层 Agent 通信平台第44-45页
    4.2 客户端实现第45-49页
        4.2.1 图形界面设计实现第45-48页
        4.2.2 元数据的获取第48-49页
    4.3 协同管理第49-50页
    4.4 计算服务端实现第50-57页
        4.4.1 环形计算服务网的信息维护表第50-51页
        4.4.2 缓冲区结构实现第51-52页
        4.4.3 多线程流水线执行第52-53页
        4.4.4 ETL 与数据清洗执行引擎第53-57页
            4.4.4.1 数据抽取组件实现第54页
            4.4.4.2 数据转换组件实现第54-55页
            4.4.4.3 基于 hsqldb 的规则解析引擎第55-56页
            4.4.4.4 数据加载组件实现第56-57页
    4.5 数据清洗第57-61页
        4.5.1 缺失数据处理第57-58页
            4.5.1.1 缺失数据处理规则第57页
            4.5.1.2 缺失数据处理流程第57-58页
        4.5.2 重复记录消除第58-61页
            4.5.2.1 相似记录集检索第58页
            4.5.2.2 相似度计算方法[39,40]第58-60页
            4.5.2.3 相似记录合并策略第60页
            4.5.2.4 重复记录消除流程第60-61页
    4.6 本章小结第61-62页
第五章 ETL&DC 工具的测试与分析第62-78页
    5.1 客户端设计界面第62-73页
        5.1.1 元数据库配置界面第62页
        5.1.2 用户登录连接协同管理服务器第62-63页
        5.1.3 数据集成作业的设计界面第63-65页
        5.1.4 元数据扫描与获取界面第65-66页
        5.1.5 各个组件节点的属性设置第66-73页
            5.1.5.1 数据抽取组件第66-67页
            5.1.5.2 数据转换组件第67-70页
            5.1.5.3 数据清洗组件第70-72页
            5.1.5.4 数据加载组件第72-73页
    5.2 注册控制端的 Agent 监控界面第73页
    5.3 计服务器端的设计界面第73-74页
    5.4 系统性能测试第74-77页
    5.5 本章小结第77-78页
结论与展望第78-79页
致谢第79-80页
参考文献第80-82页
个人简历第82-83页
在学期间的研究成果及发表的学术论文第83页

论文共83页,点击 下载论文
上一篇:样品派发形式对顾客购买意愿影响研究:前景理论的视角
下一篇:社会流动与城市外来工女性婚恋观的变迁