基于I/O转发架构的I/O优化技术研究与实现
【摘要】:随着人类活动空间的拓展,实验手段的丰富,测量仪器的进步,在很多领域产生了海量数据,网络的广泛应用更是加剧了数据的膨胀速度。面对日益增长的海量数据,数据的处理和存储变成一个非常棘手的问题。在海量数据研究的过程中,需要用于计算处理的数据动辄几十TB甚至上百TB,一般的计算机集群显然不能满足需求,我们需要利用大规模超级并行计算系统来处理日益增长的海量数据。当今超级计算机迅猛发展,但其所面临的计算能力与存储能力之间的差距未能得到有效的解决。首先是I/O带宽的问题,随着单核CPU处理能力和CPU数量规模的快速增长,在高性能计算系统中,I/O带宽增长缓慢并与CPU处理能力之间的差距持续扩大,I/O带宽越来越显著的成为高性能计算系统的性能瓶颈。其次是可扩展性问题,高性能计算机一般通过增加计算资源规模来获得性能的提升,而这一规则不适用于存储系统,分布式文件系统所能支持的客户端数量是有限的,因此规模不可以无限制的扩展。目前I/O转发(I/O Forwarding)架构,被广泛应用于大规模超级并行计算系统,用来解决高性能计算当中的可扩展性问题,比如,IBM的Blue Gene/P超级计算机和Cray XT系统。本文面向典型的I/O转发架构研究I/O优化技术,来加速高性能计算机对海量数据的处理、传输和存储过程。首先,为了充分重叠计算和I/O过程,在I/O中转节点设计并实现了一个混合使用主存和SSD的异构缓冲区,其中SSD作为辅助缓冲区,用以解决大数据量输入输出条件下I/O中转节点缓冲资源不足的矛盾,通过针对性的回写和预读策略,对I/O中转节点进行缓存优化,缩减I/O访问路径和隐藏I/O延迟。其次,为充分利用I/O中转节点富余的计算能力,提出了在I/O路径上采用主动数据处理的优化方法,设计了I/O中转节点的主动数据处理服务框架,用来支持在I/O中转节点实现包括数据加密、数据压缩、字符统计、数表转换等处理操作,充分利用I/O中转节点的多核CPU的计算能力,降低数据存储和移动开销。最后,实现了一个基于I/O中转节点进行主动数据处理的一个实例——数据的压缩和解压缩服务,并在天河平台实现并行压缩和解压缩的I/O架构设计和测试,实验显示:通过I/O优化,可以加速海量数据在网络和磁盘上的传输效率。
【关键词】:I/O优化 I/O转发 SSD 主动数据处理 并行压缩
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP38