• Phone: 010-82374884
  • Market@loongstore.com.cn

高性能计算

随着计算机科学技术的快速发展,高性能计算已成为科学研究所必需的辅助工具,并在各个基础学科领域发挥出了巨大的作用。如在气象气候、石油物探、航空航天、工程计算、密码研究、生物基因、船舶工程、地质勘探、海洋工程、城市建设、武器研究、材料工程、环境科学等领域,且此类计算任务往往公式复杂、计算难度大、计算时间极长,用一般计算方式难于完成,因此高性能计算系统就成为必不可少的工具。


近年来,Linux并行集群系统渐渐成为HPC的主流,并使HPC进入更广阔的工业和商业应用市场,为用户提供高性能计算、网络请求响应或专业的应用程序(包括并行计算、数据库、Web)等服务。相比起传统的大型机和小型机,集群系统有极强的伸缩性,可通过在集群中增加或删减节点的方式,在不影响原有应用与计算任务的情况下,随时增加和降低系统的处理能力,也可根据不同的计算模式与规模,构成集群系统的节点数可以从几个到上千个,对于以国家政府、军方及大型组织机构来讲,节点数目可以达到数千甚至上万。



挑战

性能扩展

在存储系统中,处理器主要完成I/O处理、cache控制管理、数据传输控制以及一些智能化的软件功能,处理器的能力直接影响到整个存储系统的性能。因此存储系统需要能够将所有服务器的CPU虚拟化成一个性能超强的CPU,对数据存储内容分发进行数据处理,提升存储系统整体存取效率,提升整个应用的处理能力,且为了满足数据处理程序对存储性能增长率的要求,采用的存储设备必须具有良好的性能扩展性能,可以将单个任务分布式的存储在多台存储服务器中,屏蔽掉由于单个硬盘或者服务器对外提供存储服务而造成的数据读写瓶颈。


数据缓存机制

对于大数据量图片访问应用,存储系统需要拥有缓存机制,将所有经常被访问的数据存储在缓存池中方便用户调取经常被访问的数据时可以直接从缓存调取,且缓存池容量无需设置限制。


海量文件高效检索效率

当数据量不断增长(如图片类与数据处理数据),存储系统里面的文件数量也会快速增长。当存储系统内的文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。


可靠性、可维护性与可扩展性



LoongStore解决方案

面向高性能计算集群存储架构设计

针对高性能计算应用高并发的特点,采用带外模式的大规模开放集群存储架构,通过高速网络将通用存储服务器中的CPU、内存、网络带宽、磁盘转速、总线性能整合在一起,形成一个高端存储器,使得存储总体性能高于计算处理能力与网络带宽的传输速度,以此来屏蔽由于磁盘和总线性能提升缓慢造成的存储性能瓶颈。本次项目中我们将以全线速网络互连前端的计算节点和后端的存储及元数据节点,以保证存储设备的性能输出达到最大化。由于采用带外模式,很好的消除了元数据通路与数据通路的相互干扰。而元数据服务器的集群化和存储服务器的集群化,使得整个系统中不存在像NAS或者SAN系统那样的性能瓶颈点,因此能够完全满足高性能计算应用高并发的需求。


针对高性能计算数据海量存储需求的高可扩展技术

高性能计算应用除了高并发访问的特点之外,海量数据存储也是其重要特征之一。从目前计算任务的需求以及未来发展趋势看,相信不久的将来高性能计算平台的存储容量会不断的扩大,从而达到几十PB或者上百PB,那么现有的存储系统会不断的扩展,为此,存储系统的海量高可扩展技术对计算平台非常重要,我们在LoongStore在线无限制快速扩容以及负载均衡技术的基础上研制高可扩展存储技术,使得存储系统的规模能够随着计算应用的发展而高效、无需中断服务的在线扩展,同时达到随着容量的增加性能的线性增长。


针对高性能计算的海量小文件高吞吐率、高效检索技术

目前,存储市场上大部分的存储系统在海量小文件的应用模式下,都存在吞吐率低,检索慢的问题。这个问题的本质原因是整个存储系统处理元数据的效率所导致的。由于目前绝大多数存储系统都是采用单一元数据服务器架构,虽然部分存储系统有两个元数据服务器,但是系统正常情况下只有一个元数据服务器提供服务功能,另一个处于standby状态,本质上属于高可用作用,因此,当整个存储系统的文件数量达到一定规模时,检索文件的效率变得极其低下,从而导致小文件吞吐率低。我们在LoongStore现有的多元数据服务器集群技术的基础上,结合高性能计算应用文件创建、访问以及目录结构特点,研制独一无二的多元数据服务器集群技术,在一套存储系统中可以根据用户生产系统中实际产生文件数量的规模对元数据服务器集群进行动态配置,整个存储系统中所有的元数据服务器同时参与文件的检索和定位工作,消除存储系统中元数据通道的瓶颈,同时还可以根据后续应用特点的变化和需求的增强,做到在线扩展元数据服务器,并且达到即插即用的效果。


面向高性能计算的智能数据缓存技术

高效的数据缓存技术能够帮助存储系统发挥更好的性能,提高计算任务的效率。我们拟采用多级智能数据缓存技术来实现高效缓存。首先,通过应用服务器上自主研发客户端内核模块,分析应用访问数据的特点,采用特定的缓存算法在应用服务器上有效缓存应用的访问数据;其次,将所有存储服务器的内存集合起来形成一个大的缓存池,通过存储服务器上独特地缓存算法缓存不同应用访问的数据;最后,将所有元数据服务器的内存集合起来形成一个高效的元数据缓存池,通过复杂的元数据淘汰算法来缓存元数据信息。通过这样多级数据的缓存技术,会使得整个存储系统的性能能够得到大幅提高。


面向多用户环境的增强型权限管理技术

计算平台是一个多用户共享平台,每天都有很多用户在计算平台上面运行不同的任务,整个存储系统需要保证各个用户之间的任务相互独立、数据安全高可用,因此,传统的基于操作系统用户权限的管理技术无法完全满足计算平台的需求。在新研制的存储系统中拟提供增强型权限管理技术,除了兼容原有基于操作系统用户的权限管理之外,还增加了自身所特有的增强型权限管理技术,通过存储系统的后端管理平台直接为某个目录指定哪些用户、或者哪些应用服务器能够访问,哪些目录禁止用户删除、修改等。


面向海量数据的全局数据高可用技术

高可用对于一个存储系统来说非常重要,本质上来看就是如何使存储系统自身不存在单点故障。目前市场是大部分的存储系统在可靠性方面主要是依靠硬件自身的可靠性来实现,比如Raid技术,采用高端的光纤盘阵等,这些高可用技术存在很大的局限性,恢复效率差,无法适应海量数据的应用环境。LoongStore独特的全局数据高可用技术,结合应用特点用自身独有的软件技术来完成高可用,首先,无论是存储服务器还是元数据服务器都采用了集群化技术;其次,存储系统软件层采用多副本技术、文件动态分片技术、文件级raid技术以及支持不同目录设置不同冗余度技术来保证整个系统的高可用。最终,通过这些高效的全系统规模数据高可用技术,彻底消除存储系统中的单点故障。另外,存储系统内置了自动故障探测机制,可以动态探测不同的故障,并自动启动数据的恢复流程确保数据完整性,数据恢复完全在存储后端进行,不对前端应用造成任何影响,在保证数据安全的同时确保用户的应用持续稳定的运行,单台存储服务器或者元数据服务器发生损坏都不会对应用数据读写造成任何影响,且随着存储服务器的不断增加,数据恢复的速度成倍增长,即服务集群规模越大数据的安全性越高。


以磁盘为粒度的在线实时访问流量调控技术

存储系统采用对象存储技术,能够做到以磁盘为粒度的在线实时访问流量调控技术,当整个存储系统通过实时监控发现某些设备或者磁盘处于高负载的情况时,一方面,存储系统可以通过禁止某些设备写入数据,从而降低某些设备的负载;另一方面,可以启动系统负载调控功能,存储系统根据自身智能负载机制将系统的热点数据进行迁移,使得存储系统中的各个存储节点负载均衡。


针对高性能计算应用的集群存储系统高并发读写技术

高性能计算特点是高并发读写,针对这种应用的特点,与传统的设备级分片不同,拟采用文件切片技术,将文件均匀分布在整个存储服务器集群中,以保证应用无论是对单个文件还是多个文件的访问模式,都能有效利用整个存储服务器集群提供的性能;另一方面应用服务器端通过高速网络直接与存储服务器通信,高效地利用了高速网络提供的带宽,消除了通行过程中的网络瓶颈。采用这样的技术之后,当整个计算平台的上千个应用节点同时访问数据的时,能够确保整个存储系统的每个设备都能发挥出自身的硬件能力,为前端应用提供更大的聚合带宽。


满足大计算量、长周期计算特点的不停机扩容技术,保持计算任务的连续性

计算平台作为一个大规模的平台,具有使用周期长、计算量大的特点,在实际的使用过程中,存在着随时扩展整个计算平台的计算和存储能力的需求,这就要求整个存储系统具有在线扩容的能力。本次项目研制的系统单套系统容量能够支持多达EB,其灵活的扩展性允许在线扩容,独有的数据恢复策略可以实现在线的更换所有硬件设备,能够满足计算平台中磁盘和数据总线性能提升时,存储底层设备的更换,实现一套存储系统永久满足高性能计算的存储需求。且扩容过程不影响前端的应用,同时系统的总体IO带宽随着规模的扩大线性增长,可以根据计算规模不断变化的定制存储系统,以此满足高性能计算中对容量与性能的需求。