• Phone: 010-82374884
  • Market@loongstore.com.cn

清华大学龙存集群存储系统案例

清华大学机械工程学院内设机械工程、热能工程、工业工程等6个系,其机械工程系拥有多个国家级、部级、市级重点实验室和研究所,研究方向涉及各类机械装备理论设计与制造、制造系统自动化数字化和过程监控等,跨越激光制造、增材制造、生物制造和航空航天制造等多个领域。由于该系进行日常教学和科研项目时常涉及大量数据的计算分析和处理,需建立一套高性能计算系统以提升效率。



一、系统简介

机械工程系日常教学和科研项目中经常使用的软件是流体计算的fluent、化学计算的Vasp和Gaussian、模拟真实物理系统需求的Ansys等软件。


这些软件均为高性能应用软件,需依赖高性能计算集群进行数据计算和海量数据分析,需依赖一个高安全和高IO带宽的存储系统对高性能计算进行支撑,以保证每次计算的正确性和计算效率。




二、解决方案

利用LoongStore集群存储系统,结合原有的InfiniBand网络,打造提供统一虚拟存储池的存储系统。该存储系统有安全性高、IO吞吐量大的特点,可满足本次高性能计算系统的存储所需。


本方案存储系统由3台12盘位智能存储节点,2台龙存元数据控制节点构成。


前端的高性能计算服务器集群通过高速的Infiniband网络与存储节点集群和元数据服务器集群构成的LoongStore集群存储系统,进行数据读写。整体存储系统I/O吞吐量可达1800MB/s。




三、LoongStore高端集群存储的在高性能计算场景的优势

1、数据的安全性:
高性能计算场景中,一个计算进程也许能持续几个小时或是几天甚至是更长时间,在计算进程当中存储系统哪怕出现一个字节的错误数据,都可能会影响整体的计算结果,甚至使几天累积的劳动成果报废,所以保证数据的正确性,显得尤为重要。


LoongStore集群存储系统提供N+M纠删码保护,也提供多副本数据保护,支持用户可根据实际需求自选,以根据实际情况最大限度的保护数据的安全,保证计算结果正确有效。


2、高IO吞吐能力:
高性能计算场景中,数据需要从存储系统被读取至计算系统以进行计算,同时计算完毕的数据需回写至存储系统,这些数据量会非常庞大,如果存储系统的IO吞吐能力不足,将会限制整个高性能计算平台的效率。


LoongStore集群存储系统以单个数据读写进程多线程并发的独有技术,总能在数据读写速度的考校中独占鳌头。


3、业务连续性保障:
LoongStore集群存储系统支持不停业务在线扩容,系统性能和容量随着系统扩容而线性增加。系统没有任何单节点故障,任何存储节点、网络节点的故障均不影响系统正常工作。故障硬盘数据恢复速度快,1T的数据恢复时间小于30分钟。




四、客户收益

龙存为清华大学机械系建立了一个完善的、高效的高性能计算集群存储系统,使其具有相匹配的节点/CPU内存容量,满足高性能的数据存储管理能力,与前端计算集群相得益彰,并通过为大型数据中心提供可扩展的模块化方案组合实现了企业级的支持。