E级计算之远景 | 中美日欧披露E级超算规划

战略前沿技术mp 浏览次数: 2016-12-01 00:24

本文由科技导报(ID:STReview)授权转载,作者:邓越凡,张黎浩 【摘要】超级计算机在当今科技发展中占有举足轻重的地位。在向着E级计算时代迈进之时,精'...

本文由科技导报(ID:STReview)授权转载,作者:邓越凡,张黎浩

摘要】超级计算机在当今科技发展中占有举足轻重的地位。在向着E级计算时代迈进之时,精确衡量超算的性能是一个事关超算架构和应用的关键问题。评价一台超算采用不同的基准会产生不同的结果。本文介绍超算中主要的3 种排名及其对应的评测基准,并分析了超算本身的发展及应用远景。

20世纪60年代,Cray开发出的CDC 6600通常被认为是历史上第一台超级计算机。CDC 6600在标准数学运算中能够保持500 kflops(flops指每秒浮点运算数)的速度,是当时其他电脑的10倍。从那时开始,超级计算机速度大约每1.5年翻一番,非常接近著名的摩尔定律。而计算速度单位也从kflops,到Mflops(百万次浮点运算每秒),Gflops(十亿次浮点运算每秒),Tflops(万亿次浮点运算每秒)等。2016年中,由中国开发的最快超级计算机神威太湖之光的峰值速度达到125.4Pflops(千万亿次浮点运算每秒),并能在广泛认可的LINPACK基准测试中保持93 Pflops的浮点运算速度。

大多数超级计算机是通过网络互连大量处理单元而构成的并行计算机。“处理器”代表单独的运算芯片,“核”代表芯片上接受并运行指令的基础运算单元,而“节点”代表计算机中一个或多个处理器组成的单元[1]。制造更快的超级计算机需要提高单个处理器的运算速度或者连接更多的处理器,或者两者同时进行。处理器速度的极快发展已带来处理器频率、访存、能源等一系列物理上难以逾越的限制。具体而言,提高单个处理器需要提高处理器时钟频率,或者提高每个时钟循环内的运算量,或者集合更多的处理核心。而每一种方法都会提高能耗,导致处理器温度过高,即使采用目前最好的冷却技术也难以保证半导体电路的正常运行。在单个处理器提速受限的情况下,为了提高超级计算机的运行速度,可行的方法是尽可能多的集成更多的处理核心来达到更高的总体速度。比如神威太湖之光拥有超过1000万的核。这项记录也必然会在不久的将来被正在开发中的新系统打破,下一个超算时代将会到达E级(百亿亿计算级别)[2]。以美国为例,IBM 的200 Pflops 的超算“Summit”预计将于2018年初在橡树岭国家实验室开始运行,而300 Pflops的超算“Sierra”预计将于2017年在劳伦斯·利弗摩尔国家实验室运行[3]。而以日本为例,继“京”之后,耗资9.1亿美元的1000 Pflops超算预计将于2020年发布。中国尚未正式发布下一个破纪录计划,但是不难猜测中国正在努力在这场激动人心的超算大赛中保持领先地位。

超级计算机的性能指标

Top500 排行榜

几十年来,超算性能的定义等同于计算速度,以flops衡量。Top500 [4]以运行LINPACK基准测试所能达到的最高性能Rmax(单位:Tflops)对500个超算系统进行排名。排行榜同时提供很多有用的信息,包括制造商、地点、核数、网络互连技术等。表1为2016年6月排行榜前10的超算,其中Rpeak(单位:Tflops)代表理论峰值速度。

10台超算中,中国的超级计算机位居前两位。其中2013年7 月发布的天河二号,已经在此之前连续6 次以33.86Pflops的运行速度排行榜首。其他4台在美国,日本、瑞士、德国和沙特阿拉伯各有1台。

Green500 排行榜

在持续几十年的运行速度的竞赛中,建造和能耗的预算并不在考虑之中,但从业者逐渐发现超级计算机正面临着能耗过高的限制。2007年,侧重于超算能效的Green500[5]排行榜开始发布。用电效率Mflops/W,即每W 功率可以支持多少Mflops的运行速度。最近,Green500和Top500宣布合并使用同样的提交规则来标准化能耗测量标准。相关的说明文档详细规定了能耗测量所需要考量的因素,并设定了由低到高3种测量品质。这对提交的数据提出了更高的要求,以保证最后能效排名的准确性。同时Green500和Top500依然是不同网站上独立的两个排行榜。

表2为2016年1月Green500榜单前10位系统,出人意料的是,Green500上大多数高排名的超算没有在Top500的前列出现。通常节能型的超级计算机是在给定的能耗限制下仔细设计建造的,以求达到可能的最高能效。通常这些机器规模较小,能耗只有几万瓦。制造同时拥有顶尖计算速度和高能效的大规模超级计算机依然是一项具有挑战的任务。

Graph500 排行榜

Top500排行榜采用LINPACK基准测试超级计算机在解稠密线性方程组时的性能。然而对于超算系统在包括数据密集型应用在内的许多其他应用中,Top500并没有提供有用的信息。2010年,一个小组开始着手研究大数据应用方面的新的性能基准,并在当年发布了Graph500[6]。该基准用于衡量超算通信子系统的性能,它测量的是在一个大型无向图上执行广度优先算法时,每秒遍历边缘的数量,单位为Gteps(每秒10亿遍历边缘数)。

该基准包括一个可扩展的数据生成器,可以生成包含所有边起点和终点边的数组。第一个核心进程生成一个无向图,其格式能够被接下来所有的核心进程所用。此后不允许任何改动,以防止某些核心进程会因此获益。第二个核心进程则是对生成的图执行广度优先算法。两个进程都进行计时。根据输入规格大小分成6个问题类型:从最小1010字节的“toy”到1015字节的“huge”。

Graph500还是一个非常年轻的项目。最新的排行榜只列出了211 台超算,离真正500 有一段距离。大多数Graph500的小规模超算并没有出现在Top500上。大约70%的Graph500超算系统来自美国和日本(表3)。

2016 年超算分析

对2016年6月Top500的超算系统进行分析。Green500列出了Top500所有超算的能效,使得Top500不完整的能效数据得到补充。而作为一个新排行榜,Graph500以一个非常不同的角度评测超算,因此Top500的超算系统在Graph500上出现得不多。同时Top500 上很多超算系统也是专门对LINPACK基准做过优化的,所以在分析中没有考虑Graph500的排名。

性能散点图

与文献[7]、[8]类似,用一幅能效相对于LINPACK效率的散点图(图1)检视各超算系统。图1中空心圈或者实心圆的圆心代表相应的LINPACK和能效,圈和圆的面积与持续运算速度Rmax成正比,圈代表超算系统没有加速器,实心圆代表有加速器,颜色用于区分网络互连类型。

图1 2016 年6 月Top500 和Green500 的LINPACK效率和能效散点图

为了简化,将私有互连和自定义互连合并为一类。因此,在一般散点图通常两个维度(LINPACK效率和能效)的基础上,额外增加了持续速度、互连类型、是否有加速器3个维度。图1中绿色的曲线把散点图分为3个区域,每个区域包含了1/3的点。红色射线和绿色曲线类似,将把散点图分成3个有同样点数的区域。最理想的超算系统毫无疑问拥有很高的能效和LINPACK效率,同时能达到很高的持续计算速度,这些系统会以大面积的圈或者圆的形式出现在散点图的右上角。

 1 2 3 4 5 下一页 尾页
网友点评
最新文章
猜你喜欢