找回密码
 立即注册
cscuda 该用户已被删除
发表于 2010-4-8 17:44:54
40928
如果说虚拟化是近年来服务器领域的一大热门,那么在高性能计算(HPC)领域中,通用图形处理器(GPGPU,General-purpose comPuting onGraphicsProcessingUnits),或者说GPU通用计算(下文简称GPU计算)在这几年也越来越火热了,尤其是2009年中国研发的基于CPU+GPU混合计算架构的“天河一号”一举夺得了中国TOP100超级计算的排名的桂冠,闯入全球TOP500强的前五位,让人们见到了GPU计算的威力所在。完全可以说,GPU通用计算已经是一个不可阻挡的潮流,那么在2010年里,GPU通用计算又将如何发展呢?为此我们专访了在GPGPU方面走在业界前端的NVIDIA公司Tesla产品总监Sumit Gupata先生,就相关的热点话题进行了深入的交流。
  



NVIDIA公司Tesla产品总监Sumit Gupata先生,是一位来自印度的计算机博士,在任产品总监之前是Tesla产品工程师,对于GPGPU技术有很深的了解

  NVIDIA公司在GPGPU方面可谓不遗余力,其自行开发的统一计算设备架构(CUDA,ComputeUnifiedDeviceArchitecture)以及在此基础上专门用于高性能计算的Tesla产品线已经成为了HPC领域中越来越不可忽视的力量,在2010年NVIDIA将推出新一代的基于Fermi架构的Tesla产品,而我们的话题也从GPU对HPC的影响开始展开。

  HPC越来越需要GPU计算的介入——混合计算大趋势不可逆转

  Sumit Gupata表示,人类的文明进步已经让人类对计算的需求越来越深入,很多科学领域的研究已经越来越微观化,比如生物学、流体力学、空气动力学,并且在数据展现时也越来越强调可视化处理,比如断层分析、气象绘图、石油勘探中的地震数据解释等等,而且人们对于计算的速度也要求越来越高——能实时的模拟现实中的演变是人们不变的最高追求,但以现有的阶段来看,离这个梦想还有很长的路要走,这就需要有一个强有力的计算工具介入,以加速运算能力的提高。



我们的生活越来越离不开计算,很多基础的、深层次的研究在驱动着我们人类文明的继续进步,但这种研究则需要强大的计算能力的支撑

在微观世界模拟方面,主要就是对数量重多的模拟对象进行演变计算,比如在设计汽车时,想知道汽车的外形所带来的空气阻力,就要对所涉及到的空气分子的流动状态根据相应的物理学算法进行分析然后再予以汇总,而空气中的分子数量之庞大是可想而知的,如果每一个空气分子(它是空气流动的基本单位)都是一个模拟对象的话,这样的计算数据量也将极为巨大。显然它需要一个极为庞大的并行处理架构以应付数量如此之多的计算对象,这也就是为什么HPC更多的是强调超并行计算能力与效率的原因。

另一方面,这类的计算对象所需要的更多的是浮点计算能力,因为要精确的计算出各微观对象的运动状态,整数计算是不可能完成的,例如计算100.0÷3,整数计算的结果是33,而浮点计算的结果则是33.33333333,你说哪个更精确呢?再比如圆周率,你就无法用一个整数去表达,而它在很多科学计算中可是一个太常用的参数了。反过来如果你愿意,一个整数则可以用浮点数来表达(比如整数5可表达为浮点数5.00)。所以,高效率的、高准确性的科学计算是与强大的浮点计算性能分不开的。尤其是双精度浮点性能,因为在很多场合,单精度浮点运算所产生的累计误差将让HPC失去可用性。



生物科学中还有很多的迷没有解开,而高性能将是解开这类迷团最重要的工具

目前,一个急需计算能力的显著例子就是生物领域的微观研究。在2006年时全球最顶级的HPC计算能力(当年TOP500最高水平是IBM的BlueGene/L系统,理论峰值性能是596TFLPOS,采用了212992个PowerPC 440核心)也只能对核糖体的做勉强的演算,而计算8个月才能模拟核糖体2ns时长的演变,但一个核糖体只有270万个原子组成,如果想研究拥有10亿个原子的细菌则需要10亿亿次的处理能力(1 EFLOPS)。而当前全球的TOP500的顶级水平也就是千万亿次的水平,可见差距还是十分明显的。这其中最主要的原因就是处理器的核心数量限制了基本的并行处理能力,虽然可以通过群集的手段,将多个计算节点联合起来,但这样做之后的成本与能耗也将是十分惊人的,所以HPC也一直给人一种“高贵”的感觉。即成本“高”,使用“贵”。



2009年6月份的TOP500的计算能力排列曲线,最后的一名所需要的成本也高达100万美元



如果采用GPU计算设备,那么在投资不变时,计算能力将是原来的4倍,达到68TFLPOS(TOP500的排名也将上升至第57位,若以2009年11月的排名计算则是74位),而在相同的计算能力,投资只也有原来的1/4

Sumit Gupata相信,GPU计算的加入将大大改变这一现状。它在迅速提高计算能力的同时,也大大降低了HPC系统的采购成本。而这一切都源于GPU的先天优势——数量更多的处理核心。



目前主流4核心处理器与NVIDIA即将推出的Fermi GPU的对比,后者有512个CUDA核心,双精度浮点性能超过了前者的10倍

GPU原来就是为了3D图形计算而设计的,而3D图像计算中的基本计算单位就是像素,以当前流行的1920X1080的分辨率来计算,就是207万多个像素,为此GPU设计了数量众多的处理核心,来提高像素的并行处理能力。而从这种计算模式中,我们可以看到与上面所讲到的微观科研计算很相像,所以GPU也具备了天生的高并行科学计算的能力,尤其是那些像像素这样的,彼此相对独立的微观体计算的领域,每个微观体的计算基本是自成一体的(除非有相互作用时),不需要那种串行计算必须等待上一个计算结果才能开始下一步运算的模式,也就非常适用于粒子科研计算领域。事实上也是如此,科学计算中的相互作用越少或者这个相互作用越有规律,GPU的并行处理能力也就体现得越充分。



相同的HPC应用下,GPU计算相对于CPU计算的加速比

目前GPGPU已经有不少的HPC应用软件投入了使用,并且都取得了不错的相对于传统CPU计算的加速比,最高达到了149倍(金融模拟)、最低也达到了18倍(视频转换),由此可见GPU计算的威力。

因此,当我问到如何看待未来CPU+GPU混合计算的趋势,它是否将最终替代传统的纯CPU解决方案时,Sumit Gupata坚定的回答到,“肯定的,但凡是HPC领域里的人,都不会否认这一趋势
使用道具 举报 回复
发表于 2010-4-8 20:55:50
这个,应当发到高性能计算版块吧
使用道具 举报 回复 支持 反对
发表于 2010-4-18 00:24:47
现在这个在科研领域已经开始使用了
使用道具 举报 回复 支持 反对
发表于 2010-7-9 14:59:56
:rose:
使用道具 举报 回复 支持 反对
发表于 2010-9-26 11:54:35
CUDA好强大!
使用道具 举报 回复 支持 反对
发表于 2011-9-29 11:42:14
GPU计算高性能计算机与传统的CPU计算高性能计算机比较,10分之一的价格,20分之一的电力消耗!本文旨在介绍GPU用于分子模拟计算领域的简单基础和发展近况。

一、GPU(Graphic Processing Unit)计算介绍
    GPU计算使用 GPU(图形处理器)来执行通用科学与工程计算。 GPU计算模型在一个异构计算模型中同时使用了 CPU 和 GPU。应用程序的顺序部分在 CPU 上运行,计算密集型部分在 GPU(图形处理器)上运行。


应用程序开发人员将需要修改其应用程序中的计算密集型内核,并将其关联到 GPU(图形处理器)。应用程序的其它部分将仍然依赖于 CPU 进行处理。

GPU计算得到了 NVIDIA(英伟达™)被称作 CUDA(Compute Unified Device Architecture) 架构的 GPU大规模并行架构的支持。CUDA™是一种通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。该架构拥有针对流行编程语言与API、内容丰富的开发者工具集(编译器、分析器、调试器),其中包括C语言、C++、Fortran语言以及OpenCL和DirectCompute等驱动程序API。

与最新的四核CPU相比,Tesla 20系列GPU计算处理器以二十分之一的功耗以及十分之一的成本即可实现同等性能。每一颗Tesla GPU均包含数以百计的并行CUDA核心并且基于革命性NVIDIA(英伟达™)CUDA™并行计算架构。
现在GPU已经发展到了颇为成熟的阶段,可轻松执行实际应用程序并且其运行速度已远远超过了使用多核系统时的速度。 未来计算架构将是并行核心GPU与多核CPU串联运行的混合型系统。


二、Tesla BIO Workbench - 助力新型科学
    NVIDIA(英伟达™)Tesla™ Bio Workbench让生命科学家与计算化学家有机会挑战生化研究的极致结果。利用NVIDIA(英伟达™)Tesla™ Bio Workbench, 生物物理学家和计算科学家们实现了生物化学研究的突破性发展,运行医药研究、DNA排序等复杂的生物科学计算代码,与传统CPU计算系统相比较,运行速度快出10至20倍。

支持GPU计算的分子动力学与量子化学软件
ACE MD (即将问世)
AMBER
BigDFT (即将问世)
GROMACS
GROMOS (即将问世)
HOOMD
LAMMPS
NAMD
TeraChem (QC)
VMD
支持GPU计算的生物信息学软件
CUDA-BLASTP
CUDA-EC
CUDA-MEME
CUDASW++ (Smith-Waterman)
GPU-HMMER
MUMmerGPU


AMBER:凭借支持CUDA的GPU,加速AMBER中的显溶剂(explicit solvent)和隐溶剂(implicit solvent)模拟。辅以基于CUDA架构的Tesla GPU计算解决方案,系统即可获得10倍于四核CPU的计算速度。

研究性代码测试和下载见:http://ambermd.org/gpus/

LAMMPS:GPU-LAMMPS编码支持MPI,并且适用于大型GPU集群扩展。大部分的代码仍然基于CPU,坐标每一时间步长都传给GPU,计算作用力后再传回CPU。在运行 GPU-LAMMPS 时,两块 Tesla GPU性能超过24块 CPU。

代码下载见:http://code.google.com/p/gpulammps/

NAMD:NAMD由于开发CUDA架构代码比较早,现已相对比较成熟。实测结果8个GPU的性能能与96个CPU相比,并且性能随GPU数量增加而线性增加。

代码下载见:
http://www.ks.uiuc.edu/Developme ... gi?PackageName=NAMD

GROMACS:目前在Beta版中,GROMACS已经向CUDA平台进行了移植,从而可实现GPU加速功能,这一版本还支持Particle-Mesh-Ewald(PME)、非键合相互作用的任意形式以及隐式溶剂Generalized Born等方式。目前暂不支持MPI。

代码下载见:
https://simtk.org/project/xml/do ... d=161#package_id600

CHARMM:c36a2开始支持GPU库,不过由于charmm代码的特殊性,开发成熟的CUDA版本还需要一段时间,初步测试结果显示,和其它软件一样,有10倍的性能提升。


VMD:VMD中多个关键内核与应用程序目前均能够利用NVIDIA(英伟达™)GPU(图形处理器)的大规模并行CUDA架构。现在CUDA代码已在1.8.7正式版本放出。与单纯在CPU上运行时相比,当使用NVIDIA®(英伟达™)CUDA GPU时,这些应用程序实现了20至100倍的速度提升。



代码下载见:
http://www.ks.uiuc.edu/Developme ... cgi?PackageName=VMD

GAMESS:支持HF和DFT方法,Firefly 7.1.G版改善并提高对CUDA的支持。


HOOMD:基于CUDA构架编写,暂不支持MPI,一颗Tesla GPU所实现的性能可以和32个CPU核心相当。

代码下载见:http://codeblue.umich.edu/hoomd-blue/

更多BIO Workbench的近况见:
http://www.nvidia.cn/object/tesla_bio_workbench_cn.html
四、AMAX是NVIDIA指定中国唯一Tesla BIO workbench 测试平台供应商
Tesla BIO workbench 是提供了针对CUDA优化过的一系列生化行业常用软件,如AMBER,GROMACS,NAMD等。AMAX集团是中国地区唯一为客户提供BIO相关软件免费远程测试体验服务,以及GPU计算硬件平台的供应商。(相关信息请参考NVIDIA官网:http://www.nvidia.cn/object/gpu-test-drive-cn.html
AMAX公司是NVIDIA的推荐供应商,是NVIDIA在中国唯一的Work Station和Server双推荐供应商,我们公司的销售工程师,技术工程师以及售后工程师都是经过NVIDIA培训和认证的,根据客户的具体需求,专业为客户定制化生产GPU计算工作站,服务器,集群等解决方案。

GPU计算是这2年兴起的技术,2009年我们为同济大学海洋学院搭建了全国第一套GPU计算集群,我们在中央政府采购网的PSC-2N是销量最好的GPU计算工作站(相关信息请参考中央政府采购网:http://www.zycg.gov.cn/td_xxlcpxygh/show_by_category/1447),我们的Xn-4101G是全国唯一一款单节点最多支持8块GPU计算卡的高性能计算机。
  有需要测试或者咨询GPU高性能计算机的朋友,也可以直接与我取得联系,AMAX集团 东莞超博电子科技有限公司  
使用道具 举报 回复 支持 反对
发表于 2011-9-29 16:51:13
笑而不语……
使用道具 举报 回复 支持 反对
发表于 2011-12-23 17:21:42
正在学习cuda,谢谢
使用道具 举报 回复 支持 反对
发表于 2011-12-26 13:14:53
确实如此 如果能把这些个硬件 发挥到极致 才是我等要追求的 。
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册

zzczczxczxczx