在线咨询
eetop公众号 创芯大讲堂 创芯人才网
切换到宽版

EETOP 创芯网论坛 (原名:电子顶级开发网)

手机号码,快捷登录

手机号码,快捷登录

找回密码

  登录   注册  

快捷导航
搜帖子
楼主: talangerlai

Cadence Spectre X 仿真器启动GPU加速到底需要啥license?

[复制链接]
发表于 2023-8-24 22:47:50 | 显示全部楼层


talangerlai 发表于 2023-8-20 19:00
我这两天刚刚腾出手来试,随便跑了一个前仿,情况跟你看到的类似。目前GPU加速功能还很鸡肋,GPU占用率能 ...


3090测过了,和你上图的4070差不多样子。
 楼主| 发表于 2023-8-27 18:34:19 | 显示全部楼层


eezhao 发表于 2023-8-24 22:46
应该是和GPU的双精度fp64的计算能力有关,上次3060测完后,又找了块3090,还是不行。这样子的话所有消费级 ...


以我粗浅的理解,应该不是非要 fp64 双精度单元不可的问题。的概率还是 Cadence 刚往GPU 加速这块儿去做,目前还只是一个试水的Feature 而已。待成熟了之后,不管是Cadence自己的 docs 也好,或者是官方论坛也好,一定会有人提出这个性能问题,然后Cadence这边儿应该会有推荐的GPU配置,到时是不是非要双精度浮点能力强的GPU便可知晓了。
发表于 2024-1-28 01:14:19 | 显示全部楼层
先说结论:用这个feather 必须上fp64 双精度单元. 单精度的游戏卡,直接排除了.
其次提供一个数据参考点: 单位服务器配置: 9654 双路+ A100 80GB SXM*4
后仿网表没到10G 以上 不需要用这个, 反而慢.
实测的电路 1.256路的TI ADC; 512路seders. 都用4路GPU的情况下, sprctreGPU比华大慢5%. 和64核纯cpu对比, 快了12倍左右. sprctre 跑一周的, 基本上GPU加速的都能在大半天结束战斗.
对并行电路极度友好,试到最快的能加速15倍,最慢的有八倍。目前非常挑电路的构架。比如说seades 512路, 这种都能加速15倍.  对串行的加速最慢有到1.4倍.

最后, 瓶颈2从来不在于卡, 而是电费. 跑的时候, 功率全部拉满,sensor一下 单卡功耗都是370W 左右. 多次撞功率墙降频.   还得是服务级水冷才能压得住. 目前对并行电路优化已经不错了.  
发表于 2024-1-28 23:46:21 | 显示全部楼层
thanks
发表于 2024-3-7 16:36:36 | 显示全部楼层
比较有参考价值
发表于 2024-3-8 14:18:58 | 显示全部楼层
Good info...
Thanks...
发表于 2024-3-8 14:20:05 | 显示全部楼层
感谢分享经验
 楼主| 发表于 2024-5-28 11:36:41 | 显示全部楼层
再更新一下,我们刚上的华大九天的 Empyrean ALPS-GT 8GPU 加速服务器,包含A100 GPU 40GB 显存 x 8 ,对比跑了一下 Spectre X 和 华大自己的 ALPS-GT 的 GPU 加速。差异还是很大的,大致上说一下就是 SPECTRE X 目前在GPU 加速这块儿做得还不行,属于非常初级的阶段。主要问题有两个,第一,Spectre X 现在最多支持单路仿真使用6个GPU,所以如果你自己设施 +gpu=8 是无法执行的。第二,对于具体的电路来说Spectre X 在实际调用GPU运行仿真之前会对电路进行一个评估,然后告诉你它评估的结果你这个电路适合使用几个GPU。比如它评估你这个电路适合使用4个GPU,而如果此时你设定了 +gpu=6 ,仿真直接退出。这个评估的过程的耗时是相当长的,一旦退出之后你修改了 +gpu=4 之后,还需要重新执行一遍。而华大这边儿ALPS-GT 仿真器性格则完全不同,其实华大从V100时代就开始整支持GPU加速的仿真器了,现在已经演进了很久,不像Cadence 那样是2023年后半年才推出的 Spectre X 支持GPU加速的feature. 华大这边儿的GPU加速仿真器即ALPS-GT就可以随便设置单个仿真器所使用的GPU的数量,当然是越多跑的越快,但代价就是同样的一个电路如果你给它8个GPU来跑那么每个GPU的utilization 就不高,可能就是50%左右,整体上8GPU Server的算例利用率就不够高。GPU 拿来跑仿真是独占的,一个进程占用了某块儿GPU,其他的仿真进程就只能等着。我们目前的实践总结还是每个人设定2路GPU仿真,8路GPU总计可以跑4路仿真这样比较合适,所有GPU的utilization 都能达到70%左右,功耗很低(单路GPU不超过150W)。因为GPU仿真基本上只用到GPU 的 FP64 单元,所以即便SXM 接口的A100GPU TDP 被配置到400W,也不用担心,根本跑不到那个功率。那么唯一值得担心的就是钱了,华大的这套GPU服务器卖得可不便宜。当然你可以自己攒一台多GPU服务器,然后软件方面用破解的 Spectre X,但它目前的状况还很原始,远不如华大的这套好用。
 楼主| 发表于 2024-5-28 15:39:07 | 显示全部楼层
上一张图,这就是我们的ALPS-GT 8 路A100 在跑仿真,这张图上反应正在运行的仿真进程有4个,每个占两路GPU,可以看到此时此刻每个GPU的Utilization、显存的占用以及功耗都不高。
ALPS-GT GPU Simulator.png
发表于 2024-5-31 14:13:22 | 显示全部楼层


talangerlai 发表于 2024-5-28 15:39
上一张图,这就是我们的ALPS-GT 8 路A100 在跑仿真,这张图上反应正在运行的仿真进程有4个,每个占两路GPU ...


如果计算只用到GPU 60、70W功耗,其实意思不大了。
相当于都不需要外接供电的低端显卡的功耗。(75W以内)

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐 上一条 /2 下一条


小黑屋| 手机版| 关于我们| 联系我们| 在线咨询| 隐私声明| EETOP 创芯网
( 京ICP备:10050787号 京公网安备:11010502037710 )

GMT+8, 2024-11-22 07:07 , Processed in 0.020372 second(s), 7 queries , Gzip On, Redis On.

eetop公众号 创芯大讲堂 创芯人才网
快速回复 返回顶部 返回列表