|
发表于 2024-1-28 01:14:19
|
显示全部楼层
先说结论:用这个feather 必须上fp64 双精度单元. 单精度的游戏卡,直接排除了.
其次提供一个数据参考点: 单位服务器配置: 9654 双路+ A100 80GB SXM*4
后仿网表没到10G 以上 不需要用这个, 反而慢.
实测的电路 1.256路的TI ADC; 512路seders. 都用4路GPU的情况下, sprctreGPU比华大慢5%. 和64核纯cpu对比, 快了12倍左右. sprctre 跑一周的, 基本上GPU加速的都能在大半天结束战斗.
对并行电路极度友好,试到最快的能加速15倍,最慢的有八倍。目前非常挑电路的构架。比如说seades 512路, 这种都能加速15倍. 对串行的加速最慢有到1.4倍.
最后, 瓶颈2从来不在于卡, 而是电费. 跑的时候, 功率全部拉满,sensor一下 单卡功耗都是370W 左右. 多次撞功率墙降频. 还得是服务级水冷才能压得住. 目前对并行电路优化已经不错了. |
|