gpu 发表于 2013-11-14 22:31
是这样子的啊。那我算法里面的64BIT整形数据岂不是效率很低?
看来我理解错误了。原以为64BIT是硬件支持 ...
你的理解显然是不正确的,
某操作是否有直接对应的指令,和该操作的吞吐率完全无关的。
就拿你的int64_t的加法来说吧,这在硬件上被映射为2条32-bit的IADD指令,
最终的吞吐率是80条/cycle/smx的。(32位整数加法的一半)。
而很多直接被支持的操作,例如SFU的float的__sinf操作,却可能只有32条/cycle/smx。
因此您可以看到,是否被直接支持,和实际得到的吞吐率无关的。
请您知晓这点。
感谢您的深夜来访。 |