用户
 找回密码
 立即注册
发表于 2013-9-12 21:56:18
感谢版主以及yll大神的回复,祝二位工作生活顺利。
使用道具 举报 回复 支持 反对
发表于 2013-9-12 21:58:29
yll 发表于 2013-9-12 21:53
我觉得你的结果略显不正常……你用GTX680需要花0.4s的时间,而我的GT650M甚至都不用这么久;此外你给的资 ...

yll您好:

您说的很正确,我之前也觉得这个时间有些偏长,但是没有详细评估这一点。看到文献中小尺寸矩阵,两个实现的时间相差不多,就没有继续仔细考虑了,这个有失严谨。

GTX680的单精度效能要比M2070强不少,不过同时680的双精度效能比较差。

感谢您积极参与回帖讨论,使得LZ真正的问题得以尽快确定。

使用道具 举报 回复 支持 反对
发表于 2013-9-12 21:58:32
谢谢版主大人以及yll大神的回复,祝二位工作学习顺利。
使用道具 举报 回复 支持 反对
发表于 2013-9-12 22:05:53
chunkyan 发表于 2013-9-12 21:58
谢谢版主大人以及yll大神的回复,祝二位工作学习顺利。

不客气的,欢迎LZ常来论坛~
使用道具 举报 回复 支持 反对
发表于 2013-9-12 22:22:28
chunkyan 发表于 2013-9-12 21:50
谢谢版主提醒,方才按照release编译后测试,确实是使用shared memory优化后的程序远远快于未优化程序。
能 ...

正如版主大人说的,Debug版几乎没有测试意义~~

另外我斗胆地猜测下原因:
印象中从global到shared的copy在debug模式下是极慢无比的(加了一大堆校验指令,此外还会安插array head和array tail以检查你是否搞出类似下标溢出这样的操作~~具体不大记得了,如果版主了解的话还麻烦您补充),而release模式下这些指令会被移除~~所以我猜测导致Debug模式下shared更慢和这个memory copy有莫大联系~~

不过,事实上我也没亲自试过。如果Shi哥有兴趣倒是可以检查下kernel各部分的执行时间,看看这个copy是否花费巨大?
使用道具 举报 回复 支持 反对
发表于 2013-9-13 08:55:38
谢谢jun佛,我会尝试一下的
使用道具 举报 回复 支持 反对
12
发新帖
您需要登录后才可以回帖 登录 | 立即注册