找回密码
 立即注册
发表于 2021-6-23 18:08:23
25821
主要功能和增强功能
cuDNN runtime fusion引擎现在支持使用以下输入张量生成张量核心内核:
Bfloat16和FP32的计算精度(要求计算能力8.0以上)。对于Bfloat16支持,卷积输入/输出通道要求是8的倍数。
INT8和INT32的计算精度(要求计算能力7.5或更高)数据类型和NHWC布局。对于INT8支持,卷积输入/输出通道要求是16的倍数,并且与NCHW矢量核不同,不需要滤波器和偏差重排序。
在融合逐点/归约运算中,FP32是支持的计算精度。
cuDNN运行时融合引擎为nvidia volta(计算能力7.0)和nvidia xavier(计算能力7.2)添加了实验性的Tensor核心内核生成支持。支持的输入张量数据类型为FP16,计算精度为FP32,支持的布局为NHWC。然而,还原融合还没有得到支持,我们正在进一步推广支持。

后端API现在支持通过匹配操作图进行每个通道缩放的融合卷积缩放偏差激活。
cudnnPoolingBackward()允许x和y数据指针(以及相关的张量描述符句柄)对于avg池都为NULL。这可以节省内存占用和带宽。
固定问题
在某些情况下,cuDNN 8.1 cudnngetconvolutionbackardfilteralgorithm_v7()的NVIDIA Ampere用户可能会收到一个不足以使用cudnnconvolutionbackardfilter()计算的工作区。此版本已修复此问题。
许多卷积模型在RTX3090上的性能低于2080TI。这包括性能差异高达2倍的ResNet-50和性能差异高达10倍的ResNeXt。这些性能问题中的许多都已在此版本中修复。
与cuDNN版本8.0.5相比,NVIDIA安培体系结构上的SSD ResNet-50模型的性能下降了8%。此版本已修复此问题。
cuDNN的L4T用户在使用cuDNN\卷积\FWD\algou IMPLICIT\PRECOMP\GEMM执行卷积时,在某些情况下可以观察到cuDNN\STATUS\ EXECUTION\ FAILED errors。此版本已修复此问题。
在cudnn8.2.0中,如果用户运行启用了dropout的双向RNN网络,用户可能会看到不确定的输出。此问题已在8.2.1中修复。
在NVIDIA图灵体系结构的PyTorch ResNet-50v1.5模型上,存在一个已知的18%的性能回归。此版本已修复此问题。
算法选择启发式中cudnn8回归中某些层上的已知回归已经固定在Volta和Pascal平台上。
在旧版本的cuDNN中,当调用API cudnsetdropoutdescriptor()时,由该API启动的内核通常需要大量GPU内存用于堆栈。当内核完成并且堆栈大小以线程不安全的方式更改回来时,内存被释放。从8.2.1版本开始,不再需要额外的内存,因此不再存在线程安全问题。
在cudnn8.1.1中,与cudnn8.1.0相比,在epilog中与ReLU融合的卷积的运行时融合引擎的性能存在已知的回归。这是由于普遍支持参数化ReLU。自8.2.0版本以来,此问题已得到修复。
从cuDNN 8.0.4到8.2.0,V100 GPU的某些SKU在以cuDNN\ LSTM和cuDNN\RNN\ ALGO\PERSIST\STATIC算法的单元格模式运行RNN时,在随后对cudDeviceSynchronize()的调用中可能会遇到cuDNN\STATUS\ EXECUTION\FAILED STATUS或未指定的启动失败。此版本已修复此问题。
在cudnn8.1.0和8.2.0之间,如果用户在CUDA compute sanitizer下运行cudnnRNN*()API,并使用cuDNN\RNN\ALGO\PERSIST\STATIC\SMALL\H算法,用户可能会看到CUDA compute sanitizer报告的错误,如Invalid\global\read。此版本已修复此问题。
与cudnn8.0.0预览版相比,在Jetson Nano和TX2上运行时,vgg16的性能下降了12%。此版本已修复此问题。
与cudnn7.6相比,在Jetson-Nano上运行时,在Darknet上有一个显著的性能回归。此版本已修复此问题。


使用道具 举报 回复
发表于 2021-6-26 11:01:27
搞黄色的都没人管吗? 这论坛完了
使用道具 举报 回复 支持 反对
发新帖
您需要登录后才可以回帖 登录 | 立即注册