找回密码
 立即注册
发表于 2021-4-17 11:50:18
5470
农历春节就要来了,高校的小伙伴们是不是都已经开启了放飞自我的寒假生活。在依然需要落实疫情防控要求的 2021 年春节,是不是宅在家中有些许无聊呢?
NVIDIA 开发者社区特此给同学们奉上假期学习修炼包,用丰富的人工智能、高性能计算开发知识丰富自己的假期吧!
给同学们准备的学习包一共包含 16 份视频演讲,篇幅所限,在本篇先介绍其中8篇。
CUDA11 新特性介绍
—演讲人—
张静蓉,NVIDIA,GPU 计算专家

分论坛

GPU 开发与工具
主题领域

高性能计算和人工智能
行业领域

超级计算
会议类型

录制演讲
技术水平

初级技术水平


演讲简介
基于安培架构的 NVIDIA A100 GPU 给并行计算带来了很大的性能提升。和安培架构一起发布的 CUDA 11 也提供了很多新的特性。在这个报告中,我们将介绍 CUDA11 的如下新特性:
1. 新的 A100 GPU 介绍:我们会简单介绍安培架构的新硬件特性。

2. 多实例 GPU(Multi-InstanceGPU):MIG 可以将一个 NVIDIA A100 GPU 划分为多个 Qos 确定的 GPU 实例。

3. 编程方面的新特性:
3.1 异步数据传输:A100 为数据从全局内存到共享内存的传输提供了硬件加速。
3.2 细粒度同步:为 block 内线程子集提供新的同步方式
3.3 针对 L2 缓存的 residencycontrol :CUDA 11 新增了对于 L2 缓存的管理 API,可以为不同访问特性的数据提供不同的 L2 缓存机制。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20940


FastSpeech:高效语音合成的算法设计及优化(语音合成)
—演讲人—

谭旭,Microsoft,Senior Researcher

Dabi Ahn,NVIDIA,Senior Deep Learning Engineer

分论坛

深度学习平台及应用
主题领域

会话人工智能
行业领域

消费者互联网公司
会议类型

录制演讲
技术水平

中级技术水平

演讲简介
基于神经网络的端到端文本到语音(TTS)大大提高了合成语音的质量。但是,它们通常使用自回归生成,并且推理速度较慢,合成语音通常不可靠(即,某些单词被跳过或重复)缺乏可控制性(语音速度或韵律控制)。在本次演讲中,我们介绍了 FastSpeech,这是在 NeurIPS 2019 中发布的最先进的 TTS 模型,它利用基于 Transformer 的新型前馈网络为 TTS 并行生成梅尔频谱图。在本演讲的第一部分中,我们首先介绍 FastSpeech 中的技术设计(包括前馈变压器,持续时间 / 音高 / 能量预测,长度扩展,多尺度对抗训练等),以确保快速,强大且可控且在同时高质量的语音合成。在第二部分中,我们通过诸如混合精度,融合操作或批处理之类的优化进一步加速了 FastSpeech 的训练和推理。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20269




GPU 加速 Python 计算
—演讲人

王闪闪,NVIDIA,解决方案架构师

分论坛

加速数据科学
主题领域

加速数据科学
行业领域

其他
会议类型

在线研讨会
技术水平

中级技术水平

演讲简介
我们将展示代码从本地 python 迁移到 Numba,然后再迁移到 CuPy kernel(CUDA C++)的过程。将提供基本的工作流程,最佳实践,经验和代码展示。最后用 NVIDIA Nsight Systems 展示代码细小的优化能够带来实质性的性能提升的优势。整个代码迁移优化过程能够在任何领域中使用。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20816



NVIDIA Jetson 赋能 AI,无处不在
—演讲人—
李铭,NVIDIA,亚太区开发者关系总监

分论坛

自主机器和边缘计算
主题领域

自主机器
行业领域

IT  服务
会议类型

在线研讨会
技术水平

中级技术水平

演讲简介
NVIDIA Jetson 产品系列以高性能和低功耗支持自主机器的软件运行,为各种性能水平和成本考量的应用提供支持,从高中赛车到高精度制造中的自动光学检查(AOI)到自主移动机器人(AMRs)。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20280


人的视觉感知技术:人脸关键点、手部姿态估计、人体深度估计(计算机视觉)
—演讲人—


安山,京东零售技术与数据中台共享技术部,高级算法工程师

分论坛

云计算和消费者互联网
主题领域

算法 / 数值技术
行业领域

消费者互联网公司
会议类型

录制演讲
技术水平

中级技术水平

演讲简介
对人的感知有助于实现机器人对人行为的理解。在此次演讲中,将介绍京东在人的感知方面的 3 项工作。
1. 人脸关键点定位:将介绍京东开发的快速、精确、稳定的试妆系统(FASTry:AFast,Accurateand Stable Cosmetic Try-On System)。
2. 手部姿态估计:手势识别是人机交互中的重要组成部分。其中有 2 个关键挑战:首先是在真实场景中实现稳定精确的手部关键点检测,其次是速度要达到实时。我们提出了一个快速精确的网络框架用于实现手部姿态估计。
3. 人体深度估计:机器人估计人体深度可以用于避免碰撞。我们提出一个新颖的、低复杂度的网络,用来快速精确的实现人体深度估计和分割(PDES-Net:Pedestrian Depth Estimation and Segmentation Network)。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20114


GPU 加速的戴口罩人脸识别(计算机视觉)
—演讲人—


王涛,南京海帆数据科技有限公司,总经理

分论坛

自主机器和边缘计算
主题领域

计算机视觉 / 视频和图像处理
行业领域

IT  服务
会议类型

录制演讲
技术水平

初级技术水平

演讲简介
本次演讲将展现中小型企业如何在 GPU 的帮助下将戴口罩人脸识别算法从模型训练到成熟应用,最终使其凭借高性能和高可用性投入到项目业务中,快速满足市场需求。2020 年的新冠疫情令佩戴口罩等遮挡物的场景下的人脸识别成为 AI 领域应用面临的首要难题。海帆数据科技有限公司利用自身技术积累逐步攻克了戴口罩人脸识别算法训练难、识别难、预处理难的难点,在 Tesla V100 GPU 的帮助下锤炼出了满足市场需求的自研算法。该算法以 docker 易部署、识别精度高、应用场景丰富的特点快速投入市场,在校园安全防疫、企业厂区进出考勤管理、智慧商超客流分析和识别、智慧景区等各个领域迅速开展项目落地和实践。公司在实践过程中更新了多套不同版本不同能力的算法产品满足各类需求,探索出一条中小型 AI 企业由技术创新到模式创新的生存之道。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20122

基于 CPU - GPU 异构平台的第一性原理密度泛函理论高性能计算
—演讲人—

胡伟,中国科学技术大学,教授

分论坛

高性能计算
主题领域

计算化学
行业领域

高等教育 / 研究
会议类型

在线研讨会
技术水平

高级技术水平

演讲简介
基于第一性原理的密度泛函理论计算方法是揭示物质世界本质、调控物质特性的重要工具,已经广泛的应用于凝聚态物理、材料、化学和生物等研究领域。但是,目前大部分第一性原理计算,仅限于小型体系,距离真实实验体系差距较大,其主要原因是理论模拟的计算复杂度会随着材料尺度急剧增加。高性能计算是在现代异构超级计算机上加速第一性原理密度泛函理论计算的有力手段。高性能计算的快速发展也使得基于密度泛函理论的第一性原理材料模拟计算在凝聚态物理、材料科学、化学和生物等研究领域变得越来越重要,实现了理论—模拟—实验三位一体的科研模式,引发了多个科学等领域的革命。本报告描述了基于标准平面波基组的材料模拟计算软件包 PWDFT 通过 CPU-MPI 结合 GPU-CUDA 实现的两级异构并行方法。计算结果表明,这种两级异构并行计算可以使 PWDFT 软件在超级计算机上并行计算扩展到了2000 块 GPU卡,用于研究含有数千原子体系的电子结构性质。同时,模拟体系的大小比国际同等平面波精度的计算模拟软件提高了数百倍。这一结果说明,借助当代最先进的计算方法和世界顶级高性能计算平台,大体系、长时间的高精度第一性原理材料模拟已成为现实。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20984


全新 NVIDIA A100 80GB GPU 加速超大规模 HPC 和AI 应用
—演讲人—

马四腾,NVIDIA,解决方案架构师

分论坛

高性能计算
主题领域

高性能计算和人工智能
行业领域

超级计算
会议类型

录制演讲
技术水平

中级技术水平

演讲简介
11 月 17 日,在 2020 全球超算大会上,NVIDIA 发布 NVIDIA A100 80GB GPU 。全新 A100 采用 HBM2e 技术,可将 A100 40GB GPU 的高带宽内存增加一倍至 80GB,提供每秒超过 2TB 的内存带宽;第三代 NVLink 和 NVSwitch,相较于上一代互联技术,可使 GPU 之间的带宽增加至原来的两倍,将数据密集型工作负载的 GPU 数据传输速度提高至每秒 600gigabytes 。使得数据可以快速传输到全球最快的数据中心 GPU A100 上,让研究人员能够更快速的加速其应用,处理最大规模模型和数据集。同时,高带宽内存容量的增加,也对高性能计算应用提供了极大的助力,使得 GPU 在诸如分子动力学,高能物理,电镜等应用上运行更大的规模,并进一步提升性能。本次分享主要围绕三个方面介绍 NVIDIA A100 80GB GPU :
1. 计算趋势及挑战。
2. NVIDIA A100 80GB GPU 介绍。
3. NVIDIA 端到端平台介绍。通过三部分的介绍,希望大家可以对 NVIDIA A100 80GB GPU 在高性能计算以及 AI 计算有进一步的了解。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20256




- CNS20819 网络计算技术加速 GPU应用
- CNS20857 大规模分布式 GPU图嵌入在腾讯的实践之路
- CNS20315 加速基于 GPU 的 Top-K 计算
- CNS20732 CUDA Graph 在 TensorFlow 中的应用
- CNS20158 Lightseq : GPU 高性能序列推理实
- CNS20621 深度学习在游戏角色动画制作过程中的应用
- CNS20563 超算驱动的新冠药物筛选及临床验证
- CNS20767 HPC 应用性能分析和调优

使用道具 举报 回复
发新帖
您需要登录后才可以回帖 登录 | 立即注册