课程介绍
【2023新课】Android开发零基础到就业-小米商城架构师亲授
华方基业-企业架构设计
软件需求分析与需求管理实践
数据治理实战2023
NLP实战-Huggingface神器
鸿蒙HarmonyOS分布式项目实战:分布式点餐App
CMake构建大型c++项目
MPLS流量工程
HoloLens 2 混合现实开发之路|MR眼镜|MRTK+Unity
ChatGPT实战:项目从需求分析到Bootstrap前端实现
ChatGPT实战:从0到1创建思维导图
纯汇编语言-手写操作系统2023
GoldenGate/OGG数据库容灾迁移
NB-IOT实战-基于stm32和Freertos
项目管理实战-如何推动项目
.Net企业级系统架构设计实战
基于ChatGPT+Electron开发桌面应用实战
AWS云计算实战
Axure RP9 产品原型设计实战
Solidity智能合约从入门到精通
深入理解 GPU 计算 CUDA
售前解决方案工程师
Playwright+Python自动化测试
政府采购投标文件实战-项目编制
政府采购招标文件实战-拆解
PostgreSQL高薪实战
创业能力提升:宏观趋势下的CTO能力地图
技术管理成长计划
GitHub Actions入门到进阶
istio进阶训练营
Web安全高薪训练营
Web安全渗透测试实战
Java框架和整代码审计实战
C++/Qt实战欢乐斗地主
Excel VBA 实战
一起玩转ChatGPT
唐宇迪AIGC与大模型实战
卢菁ChatGLM大模型实战训练营
爪哇Web前端大厂工程师训练营进阶架构师直达阿里P7 2023 夏季大厂版
黑马亚秒级实时计算项目进阶实战
老男孩微服务&云原生运维架构师
吴师兄学算法大厂算法训练营
黄帝内经,养生宝典
产品老高
华为&传智HarmonyOS鸿蒙应用开发线上训练营
首页
深入理解 GPU 计算 CUDA
### 第1章CUDA 编程基本概念(2小时6分钟12节) 1-1课程介绍[04:57] 1-2什么是 GPU 计算[22:31] 1-3GPU 硬件架构综述[27:15] 1-4处理器空间[05:34] 1-5内存空间[08:33] 1-6GPU 计算能力[08:24] 1-7如何编写 CUDA 程序[06:20] 1-8如何编译 CUDA 程序[10:47] 1-9函数修饰符[08:17] 1-10内存修饰符[14:24] 1-11内建/内置向量[02:33] 1-12内建变量[07:19] ### 第2章CUDA 程序基本要素(2小时4分钟17节) 2-1CUDA 编程模型[24:56] 2-2CUDA 程序执行与硬件映射[08:47] 2-3程序解析: 向量加法[15:08] 2-4主机函数: __host__[01:40] 2-5设备函数: __device__[02:51] 2-6核函数: __global__[05:38] 2-7网格[05:25] 2-8线程块[09:46] 2-9网格维度: gridDim[02:40] 2-10线程块维度: blockDim[03:20] 2-11线程块 ID: blockIdx[08:56] 2-12线程 ID: threadIdx[09:24] 2-13线程调度[06:55] 2-14线程块与线程映射[06:57] 2-15例子: 向量加法[04:17] 2-16如何启动核函数[02:52] 2-17线程执行顺序[04:43] ### 第3章内存类型(19分钟3节) 3-1GPU 内存介绍[12:49] 3-2CPU 内存介绍[05:08] 3-3页锁定内存[01:45] ### 第4章内存管理(2小时3分钟17节) 4-1GPU 内存如何管理[12:26] 4-2CPU 内存管理[15:32] 4-3页锁定内存管理[02:26] 4-4全局内存管理[11:49] 4-5例子: 全局内存[05:28] 4-6什么是共享内存[08:49] 4-7共享内存冲突[02:51] 4-8共享内存 Bank[01:36] 4-9共享内存 bank 冲突: 计算能力 1.x[03:03] 4-10共享内存 bank 冲突: 计算能力 2.0 及以上[10:32] 4-11共享内存应用: 加法规约[10:40] 4-12内存拷贝: cudaMemcpy[07:26] 4-13例子: 内存管理[05:39] 4-14内存空间类型查询 (Address Space)[02:41] 4-15向量操作[04:46] 4-16稀疏矩阵存储格式[10:29] 4-17稀疏矩阵向量乘法 (SpMV)[07:22] ### 第5章CUDA 程序同步(33分钟5节) 5-1什么是同步[03:25] 5-2核函数同步[03:42] 5-3线程块同步[05:16] 5-4Warp 同步[10:02] 5-5Warp 同步概述[10:45] ### 第6章规约算法(1小时34分钟10节) 6-1什么是规约算法- 如何并行[09:54] 6-2并行规约算法-1: 二叉树算法[09:28] 6-3并行规约算法-2: 改进 warp divergen[08:02] 6-4并行规约算法-3: 改进共享内存访问 消除冲突[06:47] 6-5并行规约算法-4: 改进全局内存访问[05:08] 6-6并行规约算法-5: warp 内循环展开[08:03] 6-7并行规约算法-6: 完全循环展开[08:00] 6-8并行规约算法:成功优化的关键[11:03] 6-9完整并行规约算法: 三阶段算法与完整代码[11:06] 6-10并行规约算法应用: 内积[16:41] ### 第7章Warp 内并行操作(1小时7分钟11节) 7-1线程调度概述[06:31] 7-2Warp 投票函数[04:32] 7-3Warp 匹配函数[04:16] 7-4Warp 规约操作[03:52] 7-5Warp 内通信: 交换数据[10:49] 7-6例子: __activemask[05:10] 7-7例子: __ballot_sync[04:53] 7-8例子: __shfl_down_sync[08:48] 7-9例子: warp 内广播[02:08] 7-10例子: warp 内 scan 操作 (扫描)[07:16] 7-11例子: warp 内规约操作[09:02] ### 第8章Cooperative Groups (合作组)(1小时42分钟20节) 8-1Cooperative Groups (合作组)[08:33] 8-2隐式组类型 (内建组类型, 内置组类型)[07:01] 8-3例子: 向量加法[02:32] 8-4显式棋盘组划分 (Tiled Partition)[11:19] 8-5合并组 (Coalesced Groups)[08:43] 8-6例子: 合并组[05:23] 8-7例子: warp 内广播[04:45] 8-8例子: warp 内广播 2[03:12] 8-9组划分 (tiled_partition)[04:03] 8-10组划分: labeled_partition[04:06] 8-11例子: 合并组标记划分[06:16] 8-12组划分: binary_partition[01:34] 8-13例子: 合并组二分划分[04:00] 8-14组同步[03:27] 8-15网格组同步[05:18] 8-16规约操作 (Reduce)[08:38] 8-17例子: 规约算法 1[02:19] 8-18例子: 规约算法 2[01:47] 8-19例子: 规约算法 3[01:55] 8-20例子: 规约算法 4[07:17] ### 第9章CUDA 程序优化(46分钟4节) 9-1CUDA 程序概述[10:08] 9-2CUDA 程序优化: 探索并行化[15:22] 9-3CUDA 程序优化: GPU 内存优化策略[13:51] 9-4CUDA 程序优化: 指令优化[07:17]
xiedaima
2023年5月17日 17:51
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
关于 MrDoc
雨雀文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果雨雀文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护雨雀文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
客服qq:3577690491
资源互换 高价回收
自助下单
超划算套餐
SVIP会员
预售特惠
小二牛下载器
Markdown文件
分享
链接
类型
密码
更新密码