CUDA¶

December 7, 2018
in Tech, CUDA, Profile
2 min read

Quick Guide to CUDA Profiling

在并行计算领域，很难通过纯理论的分析来确定程序的性能，GPGPU这种基于特定计算架构的计算任务更甚。事实上，很多制约并行算法性能的瓶颈很可能不在算法本身（比如资源调度障碍）。因此，对给定程序进行充分的性能测试与后续分析是相当必要的调优方法。

Nvidia提供了nvprof，nvvp，Nsight三种 cuda 可用的性能分析工具，本文将简述配合使用nvprof与nvvp的 cuda 程序性能分析方法。

November 25, 2018
in Tech, CUDA
5 min read

CUDA 内存管理总结 (一)

AI Generated Abstract

本篇博客总结了 CUDA 内存管理中的寄存器和共享内存的基本概念、优化方式及其在 GPU 编程中的应用。通过对寄存器映射方式、共享内存的存储体架构以及优化策略的详细分析，结合归并排序的示例代码，展示了如何利用共享内存和寄存器提升 GPU 程序性能。此外，文章还探讨了 atomicMin 函数、并行归约以及混合算法在共享内存优化中的实际应用，为 CUDA 编程提供了实用的优化思路。