 C++高性能并行编程与优化 -  课件 - 08 CUDA 开启的 GPU 编程类型的正弦函数。可 不要偷懒少打一个 f 哦,否则影响性能。 • 完成同步之后,和 CPU 算出来的比较差值, 看看 GPU 算的是否准确无误,从右边的输出 可以看到基本是一致的。 测试一下时间 • 使用第六节课中的 ticktock.h 测试一下 CPU 和 GPU 的用时。 • 注意,这里一定要把 TOCK 放到同步之 后。原因之前说过,因为对 GPU 核函数 的调用是异步的,只有 c 使用板块局部数组(共享内存)来加速数组求和 这就是胡渊鸣所说的 BLS ( block-local storage ) 进一步,当数组非常大,缩减后的数组可以继续递归地用 GPU 求和 • 这是第六课说过的方法。递归地缩并,时间复杂度是 O(logn) 。 • 同样是缩并到一定小的程度开始就切断 (cutoff) ,开始用 CPU 串行求和。 https://developer.download0 码力 | 142 页 | 13.52 MB | 1 年前3 C++高性能并行编程与优化 -  课件 - 08 CUDA 开启的 GPU 编程类型的正弦函数。可 不要偷懒少打一个 f 哦,否则影响性能。 • 完成同步之后,和 CPU 算出来的比较差值, 看看 GPU 算的是否准确无误,从右边的输出 可以看到基本是一致的。 测试一下时间 • 使用第六节课中的 ticktock.h 测试一下 CPU 和 GPU 的用时。 • 注意,这里一定要把 TOCK 放到同步之 后。原因之前说过,因为对 GPU 核函数 的调用是异步的,只有 c 使用板块局部数组(共享内存)来加速数组求和 这就是胡渊鸣所说的 BLS ( block-local storage ) 进一步,当数组非常大,缩减后的数组可以继续递归地用 GPU 求和 • 这是第六课说过的方法。递归地缩并,时间复杂度是 O(logn) 。 • 同样是缩并到一定小的程度开始就切断 (cutoff) ,开始用 CPU 串行求和。 https://developer.download0 码力 | 142 页 | 13.52 MB | 1 年前3
 C++高性能并行编程与优化 -  课件 - 17 由浅入深学习 map 容器->second 才能得到 V ,而 [] 和 at 可以直接返回 V 。 • ( K :这下俺只有苦劳辣 ! ) • 那么他们两个又有什么区别呢?很多新手都分不清他俩,可能只认识 [] 。 第六章:实战与应用 我负责监督你鞋习 ! 我负责监督你鞋习 ! 经典案例:遍历的同时修改 经典案例:一边遍历,一边删除 inorder traversal 只有好好鞋洗的童鞋 才有资格获得哦0 码力 | 90 页 | 8.76 MB | 1 年前3 C++高性能并行编程与优化 -  课件 - 17 由浅入深学习 map 容器->second 才能得到 V ,而 [] 和 at 可以直接返回 V 。 • ( K :这下俺只有苦劳辣 ! ) • 那么他们两个又有什么区别呢?很多新手都分不清他俩,可能只认识 [] 。 第六章:实战与应用 我负责监督你鞋习 ! 我负责监督你鞋习 ! 经典案例:遍历的同时修改 经典案例:一边遍历,一边删除 inorder traversal 只有好好鞋洗的童鞋 才有资格获得哦0 码力 | 90 页 | 8.76 MB | 1 年前3
共 2 条
- 1













