Optimize data transfer between OpenCL devices. #5

marty1885 · 2019-05-20T02:59:48Z

Currently copying data between 2 OpenCL backends are done by

Allocating a temporary buffer
Copy data from GPU1 to buffer
Copy data from buffer to GPU2
release the buffer

Which is slow. There are other more optimized routes. But the mechanism to trigger it is yet to determined.

Sol 1: Using clEnqueueMapBuffer

Map the memory from GPU1 to CPU (a pre-pinned DMA transfer)
Copy data from buffer to GPU2
unmap buffer

Sol 2: With OpenCL 2.0's Shared Virtual Memory. Host memory is not touched, super fast.

Allocate Tensors as SVM buffers
Ask GPU2 to copy data from GPU1

They should make multi-gpu faster.

marty1885 · 2019-06-02T14:28:47Z

Sol 3:

Make a copy of tensor on GPU1 (clCreateBuffer && clEnqueueCopyBuffer)
Migrate the buffer (clEnqueueMigrateMemObject) from GPU1 to GPU2

But it is still not optimal that we need to copy a buffer on GPU1

marty1885 · 2019-07-11T17:53:00Z

Apparently Nvidia does have some OpenCL 2.0 support.
https://streamhpc.com/blog/2017-02-22/nvidia-enables-opencl-2-0-beta-support/

Seems I can build OpenCL 2.0 code before grabbing myself a Navi card.

marty1885 added enhancement New feature or request OpenCL About the OpenCL backend optimization make stuff faster! and removed enhancement New feature or request labels May 20, 2019

marty1885 mentioned this issue Jun 3, 2019

Better backend data transfer #15

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize data transfer between OpenCL devices. #5

Optimize data transfer between OpenCL devices. #5

marty1885 commented May 20, 2019

marty1885 commented Jun 2, 2019

marty1885 commented Jul 11, 2019

Optimize data transfer between OpenCL devices. #5

Optimize data transfer between OpenCL devices. #5

Comments

marty1885 commented May 20, 2019

marty1885 commented Jun 2, 2019

marty1885 commented Jul 11, 2019