OpenCL

OpenCL C和C++ for OpenCL
編程範型	指令式（程序式）、結構化、（僅C++）物件導向、泛型
語言家族	C（英語：List of C-family programming languages）
目前版本	3.0.17（2024年10月24日；穩定版本）;
型態系統	靜態、弱型別、明示（英語：Manifest typing）、名義
實作語言	特定於實現
副檔名	.cl .clcpp
網站	www.khronos.org/opencl
主要實作產品
	AMD、Gallium Compute、IBM、Intel NEO、Intel SDK、Texas Instruments、Nvidia、PoCL、ARM
啟發語言
	C99、CUDA、C++14、C++17

OpenCL API
原作者	蘋果公司
開發者	科納斯組織
首次發佈	2009年8月28日，15年前
目前版本	3.0.17（2024年10月24日）
程式語言	C，具有C++繫結
作業系統	Android（廠商依賴）、FreeBSD、Linux、macOS（通過PoCL）、Windows
平台	ARMv7、ARMv8、Cell、IA-32、 Power、x86-64
類型	異構計算API
許可協定	OpenCL規範許可證
網站	www.khronos.org/opencl/

OpenCL（Open Computing Language，開放計算語言）是一個為異構平台編寫程式的框架，此異構平台可由CPU、GPU、DSP、FPGA或其他類型的處理器與硬件加速器所組成。OpenCL由一門用於編寫kernels（在OpenCL裝置上執行的函數）的語言（基於C99）和一組用於定義並控制平台的API組成。OpenCL提供了基於任務分割和數據分割的平行計算機制。

OpenCL類似於另外兩個開放的工業標準OpenGL和OpenAL，這兩個標準分別用於三維圖形和電腦音頻方面。OpenCL擴充了GPU圖形生成之外的能力。OpenCL由非盈利性技術組織Khronos Group掌管。

歷史

OpenCL最初由蘋果公司開發，擁有其商標權，並在與AMD，IBM，Intel和NVIDIA技術團隊的合作之下初步完善。隨後，蘋果將這一草案提交至Khronos Group。2008年6月16日，Khronos的通用計算工作小組成立^[5]。5個月後的2008年11月18日，該工作群組完成了OpenCL 1.0規範的技術細節^[6]。該技術規範在由Khronos成員進行審查之後，於2008年12月8日公開發表^[7]。

2010年6月14日，OpenCL 1.1發佈^[8]。2011年11月15日，OpenCL 1.2發佈^[9]。2013年11月18日，OpenCL 2.0發佈^[10]。2015年11月16日，OpenCL 2.1發佈^[11]。2017年5月16日，OpenCL 2.2發佈^[12]。

路線圖

在2017年5月發行OpenCL 2.2之時，Khronos Group宣佈OpenCL將儘可能的匯合於Vulkan，以確使OpenCL軟件在這兩種API上靈活部署^[13]。這已經由Adobe的Premiere Rush展示出來，它使用clspv開源編譯器^[14]，編譯了大量OpenCL C內核代碼，使其在部署於Android的Vulkan執行時系統上執行^[15]。

OpenCL擁有獨立於Vulkan的前瞻性路線圖^[16]，即曾意圖在2020年發行的「OpenCL Next」^[17]，它可以整合於擴充諸如Vulkan/OpenCL互操作、Scratch-Pad主記憶體管理、擴充子組、SPIR-V 1.4攝入和SPIR-V擴充除錯資訊；OpenCL還在考慮類似Vulkan的裝載器和分層以及「靈活組態」，以便在多種加速類型上靈活部署。

OpenCL 3.0

在2020年8月30日，發行了最終的OpenCL 3.0規範^[18]。OpenCL 1.2功能已經成為強制性基準，而所有OpenCL 2.x和OpenCL 3.0特徵變為可選項^[19]。這個規範保留了「OpenCL C」語言^[20]，並廢棄了版本2.1介入的「OpenCL C++」內核語言^[21]，將其替代為「C++ for OpenCL」語言^[22]，它基於了Clang/LLVM編譯器，實現了C++17的子集和SPIR-V（英語：Standard Portable Intermediate Representation）中間代碼。C++ for OpenCL版本1.0的官方文件在2020年12月發表^[23]，它後向相容於OpenCL C 2.0。

在IWOCL（英語：IWOCL） 21上發佈的OpenCL 3.0.7，提出了C++ for OpenCL的新版本和一些Khronos openCL擴充^[24]。在2021年12月，發行了C++ for OpenCL版本2021^[25]，它完全相容於OpenCL 3.0標準。NVIDIA密切協同運作於Khronos OpenCL工作群組，通過訊號量和主記憶體共用改進了Vulkan互操作^[26]。小更新3.0.14版本，具有缺陷修正和針對多裝置的一個新擴充^[27]。

範例

快速傅立葉變換

一個快速傅立葉變換的式子： ^[28]

  // create a compute context with GPU device
  context = clCreateContextFromType(NULL, CL_DEVICE_TYPE_GPU, NULL, NULL, NULL);

  // create a command queue
  queue = clCreateCommandQueue(context, NULL, 0, NULL);

  // allocate the buffer memory objects
  memobjs[0] = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float)*2*num_entries, srcA, NULL);
  memobjs[1] = clCreateBuffer(context, CL_MEM_READ_WRITE, sizeof(float)*2*num_entries, NULL, NULL);

  // create the compute program
  program = clCreateProgramWithSource(context, 1, &fft1D_1024_kernel_src, NULL, NULL);

  // build the compute program executable
  clBuildProgram(program, 0, NULL, NULL, NULL, NULL);

  // create the compute kernel
  kernel = clCreateKernel(program, "fft1D_1024", NULL);

  // set the args values
  clSetKernelArg(kernel, 0, sizeof(cl_mem),(void *)&memobjs[0]);
  clSetKernelArg(kernel, 1, sizeof(cl_mem),(void *)&memobjs[1]);
  clSetKernelArg(kernel, 2, sizeof(float)*(local_work_size[0]+1)*16, NULL);
  clSetKernelArg(kernel, 3, sizeof(float)*(local_work_size[0]+1)*16, NULL);

  // create N-D range object with work-item dimensions and execute kernel
  global_work_size[0] = num_entries;
  local_work_size[0] = 64;
  clEnqueueNDRangeKernel(queue, kernel, 1, NULL, global_work_size, local_work_size, 0, NULL, NULL);

真正的運算：（基於Fitting FFT onto the G80 Architecture）^[29]

  // This kernel computes FFT of length 1024. The 1024 length FFT is decomposed into
  // calls to a radix 16 function, another radix 16 function and then a radix 4 function

  __kernel void fft1D_1024(__global float2 *in, __global float2 *out,
                          __local float *sMemx, __local float *sMemy){
    int tid = get_local_id(0);
    int blockIdx = get_group_id(0) * 1024 + tid;
    float2 data[16];

    // starting index of data to/from global memory
    in = in + blockIdx;  out = out + blockIdx;

    globalLoads(data, in, 64); // coalesced global reads
    fftRadix16Pass(data);      // in-place radix-16 pass
    twiddleFactorMul(data, tid, 1024, 0);

    // local shuffle using local memory
    localShuffle(data, sMemx, sMemy, tid, (((tid & 15)* 65) +(tid >> 4)));
    fftRadix16Pass(data);               // in-place radix-16 pass
    twiddleFactorMul(data, tid, 64, 4); // twiddle factor multiplication

    localShuffle(data, sMemx, sMemy, tid, (((tid >> 4)* 64) +(tid & 15)));

    // four radix-4 function calls
    fftRadix4Pass(data);      // radix-4 function number 1
    fftRadix4Pass(data + 4);  // radix-4 function number 2
    fftRadix4Pass(data + 8);  // radix-4 function number 3
    fftRadix4Pass(data + 12); // radix-4 function number 4

    // coalesced global writes
    globalStores(data, out, 64);
  }

Apple的網站上可以發現傅立葉變換的例子^[30]

平行合併排序法

使用 Python 3.x 搭配 PyOpenCL 與 NumPy

import io
import random
import numpy as np
import pyopencl as cl

def dump_step(data, chunk_size):
    """顯示排序過程"""
    msg = io.StringIO('')
    div = io.StringIO('')
    for idx, item in enumerate(data):
        if idx % chunk_size == 0:
            if idx > 0:
                msg.write(' ||')
                div.write('   ')
            div.write(' --')
        else:
            msg.write('   ')
            div.write('------')
        msg.write(' {:2d}'.format(item))

    out = msg.getvalue()
    if chunk_size == 1: print(' ' + '-' * (len(out) - 1))
    print(out)
    print(div.getvalue())
    msg.close()
    div.close()

def cl_merge_sort_sbs(data_in):
    """平行合併排序"""
    # OpenCL kernel 函數程式碼
    CL_CODE = '''
    kernel void merge(int chunk_size, int size, global long* data, global long* buff) {
        // 取得分組編號
        const int gid = get_global_id(0);

        // 根據分組編號計算責任範圍
        const int offset = gid * chunk_size;
        const int real_size = min(offset + chunk_size, size) - offset;
        global long* data_part = data + offset;
        global long* buff_part = buff + offset;

        // 設定合併前的初始狀態
        int r_beg = chunk_size >> 1;
        int b_ptr = 0;
        int l_ptr = 0;
        int r_ptr = r_beg;

        // 進行合併
        while (b_ptr < real_size) {
            if (r_ptr >= real_size) {
                // 若右側沒有資料，取左側資料堆入緩衝區
                buff_part[b_ptr] = data_part[l_ptr++];
            } else if (l_ptr == r_beg) {
                // 若左側沒有資料，取右側資料堆入緩衝區
                buff_part[b_ptr] = data_part[r_ptr++];
            } else {
                // 若兩側都有資料，取較小資料堆入緩衝區
                if (data_part[l_ptr] < data_part[r_ptr]) {
                    buff_part[b_ptr] = data_part[l_ptr++];
                } else {
                    buff_part[b_ptr] = data_part[r_ptr++];
                }
            }
            b_ptr++;
        }
    }
    '''

    # 配置計算資源，編譯 OpenCL 程式
    ctx = cl.Context(dev_type=cl.device_type.GPU)
    prg = cl.Program(ctx, CL_CODE).build()
    queue = cl.CommandQueue(ctx)
    mf = cl.mem_flags

    # 資料轉換成 numpy 形式以利轉換為 OpenCL Buffer
    data_np = np.int64(data_in)
    buff_np = np.empty_like(data_np)

    # 建立緩衝區，並且複製數值到緩衝區
    data = cl.Buffer(ctx, mf.READ_WRITE | mf.COPY_HOST_PTR, hostbuf=data_np)
    buff = cl.Buffer(ctx, mf.READ_WRITE | mf.COPY_HOST_PTR, hostbuf=buff_np)

    # 設定合併前初始狀態
    data_len = np.int32(len(data_np))
    chunk_size = np.int32(1)

    dump_step(data_np, chunk_size)
    while chunk_size < data_len:
        # 更新分組大小，每一回合變兩倍
        chunk_size <<= 1
        # 換算平行作業組數 
        group_size = ((data_len - 1) // chunk_size) + 1
        # 進行分組合併作業
        prg.merge(queue, (group_size,), (1,), chunk_size, data_len, data, buff)
        # 將合併結果作為下一回合的原始資料
        temp = data
        data = buff
        buff = temp
        # 顯示此回合狀態
        cl.enqueue_copy(queue, data_np, data)
        dump_step(data_np, chunk_size)

    queue.finish()
    data.release()
    buff.release()

def main():
    n = random.randint(5, 16)
    data = []
    for i in range(n):
        data.append(random.randint(1, 99))
    cl_merge_sort_sbs(data)

if __name__ == '__main__':
    main()

執行結果：

 --------------------------------------------------------------------------------------
 85 || 41 || 64 || 40 || 90 || 29 || 38 || 41 || 64 || 17 || 20 || 41 || 16 || 65 || 83
 --    --    --    --    --    --    --    --    --    --    --    --    --    --    --
 41    85 || 40    64 || 29    90 || 38    41 || 17    64 || 20    41 || 16    65 || 83
 --------    --------    --------    --------    --------    --------    --------    --
 40    41    64    85 || 29    38    41    90 || 17    20    41    64 || 16    65    83
 --------------------    --------------------    --------------------    --------------
 29    38    40    41    41    64    85    90 || 16    17    20    41    64    65    83
 --------------------------------------------    --------------------------------------
 16    17    20    29    38    40    41    41    41    64    64    65    83    85    90
 --------------------------------------------------------------------------------------

參見

參考文獻

^ ^1.0 ^1.1 The OpenCL Specification.
^ Android Devices With OpenCL support. Google Docs. ArrayFire. [April 28, 2015].
^ FreeBSD Graphics/OpenCL. FreeBSD. [December 23, 2015].
^ Conformant Products. Khronos Group. [May 9, 2015].
^ Khronos Launches Heterogeneous Computing Initiative (新聞稿). Khronos Group. 2008-06-16 [2008-06-18]. （原始內容存檔於2008-06-20）.
^ OpenCL gets touted in Texas. MacWorld. 2008-11-20 [2009-06-12]. （原始內容存檔於2009-02-18）.
^ The Khronos Group Releases OpenCL 1.0 Specification (新聞稿). Khronos Group. 2008-12-08 [2009-06-12]. （原始內容存檔於2010-07-13）.
^ Khronos Drives Momentum of Parallel Computing Standard with Release of OpenCL 1.1 Specification (新聞稿). Khronos Group. 2010-06-14 [2010-10-13]. （原始內容存檔於2010-09-23）.
^ Khronos Releases OpenCL 1.2 Specification. Khronos Group. November 15, 2011 [June 23, 2015].
^ Khronos Finalizes OpenCL 2.0 Specification for Heterogeneous Computing. Khronos Group. November 18, 2013 [February 10, 2014].
^ Khronos Releases OpenCL 2.1 and SPIR-V 1.0 Specifications for Heterogeneous Parallel Programming. Khronos Group. November 16, 2015 [November 16, 2015].
^ Khronos Releases OpenCL 2.2 With SPIR-V 1.2. Khronos Group. May 16, 2017.
^ Breaking: OpenCL Merging Roadmap into Vulkan | PC Perspective. www.pcper.com. [May 17, 2017]. （原始內容存檔於November 1, 2017）.
^ Clspv is a compiler for OpenCL C to Vulkan compute shaders, 2019-08-17 [2024-10-14]
^ Vulkan Update SIGGRAPH 2019 (PDF).
^ SIGGRAPH 2018: OpenCL-Next Taking Shape, Vulkan Continues Evolving – Phoronix. www.phoronix.com.
^ Trevett, Neil. Khronos and OpenCL Overview EVS Workshop May19 (PDF). Khronos Group. May 23, 2019.
^ OpenCL 3.0 Specification Finalized and Initial Khronos Open Source OpenCL SDK Released. September 30, 2020.
^ OpenCL 3.0 Bringing Greater Flexibility, Async DMA Extensions. www.phoronix.com.
^ Munshi, Aaftab; Howes, Lee; Sochaki, Barosz. The OpenCL C Specification Version: 3.0 Document Revision: V3.0.7 (PDF). Khronos OpenCL Working Group. Apr 27, 2020 [Apr 28, 2021]. （原始內容 (PDF)存檔於September 20, 2020）.
^ Sochacki, Bartosz. The OpenCL C++ 1.0 Specification (PDF). Khronos OpenCL Working Group. Jul 19, 2019 [Jul 19, 2019].
^ C++ for OpenCL, OpenCL-Guide. GitHub. [2021-04-18] （英語）.
^ Release of Documentation of C++ for OpenCL kernel language, version 1.0, revision 1 · KhronosGroup/OpenCL-Docs. GitHub. December 2020 [2021-04-18] （英語）.
^ Trevett, Neil. State of the Union: OpenCL Working Group (PDF): 9. 2021.
^ The C++ for OpenCL 1.0 and 2021 Programming Language Documentation. Khronos OpenCL Working Group. Dec 20, 2021 [Dec 2, 2022].
^ Using Semaphore and Memory Sharing Extensions for Vulkan Interop with NVIDIA OpenCL. February 24, 2022.
^ OpenCL 3.0.14 Released with New Extension for Command Buffer Multi-Device.
^ OpenCL (PDF). SIGGRAPH2008. 2008-08-14 [2008-08-14]. （原始內容 (PDF)存檔於2012-03-19）.
^ Fitting FFT onto G80 Architecture (PDF). Vasily Volkov and Brian Kazian, UC Berkeley CS258 project report. May 2008 [2008-11-14]. （原始內容存檔 (PDF)於2012-03-19）.
^ . OpenCL on FFT. Apple. 16 Nov 2009 [2009-12-07]. （原始內容存檔於2009-11-30）.

外部連結

支援OpenCL的產品（頁面存檔備份，存於互聯網檔案館）
開源GPU社區（簡體中文）

[wikidata-0fc9e27d3d751451dd6e36c1f142ab916400bd29-v3-1] 1.0 ^1.1 The OpenCL Specification.

[2] Android Devices With OpenCL support. Google Docs. ArrayFire. [April 28, 2015].

[3] FreeBSD Graphics/OpenCL. FreeBSD. [December 23, 2015].

[conformant-products-4] Conformant Products. Khronos Group. [May 9, 2015].

[5] Khronos Launches Heterogeneous Computing Initiative (新聞稿). Khronos Group. 2008-06-16 [2008-06-18]. （原始內容存檔於2008-06-20）.

[macWorld-6] OpenCL gets touted in Texas. MacWorld. 2008-11-20 [2009-06-12]. （原始內容存檔於2009-02-18）.

[khronosGroup-7] The Khronos Group Releases OpenCL 1.0 Specification (新聞稿). Khronos Group. 2008-12-08 [2009-06-12]. （原始內容存檔於2010-07-13）.

[8] Khronos Drives Momentum of Parallel Computing Standard with Release of OpenCL 1.1 Specification (新聞稿). Khronos Group. 2010-06-14 [2010-10-13]. （原始內容存檔於2010-09-23）.

[9] Khronos Releases OpenCL 1.2 Specification. Khronos Group. November 15, 2011 [June 23, 2015].

[10] Khronos Finalizes OpenCL 2.0 Specification for Heterogeneous Computing. Khronos Group. November 18, 2013 [February 10, 2014].

[11] Khronos Releases OpenCL 2.1 and SPIR-V 1.0 Specifications for Heterogeneous Parallel Programming. Khronos Group. November 16, 2015 [November 16, 2015].

[12] Khronos Releases OpenCL 2.2 With SPIR-V 1.2. Khronos Group. May 16, 2017.

[13] Breaking: OpenCL Merging Roadmap into Vulkan | PC Perspective. www.pcper.com. [May 17, 2017]. （原始內容存檔於November 1, 2017）.

[:4-14] Clspv is a compiler for OpenCL C to Vulkan compute shaders, 2019-08-17 [2024-10-14]

[15] Vulkan Update SIGGRAPH 2019 (PDF).

[16] SIGGRAPH 2018: OpenCL-Next Taking Shape, Vulkan Continues Evolving – Phoronix. www.phoronix.com.

[17] Trevett, Neil. Khronos and OpenCL Overview EVS Workshop May19 (PDF). Khronos Group. May 23, 2019.

[18] OpenCL 3.0 Specification Finalized and Initial Khronos Open Source OpenCL SDK Released. September 30, 2020.

[19] OpenCL 3.0 Bringing Greater Flexibility, Async DMA Extensions. www.phoronix.com.

[20] Munshi, Aaftab; Howes, Lee; Sochaki, Barosz. The OpenCL C Specification Version: 3.0 Document Revision: V3.0.7 (PDF). Khronos OpenCL Working Group. Apr 27, 2020 [Apr 28, 2021]. （原始內容 (PDF)存檔於September 20, 2020）.

[21] Sochacki, Bartosz. The OpenCL C++ 1.0 Specification (PDF). Khronos OpenCL Working Group. Jul 19, 2019 [Jul 19, 2019].

[:0-22] C++ for OpenCL, OpenCL-Guide. GitHub. [2021-04-18] （英語）.

[23] Release of Documentation of C++ for OpenCL kernel language, version 1.0, revision 1 · KhronosGroup/OpenCL-Docs. GitHub. December 2020 [2021-04-18] （英語）.

[24] Trevett, Neil. State of the Union: OpenCL Working Group (PDF): 9. 2021.

[25] The C++ for OpenCL 1.0 and 2021 Programming Language Documentation. Khronos OpenCL Working Group. Dec 20, 2021 [Dec 2, 2022].

[26] Using Semaphore and Memory Sharing Extensions for Vulkan Interop with NVIDIA OpenCL. February 24, 2022.

[27] OpenCL 3.0.14 Released with New Extension for Command Buffer Multi-Device.

[siggraph-28] OpenCL (PDF). SIGGRAPH2008. 2008-08-14 [2008-08-14]. （原始內容 (PDF)存檔於2012-03-19）.

[VolkovKazianFFTG80-29] Fitting FFT onto G80 Architecture (PDF). Vasily Volkov and Brian Kazian, UC Berkeley CS258 project report. May 2008 [2008-11-14]. （原始內容存檔 (PDF)於2012-03-19）.

[AppleOpenCLFFT-30] . OpenCL on FFT. Apple. 16 Nov 2009 [2009-12-07]. （原始內容存檔於2009-11-30）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

閱論編科納斯組織制定標準
活躍	OpenCL SYCL OpenGL OpenGL ES WebGL OpenGL SC EGL（英語：EGL (OpenGL)） OpenVX OpenVG OpenXR SPIR（英語：Standard Portable Intermediate Representation） Vulkan glTF
不活躍	COLLADA（英語：COLLADA） OpenKCam OpenKODE（英語：OpenKODE） OpenMAX OpenML OpenSL ES（英語：OpenSL ES） OpenWF（英語：OpenWF） StreamInput WebCL（英語：WebCL）

閱論編平行計算
概論	並行計算分散式計算平行計算大規模並列處理機雲端運算超級電腦高效能計算多元處理大規模多核心處理器（英語：Manycore processor） GPGPU 電腦網絡 Systolic array（英語：Systolic array）
層級	位元指令線程任務數據主記憶體迴圈（英語：Loop-level parallelism）管線化
多線程	時間（英語：Temporal multithreading）同時多線程（SMT）投機（英語：Speculative multithreading）（SpMT）搶佔式協同運作叢集多線程（CMT）硬件偵測
理論	PRAM模型並列演算法分析（英語：Analysis of parallel algorithms）阿姆達爾定律 Gustafson's law（英語：Gustafson's law） Cost efficiency（英語：Cost efficiency） Karp–Flatt metric（英語：Karp–Flatt metric）減速（英語：Parallel slowdown）加速比
元素	行程線程纖程指令窗口（英語：Instruction window）
協調	多元處理主記憶體一致性（英語：Memory coherence）快取一致性高速緩衝記憶體失效（英語：Cache invalidation）屏障同步應用程式檢查點（英語：Application checkpointing）
編程	串流處理數據流處理（英語：Dataflow programming）模型隱式並列（英語：Implicit parallelism）顯式並列（英語：Explicit parallelism）並行性非阻塞演算法（英語：Non-blocking algorithm）
硬件	費林分類法單指令流單數據流單指令流多數據流單指令多線程（英語：Single instruction, multiple threads）（SIMT）多指令流單數據流多指令流多數據流數據流架構（英語：Dataflow architecture）指令管線化超純量並列向量處理機多處理器對稱非對稱主記憶體共用分散式主記憶體（英語：Distributed memory）分散式共用 UMA NUMA COMA（英語：Cache-only memory architecture）大規模並列處理機電腦叢集網格計算
API	Ateji PX（英語：Ateji PX） Boost.Thread Charm++（英語：Charm%2B%2B） Cilk Coarray Fortran（英語：Coarray Fortran） CUDA Dryad（英語：Dryad (programming)） C++ AMP Global Arrays（英語：Global Arrays） MPI OpenMP OpenCL HMPP開放標準 OpenACC TPL（英語：Parallel Extensions#Task Parallel Library） PLINQ（英語：Parallel Extensions#PLINQ）並列虛擬機器（英語：Parallel Virtual Machine）（PVM） POSIX線程 RaftLib（英語：RaftLib） UPC TBB（英語：Threading Building Blocks）
問題	軟件閉鎖（英語：Software lockout）可縮放性競爭危害死結活結飢餓（英語：Starvation (computer science)）確定性演算法並列變慢（英語：Parallel slowdown）
分類：平行計算