分叉会合模型

在并行计算中，分叉会合模型是设置和执行并行程序的一种方式，使得程序在指定一点上“分叉”（fork）而开始并行执行，在随后的一点上“会合”（join）并恢复顺序执行。并行区段可以递归的fork，直到达到特定的任务粒度（granularity）。Fork–join可以被视为是一种并行设计模式^[1]^{:209 ff.}，它最早由马尔文·康威公式化于1963年^[2]^[3]。

概述

通过递归的嵌套fork–join计算，可以获得并行版本的分治范型，表达为如下一般性伪代码^[4]：

解决(问题):
    if 问题足够小:
        直接解决问题 (顺序算法)
    else:
        for 部份 in 细分(问题)
            fork 子任务来解决(部份)
        join 在前面的循环中生成的所有子任务
        return 合并的结果

例子

简单的并行归并排序是一种fork–join算法^[5]：

mergesort(A, lo, hi):
    if lo < hi:                     // 至少有一个输入元素
        mid = ⌊lo + (hi - lo) / 2⌋
        fork mergesort(A, lo, mid)  // 分叉出子任务处理第一个递归调用，它(潜在的) 并行于主任务
        mergesort(A, mid, hi)       // 主任务处理第二个递归调用
        join
        merge(A, lo, mid, hi)

第一个递归调用是“分叉出”的（forked off），这意味着它可以在单独的线程中的执行，从而并行于这个函数的后续部份，直到join导致所有线程同步化。尽管join看起来很像一个屏障（barrier），但二者并不相同，因为各个线程在一个屏障之后将继续工作，而在join之后只有一个线程继续工作^[1]^:88。

在上述伪码中第二个递归调用不是分叉的；这是故意为之的，因为分叉任务是要付出代价的。如果把二个递归调用都设置为子任务，主任务在被阻塞在join之前将没有任何额外的工作可以进行^[1]。

实现

在fork–join模型的实现中，fork的典型的是任务、纤程即轻量级线程，而非操作系统级别的“重量级”线程或进程，并使用线程池来执行这些任务：fork原语（primitive）允许编程者指定“潜在的”并行，由实现机制接着把它们映射（map）到实际的并行执行之上^[1]。这么设计的原因是建立新线程趋于导致很大的开销^[4]。

在fork–join编程中用到的轻量级线程，典型的有它们自己的调度器，调度器典型的采用工作抢断（英语：Work stealing）策略，并将这些线程映射到底层的线程池。这种调度器比全特征的抢占式操作系统调度器要简单的: 通用的线程调度器必须处理针对锁的阻塞，而在fork–join范型中，线程只阻塞在join点上^[4]。

在OpenMP框架中，Fork–join是主要的并行执行模型，尽管OpenMP实现可以支持也可以不支持并行段落的嵌套^[6]。支持它的还有：Java concurrency（英语：Java concurrency）框架^[7]、微软.NET的任务并行库（英语：Parallel Extensions）^[8]和Intel的线程建造块（英语：Threading Building Blocks）（TBB）^[1]。Cilk编程语言有对fork和join的语言级别支持，其形式为spawn和sync关键字^[4]或Cilk Plus中的cilk_spawn和cilk_sync^[1]。

参见

并行编程模型
Fork (系统调用)
共享内存并行的矩阵乘法算法（英语：Matrix multiplication algorithm#Shared-memory parallelism）
工作抢断（英语：Work stealing）

引用

^ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Michael McCool; James Reinders; Arch Robison. Structured Parallel Programming: Patterns for Efficient Computation (PDF). Elsevier. 2013 [2019-12-03]. （原始内容存档 (PDF)于2018-11-23）.
^ Melvin E. Conway. A multiprocessor system design. Fall Join Computer Conference: 139–146. 1963. doi:10.1145/1463822.1463838.
^ Nyman, Linus; Laakso, Mikael. Notes on the History of Fork and Join (PDF). IEEE Annals of the History of Computing (IEEE Computer Society). 2016, 38 (3): 84–87 [2019-12-03]. doi:10.1109/MAHC.2016.34. （原始内容存档 (PDF)于2019-08-28）.
^ ^4.0 ^4.1 ^4.2 ^4.3 Doug Lea. A Java fork/join framework (PDF). ACM Conference on Java. 2000 [2019-12-03]. （原始内容存档 (PDF)于2019-10-24）.
^ Cormen, Thomas H. （英语：Thomas H. Cormen）; Leiserson, Charles E. （英语：Charles E. Leiserson）; Rivest, Ronald L.; Stein, Clifford. Introduction to Algorithms 3rd. MIT Press and McGraw-Hill. 2009 [1990]. ISBN 0-262-03384-4.
^ Blaise Barney. OpenMP. Lawrence Livermore National Laboratory. 12 June 2013 [5 April 2014]. （原始内容存档于2019-12-18）.
^ Fork/Join. The Java Tutorials. [5 April 2014]. （原始内容存档于2019-11-02）.
^ Daan Leijen; Wolfram Schulte; Sebastian Burckhardt. The design of a Task Parallel Library. OOPSLA. 2009.

外部链接

A Primer on Scheduling Fork–Join Parallelism with Work Stealing（页面存档备份，存于互联网档案馆）

[spp-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Michael McCool; James Reinders; Arch Robison. Structured Parallel Programming: Patterns for Efficient Computation (PDF). Elsevier. 2013 [2019-12-03]. （原始内容存档 (PDF)于2018-11-23）.

[2] Melvin E. Conway. A multiprocessor system design. Fall Join Computer Conference: 139–146. 1963. doi:10.1145/1463822.1463838.

[3] Nyman, Linus; Laakso, Mikael. Notes on the History of Fork and Join (PDF). IEEE Annals of the History of Computing (IEEE Computer Society). 2016, 38 (3): 84–87 [2019-12-03]. doi:10.1109/MAHC.2016.34. （原始内容存档 (PDF)于2019-08-28）.

[lea-4] 4.0 ^4.1 ^4.2 ^4.3 Doug Lea. A Java fork/join framework (PDF). ACM Conference on Java. 2000 [2019-12-03]. （原始内容存档 (PDF)于2019-10-24）.

[5] Cormen, Thomas H. （英语：Thomas H. Cormen）; Leiserson, Charles E. （英语：Charles E. Leiserson）; Rivest, Ronald L.; Stein, Clifford. Introduction to Algorithms 3rd. MIT Press and McGraw-Hill. 2009 [1990]. ISBN 0-262-03384-4.

[6] Blaise Barney. OpenMP. Lawrence Livermore National Laboratory. 12 June 2013 [5 April 2014]. （原始内容存档于2019-12-18）.

[7] Fork/Join. The Java Tutorials. [5 April 2014]. （原始内容存档于2019-11-02）.

[8] Daan Leijen; Wolfram Schulte; Sebastian Burckhardt. The design of a Task Parallel Library. OOPSLA. 2009.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编并行计算
概论	并发计算分布式计算并行计算大规模并行处理机雲端運算超级计算机高性能计算多元處理大規模多核心處理器（英语：Manycore processor） GPGPU 计算机网络 Systolic array（英语：Systolic array）
层级	位元指令线程任务数据内存循环（英语：Loop-level parallelism）流水线
多线程	时间（英语：Temporal multithreading）同时多线程（SMT）投机（英语：Speculative multithreading）（SpMT）抢占式协作集群多线程（CMT）硬件侦测
理论	PRAM模型并行算法分析（英语：Analysis of parallel algorithms）阿姆达尔定律 Gustafson's law（英语：Gustafson's law） Cost efficiency（英语：Cost efficiency） Karp–Flatt metric（英语：Karp–Flatt metric）减速（英语：Parallel slowdown）加速比
元素	行程线程纖程指令窗口（英语：Instruction window）
协调	多元處理内存一致性（英语：Memory coherence）快取一致性高速缓存失效（英语：Cache invalidation）屏障同步应用程序检查点（英语：Application checkpointing）
编程	串流處理数据流处理（英语：Dataflow programming）模型隐式并行（英语：Implicit parallelism）显式并行（英语：Explicit parallelism）并发性非阻塞算法（英语：Non-blocking algorithm）
硬件	費林分類法單指令流單數據流单指令流多数据流单指令多线程（英语：Single instruction, multiple threads）（SIMT）多指令流單數據流多指令流多数据流数据流架构（英语：Dataflow architecture）指令管線化超純量并行向量处理机多处理器对称非对称内存共享分布式内存（英语：Distributed memory）分布式共享 UMA NUMA COMA（英语：Cache-only memory architecture）大规模并行处理机计算机集群网格计算
API	Ateji PX（英语：Ateji PX） Boost.Thread Charm++（英语：Charm%2B%2B） Cilk Coarray Fortran（英语：Coarray Fortran） CUDA Dryad（英语：Dryad (programming)） C++ AMP Global Arrays（英语：Global Arrays） MPI OpenMP OpenCL HMPP开放标准 OpenACC TPL（英语：Parallel Extensions#Task Parallel Library） PLINQ（英语：Parallel Extensions#PLINQ）并行虚拟机（英语：Parallel Virtual Machine）（PVM） POSIX线程 RaftLib（英语：RaftLib） UPC TBB（英语：Threading Building Blocks）
问题	软件闭锁（英语：Software lockout）可缩放性競爭危害死锁活锁饥饿（英语：Starvation (computer science)）确定性算法并行变慢（英语：Parallel slowdown）
分類：并行计算

查论编编程范型
指令式	过程式结构化非结构化例外处理
面向对象	基于类基于原型契约式面向代理
函数式	纯函数式全函数式隐式函数级
数据流程	同步式响应式函数式响应管道串流处理基于流程
宣告式	逻辑式回答集函数式逻辑约束式数据查询框架本体
元编程	宏模板反射式同像性元对象元类面向特性面向语言
并发/并行	协程生成器 future/promise 演员模型消息传递通信顺序进程通道分叉会合整体同步 PGAS
其他范型	阵列面向表达式（英语：Expression-oriented programming language）模块化关注分离面向方面数据驱动事件驱动串接式面向堆栈基于自动机可微分概率式
`关键特征`	块嵌套函数（英语：Nested function）回调函数递归头等对象头等函数闭包实化续体多态运算符重载泛型多分派模式匹配推导式抽象数据类型代数数据类型递归数据类型求值策略非确定性
多范型语言比较（英语：Comparison of multi-paradigm programming languages）