跳转到内容

人工智能加速器

本页使用了标题或全文手工转换
维基百科,自由的百科全书

人工智能加速器(英語:AI accelerator),又稱NPU(neural processing unit,神經處理器),是一类专用于人工智能(特别是人工神经网络机器视觉机器学习等)硬件加速微处理器[1]或计算系统。[2]典型的应用包括机器人学物联网等数据密集型应用或传感器驱动的任务。[3]

人工智能加速器被用于移动设备,例如苹果iPhone华为手机,[4]以及个人电脑,例如英特尔笔记本电脑,[5] AMD笔记本电脑[6]苹果芯片 Mac[7]加速器用于云计算服务器,包括谷歌云平台中的张量处理单元 (TPU)[8]亚马逊云计算服务中的TrainiumInferentia芯片。[9]此类别中存在许多厂商特有的术语,并且它是一种新兴技术,没有主导设计

图形处理单元英伟达AMD等公司设计,通常包括特定于AI的硬件,并常用作AI加速器,用于训练推理[10]

历史

[编辑]

计算机系统经常用特殊用途的加速器(称为协处理器)来补充CPU以执行专门的任务。值得注意的专用 硬件单元包括用于图形显卡声卡图形处理单元数字信号处理器。随着深度学习人工智能工作负载在2010年代日益突出,专门的硬件单元从现有产品中开发或改编而来,以加速这些任务。

早期尝试

[编辑]

早期的尝试,例如英特尔的ETANN 80170NX,采用了模拟电路来计算神经函数。[11]

后来的全数字芯片,如Nestor/Intel Ni1000,紧随其后。早在1993年,数字信号处理器就被用作神经网络加速器,以加速光学字符识别软件。[12]

到1988年,张伟等人已经讨论了用于字母识别的卷积神经网络的快速光学实现。[13][14]

在20世纪90年代,也有人尝试为工作站创建并行高吞吐量系统,以用于包括神经网络模拟在内的各种应用。[15][16]

基于FPGA的加速器也在20世纪90年代首次被探索用于推理和训练。[17][18]

2014年,陈天石等人提出了DianNao(即来自汉字的“电脑”),[19] 特别是用于加速深度神经网络。DianNao在一个3.02 mm2 的面积和485 mW 的功耗下,提供452 Gop/s 的峰值性能(深度神经网络中的关键操作)。后来,它的继任者(DaDianNao,[20] ShiDianNao,[21] PuDianNao[22]) 由同一组人提出,形成了DianNao家族。[23]

智能手机 从2015年的高通骁龙820开始整合AI加速器。[24][25]

异构计算

[编辑]

异构计算在一个系统或单个芯片中结合了许多专用处理器,每个处理器都针对特定类型的任务进行了优化。诸如Cell微处理器[26]等架构具有与AI加速器显著重叠的特性,包括:支持打包低精度算术、数据流架构以及优先考虑吞吐量而不是延迟。Cell微处理器已应用于许多任务[27][28][29],包括AI。[30][31][32]

在21世纪初,CPU也获得了越来越广泛的SIMD单元,这得益于视频和游戏工作负载;以及对打包低精度数据类型的支持。[33]由于CPU性能的提高,它们也被用于运行AI工作负载。CPU对于具有小型或中型并行性的DNN、稀疏DNN和低批量大小的场景具有优势。

GPU 的使用

[编辑]

图形处理单元或GPU是专门用于操纵图像和计算局部图像属性的硬件。神经网络和图像处理的数学基础是相似的,过易并行的任务涉及矩阵,导致GPU越来越多地用于机器学习任务。[34][35]

2012年,Alex Krizhevsky采用两个GPU来训练深度学习网络,即AlexNet,[36] 它赢得了ISLVRC-2012竞赛的冠军。在2010年代,英伟达等GPU制造商在硬件(例如,INT8运算符)和软件(例如,cuDNN库)方面都增加了与深度学习相关的功能。

在2010年代,GPU继续朝着促进深度学习的方向发展,包括在自动驾驶汽车等设备中进行训练和推理。[37][38]英伟达等GPU开发商的NVLink正在开发额外的连接能力,以满足AI受益的数据流工作负载。随着GPU越来越多地应用于AI加速,GPU制造商已经整合了神经网络-专用硬件,以进一步加速这些任务。[39][40] 张量核心旨在加快神经网络的训练。[40]

GPU继续用于大规模AI应用。例如,Summit,来自IBM的橡树岭国家实验室的超级计算机,[41] 包含27,648个NVIDIA Tesla V100卡,可用于加速深度学习算法。

FPGA 的使用

[编辑]

深度学习框架仍在不断发展,这使得设计定制硬件变得困难。可重构设备(例如现场可编程门阵列 (FPGA))使硬件、框架和软件更容易相互协同发展。[42][17][18][43]

微软已使用FPGA芯片来加速实时深度学习服务的推理。[44]

NPU 的使用

[编辑]

神经处理单元 (NPU) 是另一种更原生化的方法。自2017年以来,一些CPU和SoC具有片上NPU:例如,英特尔Meteor LakeApple A11 Bionic

专用AI加速器ASIC的出现

[编辑]

虽然GPU和FPGA在AI相关任务上的性能远优于CPU,但通过专用集成电路 (ASIC) 进行更具体的设计,可以提高效率高达10倍。[45][46][47]这些加速器采用诸如优化的内存使用[來源請求]和使用较低精度运算来加速计算并提高计算吞吐量的策略。[48][49]一些用于AI加速的低精度浮点数半精度bfloat16浮点数[50][51] Cerebras Systems已经构建了一个基于业界最大处理器(第二代晶圆级引擎(WSE-2))的专用AI加速器,以支持深度学习工作负载。[52][53]亚马逊云计算服务 NeuronCores是异构计算单元,它驱动Tranium、Tranium2、Inferentia和Inferentia2芯片,这些芯片由4个主要引擎组成:张量、向量、标量和GPSIMD,以及片上软件管理的SRAM内存,用于管理数据局部性和数据预取。[54]

正在进行的研究

[编辑]

内存计算架构

[编辑]

2017年6月,IBM的研究人员宣布了一种与冯诺伊曼结构相反的架构,该架构基于存内计算相变化存储器阵列应用于时间相关性检测,旨在将该方法推广到异构计算大规模并行系统。[55] 2018年10月,IBM的研究人员宣布了一种基于内存处理和模拟人脑突触网络的架构,以加速深度神经网络[56]该系统基于相变存储器阵列。[57]

使用模拟电阻存储器的内存计算

[编辑]

2019年,米兰理工大学的研究人员找到了一种方法,可以通过单一操作在几十纳秒内求解线性方程组。他们的算法基于使用模拟电阻存储器的存内计算,通过使用欧姆定律和基尔霍夫定律一步执行矩阵乘法,从而实现高时间和能量效率。研究人员表明,具有交叉点电阻存储器的反馈电路可以一步解决代数问题,例如线性方程组、矩阵特征向量和微分方程。与数字算法相比,这种方法极大地提高了计算时间。[58]

原子级薄半导体

[编辑]

2020年,Marega等人发表了关于用于开发基于浮栅场效应晶体管 (FGFET) 的逻辑内存设备和电路的大面积有源通道材料的实验。[59]这种原子级薄半导体被认为有望用于节能机器学习应用,其中相同的基本器件结构用于逻辑运算和数据存储。作者使用二维材料(例如半导体二硫化钼)来精确调整FGFET作为构建块,其中可以使用存储元件执行逻辑运算。[59]

集成光子张量核心

[编辑]

1988年,张伟等人讨论了用于字母识别的卷积神经网络的快速光学实现。[13][14] 2021年,J. Feldmann等人提出了一种用于并行卷积处理的集成光子 硬件加速器[60]作者指出了集成光子学相对于其电子对应物的两个主要优势:(1)通过波长多路复用结合频率梳进行大规模并行数据传输,以及(2)极高的数据调制速度。[60]他们的系统每秒可以执行数万亿次乘积累加运算,这表明集成 光子学在数据密集型AI应用中的潜力。[60]还可以进行人工神经网络反向传播的光学处理器已经过实验开发。[61]

命名法

[编辑]

截至2016年,该领域仍在不断变化,供应商正在推广他们自己对“AI加速器”的营销术语,希望他们的设计和API能够成为主导设计。对于这些设备之间的界限以及它们将采用的确切形式,还没有达成共识;然而,几个例子清楚地表明了旨在填补这一新空间的目标,并且功能上存在相当大的重叠。

过去,当消费者图形处理器出现时,业界最终采用了英伟达的自称术语“GPU”,[62]作为“图形加速器”的集体名词,在最终确定一个由Direct3D提出的模型实现的整体管道[需要解释]之前,它已经采用了多种形式。

所有型号的英特尔Meteor Lake处理器都内置了“多功能处理器单元”(“VPU”),用于加速推断,以用于计算机视觉和深度学习。[63]

深度学习处理器 (DLP)

[编辑]

受DianNao家族开创性工作的启发,学术界和业界提出了许多DLP,其设计经过优化,可以利用深度神经网络的特性来提高效率。在ISCA 2016上,接受论文的三个单元(15%)侧重于深度学习的架构设计。这些努力包括学术界的Eyeriss(麻省理工学院),[64] EIE(斯坦福大学),[65] Minerva(哈佛大学),[66] Stripes(多伦多大学)[67],以及工业界的TPU(谷歌)[68]和MLU(寒武紀科技)。[69]表1列出了几项代表性工作。


表1.典型的DLP
年份 DLP 机构 类型 计算 内存层次结构 控制 峰值性能
2014 DianNao[19] ICT,中科院 数字 向量MAC 高速缓存 VLIW 452 Gops (16位)
DaDianNao[20] ICT,中科院 数字 向量MAC 高速缓存 VLIW 5.58 Tops (16位)
2015 ShiDianNao[21] ICT,中科院 数字 标量MAC 高速缓存 VLIW 194 Gops (16位)
PuDianNao[22] ICT,中科院 数字 向量MAC 高速缓存 VLIW 1,056 Gops (16位)
2016 DnnWeaver 佐治亚理工学院 数字 向量MAC 高速缓存 - -
EIE[65] 斯坦福大学 数字 标量MAC 高速缓存 - 102 Gops (16位)
Eyeriss[64] 麻省理工学院 数字 标量MAC 高速缓存 - 67.2 Gops (16位)
Prime[70] 加州大学圣巴巴拉分校 混合 存内计算 ReRAM - -
2017 TPU[68] 谷歌 数字 标量MAC 高速缓存 CISC 92 Tops (8位)
PipeLayer[71] 匹兹堡大学 混合 内存处理 ReRAM -
FlexFlow ICT,中科院 数字 标量MAC 高速缓存 - 420 Gops ()
DNPU[72] 韩国科学技术院 数字 标量MAC 高速缓存 - 300 Gops(16位)

1200 Gops(4位)

2018 MAERI 佐治亚理工学院 数字 标量MAC 高速缓存 -
PermDNN 纽约市立大学 数字 向量MAC 高速缓存 - 614.4 Gops (16位)
UNPU[73] 韩国科学技术院 数字 标量MAC 高速缓存 - 345.6 Gops(16位)

691.2 Gops(8位) 1382 Gops(4位) 7372 Gops(1位)

2019 FPSA 清华大学 混合 内存处理 ReRAM -
寒武纪-F ICT,中科院 数字 向量MAC 高速缓存 FISA 14.9 Tops (F1, 16位)

956 Tops (F100, 16位)

数字DLP

[编辑]

DLP架构的主要组件通常包括计算组件、片上内存层次结构以及管理数据通信和计算流的控制逻辑。

关于计算组件,由于深度学习中的大多数操作可以聚合到向量操作中,因此在数字DLP中构建计算组件的最常用方法是基于MAC(乘法-累加)的组织方式,可以使用向量MAC[19][20][22]或标量MAC。[68][21][64]与通用处理设备中的SIMDSIMT不同,深度学习领域特定的并行性在这些基于MAC的组织中得到了更好的探索。关于内存层次结构,由于深度学习算法需要高带宽才能为计算组件提供足够的数据,因此DLP通常在片上缓冲区中使用相对较大的大小(几十KB或几MB),但采用专用的片上数据重用策略和数据交换策略来减轻内存带宽的负担。例如,DianNao,16个16输入的向量MAC,需要16 × 16 × 2 = 512个16位数据,即计算组件和缓冲区之间几乎需要1024 GB/s的带宽。通过片上重用,这种带宽要求大大降低。[19]与通用处理设备中广泛使用的缓存不同,DLP总是使用高速缓存内存,因为它可以通过利用深度学习算法中相对规则的数据访问模式来提供更高的数据重用机会。关于控制逻辑,由于深度学习算法正在以惊人的速度不断发展,因此DLP开始利用专用ISA(指令集架构)来灵活地支持深度学习领域。首先,DianNao使用了一种VLIW样式的指令集,其中每条指令都可以在DNN中完成一层。寒武纪[74]引入了第一个深度学习领域专用ISA,它可以支持十多种不同的深度学习算法。TPU还从CISC样式的ISA中揭示了五个关键指令。

混合DLP

[编辑]

由于混合DLP的效率高,因此它们出现在DNN推理和训练加速中。内存计算(PIM)架构是最重要的混合DLP类型之一。PIM的关键设计理念是弥合计算和内存之间的差距,方法如下:1) 将计算组件移动到内存单元、控制器或内存芯片中,以缓解内存墙问题。[71][75][76]这种架构显著缩短了数据路径并利用了更高的内部带宽,因此带来了引人注目的性能提升。2) 通过采用计算设备来构建高效的DNN引擎。2013年,惠普实验室展示了采用ReRAM交叉点结构进行计算的惊人能力。[77]受这项工作的启发,人们提出了大量工作来探索基于ReRAM[70][78][79][71]、相变存储器[75][80][81]等的新的架构和系统设计。

基准测试

[编辑]

可以使用MLPerf等基准测试来评估AI加速器的性能。[82]表2列出了AI加速器的几个典型基准测试。

表2. 基准测试。
年份 神经网络基准测试 关联方 微基准测试数量 组件基准测试数量 应用基准测试数量
2012 BenchNN ICT,中科院 N/A 12 N/A
2016 Fathom 哈佛大学 N/A 8 N/A
2017 BenchIP ICT,中科院 12 11 N/A
2017 DAWNBench 斯坦福大学 8 N/A N/A
2017 DeepBench 百度 4 N/A N/A
2018 AI Benchmark 苏黎世联邦理工学院 N/A 26 N/A
2018 MLPerf 哈佛大学、英特尔和谷歌等 N/A 7 N/A
2019 AIBench ICT,中科院和阿里巴巴等 12 16 2
2019 NNBench-X 加州大学圣巴巴拉分校 N/A 10 N/A

潜在应用

[编辑]

另请参阅

[编辑]

参考文献

[编辑]
  1. ^ Intel unveils Movidius Compute Stick USB AI Accelerator. 2017-07-21 [August 11, 2017]. (原始内容存档于2017-08-11). 
  2. ^ Inspurs unveils GX4 AI Accelerator. 2017-06-21 [2019-04-21]. (原始内容存档于2020-09-27). 
  3. ^ Google Developing AI Processors. (原始内容存档于2016-06-27). Google using its own AI accelerators.
  4. ^ HUAWEI Reveals the Future of Mobile AI at IFA. [2025-02-28]. (原始内容存档于2021-11-10). 
  5. ^ Intel's Lunar Lake Processors Arriving Q3 2024. Intel. 
  6. ^ AMD XDNA Architecture. 
  7. ^ Deploying Transformers on the Apple Neural Engine. Apple Machine Learning Research. [2023-08-24] (美国英语). 
  8. ^ Jouppi, Norman P.; et al. In-Datacenter Performance Analysis of a Tensor Processing Unit. ACM SIGARCH Computer Architecture News. 2017-06-24, 45 (2): 1–12. arXiv:1704.04760可免费查阅. doi:10.1145/3140659.3080246可免费查阅 (英语). 
  9. ^ How silicon innovation became the 'secret sauce' behind AWS's success. Amazon Science. 2022年7月27日 [2024年7月19日]. (原始内容存档于2025年1月16日). 
  10. ^ Patel, Dylan; Nishball, Daniel; Xie, Myron. Nvidia's New China AI Chips Circumvent US Restrictions. SemiAnalysis. 2023-11-09 [2024-02-07]. 
  11. ^ Dvorak, J.C. Inside Track. PC Magazine. 1990年5月29日 [2023年12月26日]. 
  12. ^ convolutional neural network demo from 1993 featuring DSP32 accelerator. YouTube. 2014年6月2日 [2025年2月28日]. (原始内容存档于2016年5月8日). 
  13. ^ 13.0 13.1 Zhang, Wei. Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics. 1988. 
  14. ^ 14.0 14.1 Zhang, Wei. Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics. 1990, 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. PMID 20577468. doi:10.1364/AO.29.004790. 
  15. ^ Asanović, K.; Beck, J.; Feldman, J.; Morgan, N.; Wawrzynek, J. Designing a connectionist network supercomputer. International Journal of Neural Systems (ResearchGate). 1994年1月, 4 (4): 317–26 [2023年12月26日]. PMID 8049794. doi:10.1142/S0129065793000250. 
  16. ^ The end of general purpose computers (not). YouTube. 2015年4月17日 [2025年2月28日]. (原始内容存档于2018年1月10日). 
  17. ^ 17.0 17.1 Gschwind, M.; Salapura, V.; Maischberger, O. Space Efficient Neural Net Implementation. 1995年2月 [2023年12月26日]. 
  18. ^ 18.0 18.1 Gschwind, M.; Salapura, V.; Maischberger, O. A Generic Building Block for Hopfield Neural Networks with On-Chip Learning. 1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96. 1996: 49–52. ISBN 0-7803-3073-0. S2CID 17630664. doi:10.1109/ISCAS.1996.598474. 
  19. ^ 19.0 19.1 19.2 19.3 Chen, Tianshi; Du, Zidong; Sun, Ninghui; Wang, Jia; Wu, Chengyong; Chen, Yunji; Temam, Olivier. DianNao. ACM SIGARCH Computer Architecture News. 2014-04-05, 42 (1): 269–284. ISSN 0163-5964. doi:10.1145/2654822.2541967可免费查阅. 
  20. ^ 20.0 20.1 20.2 Chen, Yunji; Luo, Tao; Liu, Shaoli; Zhang, Shijin; He, Liqiang; Wang, Jia; Li, Ling; Chen, Tianshi; Xu, Zhiwei; Sun, Ninghui; Temam, Olivier. DaDianNao: A Machine-Learning Supercomputer. 2014 47th Annual IEEE/ACM International Symposium on Microarchitecture. IEEE. 2014年12月: 609–622. ISBN 978-1-4799-6998-2. S2CID 6838992. doi:10.1109/micro.2014.58. 
  21. ^ 21.0 21.1 21.2 Du, Zidong; Fasthuber, Robert; Chen, Tianshi; Ienne, Paolo; Li, Ling; Luo, Tao; Feng, Xiaobing; Chen, Yunji; Temam, Olivier. ShiDianNao. ACM SIGARCH Computer Architecture News. 2016-01-04, 43 (3S): 92–104. ISSN 0163-5964. doi:10.1145/2872887.2750389. 
  22. ^ 22.0 22.1 22.2 Liu, Daofu; Chen, Tianshi; Liu, Shaoli; Zhou, Jinhong; Zhou, Shengyuan; Teman, Olivier; Feng, Xiaobing; Zhou, Xuehai; Chen, Yunji. PuDianNao. ACM SIGARCH Computer Architecture News. 2015-05-29, 43 (1): 369–381. ISSN 0163-5964. doi:10.1145/2786763.2694358. 
  23. ^ Chen, Yunji; Chen, Tianshi; Xu, Zhiwei; Sun, Ninghui; Temam, Olivier. DianNao family. Communications of the ACM. 2016-10-28, 59 (11): 105–112. ISSN 0001-0782. S2CID 207243998. doi:10.1145/2996864. 
  24. ^ Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. Qualcomm. [2025-02-28]. (原始内容存档于2022-01-02). 
  25. ^ Rubin, Ben Fox. Qualcomm's Zeroth platform could make your smartphone much smarter. CNET. [2021年9月28日]. (原始内容存档于2024年10月10日) (英语). 
  26. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi. Synergistic Processing in Cell's Multicore Architecture. IEEE Micro. 2006, 26 (2): 10–24. S2CID 17834015. doi:10.1109/MM.2006.41. 
  27. ^ De Fabritiis, G. Performance of Cell processor for biomolecular simulations. Computer Physics Communications. 2007, 176 (11–12): 660–664. Bibcode:2007CoPhC.176..660D. S2CID 13871063. arXiv:physics/0611201可免费查阅. doi:10.1016/j.cpc.2007.02.107. 
  28. ^ Video Processing and Retrieval on Cell architecture. CiteSeerX 10.1.1.138.5133可免费查阅. 
  29. ^ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko. 2006 IEEE Symposium on Interactive Ray Tracing. 2006: 15–23. CiteSeerX 10.1.1.67.8982可免费查阅. ISBN 978-1-4244-0693-7. S2CID 1198101. doi:10.1109/RT.2006.280210. 
  30. ^ Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals (PDF). [2017年11月14日]. (原始内容 (PDF)存档于2017年8月30日). 
  31. ^ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho. 2008 5th IEEE Consumer Communications and Networking Conference. 2008: 1030–1034. ISBN 978-1-4244-1457-4. S2CID 14429828. doi:10.1109/ccnc08.2007.235. 
  32. ^ Duan, Rubing; Strey, Alfred. Euro-Par 2008 – Parallel Processing. Lecture Notes in Computer Science 5168. 2008: 665–675. ISBN 978-3-540-85450-0. doi:10.1007/978-3-540-85451-7_71. 
  33. ^ Improving the performance of video with AVX. 2012年2月8日 [2025年2月28日]. (原始内容存档于2021年7月30日). 
  34. ^ Chellapilla, K.; Sidd Puri; Simard, P. High Performance Convolutional Neural Networks for Document Processing. 10th International Workshop on Frontiers in Handwriting Recognition. 2006年10月23日 [2023年12月23日]. 
  35. ^ Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet Classification with Deep Convolutional Neural Networks. Communications of the ACM. 2017年5月24日, 60 (6): 84–90. doi:10.1145/3065386可免费查阅. 
  36. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. ImageNet classification with deep convolutional neural networks. Communications of the ACM. 2017-05-24, 60 (6): 84–90. doi:10.1145/3065386可免费查阅 (英语). 
  37. ^ Roe, R. Nvidia in the Driver's Seat for Deep Learning. insideHPC. 2023年5月17日 [2023年12月23日]. 
  38. ^ Bohn, D. Nvidia announces 'supercomputer' for self-driving cars at CES 2016. Vox Media. 2016年1月5日 [2023年12月23日]. 
  39. ^ "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform页面存档备份,存于互联网档案馆)", 2019
  40. ^ 40.0 40.1 Harris, Mark. CUDA 9 Features Revealed: Volta, Cooperative Groups and More. 2017年5月11日 [2017年8月12日]. 
  41. ^ Summit: Oak Ridge National Laboratory's 200 petaflop supercomputer. 美国能源部. 2024 [2024年1月8日]. 
  42. ^ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan. Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA. 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS). 2019年8月: 248–256. ISBN 978-1-7281-2058-4. S2CID 203656070. doi:10.1109/HPCC/SmartCity/DSS.2019.00048. 
  43. ^ FPGA Based Deep Learning Accelerators Take on ASICs. The Next Platform. 2016年8月23日 [2016年9月7日]. (原始内容存档于2023年8月12日). 
  44. ^ Microsoft unveils Project Brainwave for real-time AI. 微软. 2017年8月22日. 
  45. ^ Google boosts machine learning with its Tensor Processing Unit. 2016年5月19日 [2016年9月13日]. 
  46. ^ Chip could bring deep learning to mobile devices. www.sciencedaily.com. 2016年2月3日 [2016年9月13日]. 
  47. ^ Google Cloud announces the 5th generation of its custom TPUs. 2023年8月29日 [2025年2月28日]. (原始内容存档于2024年10月8日). 
  48. ^ Deep Learning with Limited Numerical Precision (PDF). [2025-02-28]. (原始内容存档 (PDF)于2025-01-01). 
  49. ^ Rastegari, Mohammad; Ordonez, Vicente; Redmon, Joseph; Farhadi, Ali. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks. 2016. arXiv:1603.05279可免费查阅 [cs.CV]. 
  50. ^ Lucian Armasu. Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019. Tom's Hardware. 2018年5月23日 [2018年5月23日]. (原始内容存档于2025年1月27日). Intel said that the NNP-L1000 would also support bfloat16, a numerical format that's being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019. 
  51. ^ Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous. TensorFlow Distributions (报告). 2017年11月28日. Bibcode:2017arXiv171110604D. arXiv:1711.10604可免费查阅. Accessed May 23, 2018. All operations in TensorFlow Distributions are numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts 
  52. ^ Woodie, Alex. Cerebras Hits the Accelerator for Deep Learning Workloads. Datanami. 2021-11-01 [2022-08-03]. 
  53. ^ Cerebras launches new AI supercomputing processor with 2.6 trillion transistors. VentureBeat. 2021-04-20 [2022-08-03]. (原始内容存档于2021-10-23) (美国英语). 
  54. ^ AWS NeuronCore Architecture. readthedocs-hosted. 2024-12-27 [2024-12-27] (美国英语). 
  55. ^ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou. Temporal correlation detection using computational phase-change memory. Nature Communications. 2017, 8 (1): 1115. Bibcode:2017NatCo...8.1115S. PMC 5653661可免费查阅. PMID 29062022. arXiv:1706.00511可免费查阅. doi:10.1038/s41467-017-01481-9. 
  56. ^ A new brain-inspired architecture could improve how computers handle data and advance AI. American Institute of Physics. 2018年10月3日 [2018年10月5日]. 
  57. ^ Carlos Ríos; Nathan Youngblood; Zengguang Cheng; Manuel Le Gallo; Wolfram H.P. Pernice; C. David Wright; Abu Sebastian; Harish Bhaskaran. In-memory computing on a photonic platform. Science Advances. 2018, 5 (2): eaau5759. Bibcode:2019SciA....5.5759R. PMC 6377270可免费查阅. PMID 30793028. S2CID 7637801. arXiv:1801.06228可免费查阅. doi:10.1126/sciadv.aau5759. 
  58. ^ Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini. Solving matrix equations in one step with cross-point resistive arrays. Proceedings of the National Academy of Sciences. 2019, 116 (10): 4123–4128. Bibcode:2019PNAS..116.4123S. PMC 6410822可免费查阅. PMID 30782810. doi:10.1073/pnas.1815682116可免费查阅. 
  59. ^ 59.0 59.1 Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras. Logic-in-memory based on an atomically thin semiconductor. Nature. 2020, 587 (2): 72–77. Bibcode:2020Natur.587...72M. PMC 7116757可免费查阅. PMID 33149289. doi:10.1038/s41586-020-2861-0. 
  60. ^ 60.0 60.1 60.2 Feldmann, J.; Youngblood, N.; Karpov, M.; et al. Parallel convolutional processing using an integrated photonic tensor. Nature. 2021, 589 (2): 52–58. PMID 33408373. S2CID 211010976. arXiv:2002.00281可免费查阅. doi:10.1038/s41586-020-03070-1. 
  61. ^ Photonic Chips Curb AI Training's Energy Appetite - IEEE Spectrum. 
  62. ^ NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256. (原始内容存档于2016年2月27日). 
  63. ^ Intel to Bring a 'VPU' Processor Unit to 14th Gen Meteor Lake Chips. PCMAG. 2022年8月 [2025-02-28]. (原始内容存档于2024-11-06). 
  64. ^ 64.0 64.1 64.2 Chen, Yu-Hsin; Emer, Joel; Sze, Vivienne. Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks. IEEE Micro. 2017: 1. ISSN 0272-1732. doi:10.1109/mm.2017.265085944. hdl:1721.1/102369可免费查阅. 
  65. ^ 65.0 65.1 Han, Song; Liu, Xingyu; Mao, Huizi; Pu, Jing; Pedram, Ardavan; Horowitz, Mark A.; Dally, William J. EIE: Efficient Inference Engine on Compressed Deep Neural Network. 2016-02-03. OCLC 1106232247. 
  66. ^ Reagen, Brandon; Whatmough, Paul; Adolf, Robert; Rama, Saketh; Lee, Hyunkwang; Lee, Sae Kyu; Hernandez-Lobato, Jose Miguel; Wei, Gu-Yeon; Brooks, David. Minerva: Enabling Low-Power, Highly-Accurate Deep Neural Network Accelerators. 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA). 首尔: IEEE. 2016年6月: 267–278. ISBN 978-1-4673-8947-1. doi:10.1109/ISCA.2016.32. 
  67. ^ Judd, Patrick; Albericio, Jorge; Moshovos, Andreas. Stripes: Bit-Serial Deep Neural Network Computing. IEEE Computer Architecture Letters. 2017-01-01, 16 (1): 80–83. ISSN 1556-6056. S2CID 3784424. doi:10.1109/lca.2016.2597140. 
  68. ^ 68.0 68.1 68.2 Jouppi, N.; Young, C.; Patil, N.; Patterson, D. In-Datacenter Performance Analysis of a Tensor Processing Unit. 计算机协会. 2017年6月24日: 1–12. ISBN 9781450348928. S2CID 4202768. doi:10.1145/3079856.3080246可免费查阅. 
  69. ^ MLU 100 intelligence accelerator card. Cambricon. 2024 [2024年1月8日]. (原始内容存档于2021年11月10日) (Japanese). 
  70. ^ 70.0 70.1 Chi, Ping; Li, Shuangchen; Xu, Cong; Zhang, Tao; Zhao, Jishen; Liu, Yongpan; Wang, Yu; Xie, Yuan. PRIME: A Novel Processing-in-Memory Architecture for Neural Network Computation in ReRAM-Based Main Memory. 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA). IEEE. 2016年6月: 27–39. ISBN 978-1-4673-8947-1. doi:10.1109/isca.2016.13. 
  71. ^ 71.0 71.1 71.2 Song, Linghao; Qian, Xuehai; Li, Hai; Chen, Yiran. PipeLayer: A Pipelined ReRAM-Based Accelerator for Deep Learning. 2017 IEEE International Symposium on High Performance Computer Architecture (HPCA). IEEE. 2017年2月: 541–552. ISBN 978-1-5090-4985-1. S2CID 15281419. doi:10.1109/hpca.2017.55. 
  72. ^ Shin, Dongjoo; Lee, Jinmook; Lee, Jinsu; Yoo, Hoi-Jun. 14.2 DNPU: An 8.1TOPS/W reconfigurable CNN-RNN processor for general-purpose deep neural networks. 2017 IEEE International Solid-State Circuits Conference (ISSCC). 2017: 240–241 [2023-08-24]. ISBN 978-1-5090-3758-2. S2CID 206998709. doi:10.1109/ISSCC.2017.7870350. (原始内容存档于2024-12-03). 
  73. ^ Lee, Jinmook; Kim, Changhyeon; Kang, Sanghoon; Shin, Dongjoo; Kim, Sangyeob; Yoo, Hoi-Jun. UNPU: A 50.6TOPS/W unified deep neural network accelerator with 1b-to-16b fully-variable weight bit-precision. 2018 IEEE International Solid - State Circuits Conference - (ISSCC). 2018: 218–220 [2023-11-30]. ISBN 978-1-5090-4940-0. S2CID 3861747. doi:10.1109/ISSCC.2018.8310262. 
  74. ^ Liu, Shaoli; Du, Zidong; Tao, Jinhua; Han, Dong; Luo, Tao; Xie, Yuan; Chen, Yunji; Chen, Tianshi. Cambricon: An Instruction Set Architecture for Neural Networks. 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA). IEEE. 2016年6月: 393–405. ISBN 978-1-4673-8947-1. doi:10.1109/isca.2016.42. 
  75. ^ 75.0 75.1 Ambrogio, Stefano; Narayanan, Pritish; Tsai, Hsinyu; Shelby, Robert M.; Boybat, Irem; di Nolfo, Carmelo; Sidler, Severin; Giordano, Massimo; Bodini, Martina; Farinha, Nathan C. P.; Killeen, Benjamin. Equivalent-accuracy accelerated neural-network training using analogue memory. Nature. 2018年6月, 558 (7708): 60–67. Bibcode:2018Natur.558...60A. ISSN 0028-0836. PMID 29875487. S2CID 46956938. doi:10.1038/s41586-018-0180-5. 
  76. ^ Chen, Wei-Hao; Lin, Wen-Jang; Lai, Li-Ya; Li, Shuangchen; Hsu, Chien-Hua; Lin, Huan-Ting; Lee, Heng-Yuan; Su, Jian-Wei; Xie, Yuan; Sheu, Shyh-Shyuan; Chang, Meng-Fan. A 16Mb dual-mode ReRAM macro with sub-14ns computing-in-memory and memory functions enabled by self-write termination scheme. 2017 IEEE International Electron Devices Meeting (IEDM). IEEE. 2017年12月: 28.2.1–28.2.4. ISBN 978-1-5386-3559-9. S2CID 19556846. doi:10.1109/iedm.2017.8268468. 
  77. ^ Yang, J. Joshua; Strukov, Dmitri B.; Stewart, Duncan R. Memristive devices for computing. Nature Nanotechnology. 2013年1月, 8 (1): 13–24 [2025-02-28]. Bibcode:2013NatNa...8...13Y. ISSN 1748-3395. PMID 23269430. doi:10.1038/nnano.2012.240. (原始内容存档于2025-02-13) (英语). 
  78. ^ Shafiee, Ali; Nag, Anirban; Muralimanohar, Naveen; Balasubramonian, Rajeev; Strachan, John Paul; Hu, Miao; Williams, R. Stanley; Srikumar, Vivek. ISAAC. ACM SIGARCH Computer Architecture News. 2016-10-12, 44 (3): 14–26. ISSN 0163-5964. S2CID 6329628. doi:10.1145/3007787.3001139. 
  79. ^ Ji, Yu Zhang, Youyang Xie, Xinfeng Li, Shuangchen Wang, Peiqi Hu, Xing Zhang, Youhui Xie, Yuan. FPSA: A Full System Stack Solution for Reconfigurable ReRAM-based NN Accelerator Architecture. 2019-01-27. OCLC 1106329050. 
  80. ^ Nandakumar, S. R.; Boybat, Irem; Joshi, Vinay; Piveteau, Christophe; Le Gallo, Manuel; Rajendran, Bipin; Sebastian, Abu; Eleftheriou, Evangelos. Phase-Change Memory Models for Deep Learning Training and Inference. 2019 26th IEEE International Conference on Electronics, Circuits and Systems (ICECS). IEEE. 2019年11月: 727–730. ISBN 978-1-7281-0996-1. S2CID 210930121. doi:10.1109/icecs46596.2019.8964852. 
  81. ^ Joshi, Vinay; Le Gallo, Manuel; Haefeli, Simon; Boybat, Irem; Nandakumar, S. R.; Piveteau, Christophe; Dazzi, Martino; Rajendran, Bipin; Sebastian, Abu; Eleftheriou, Evangelos. Accurate deep neural network inference using computational phase-change memory. Nature Communications. 2020-05-18, 11 (1): 2473. Bibcode:2020NatCo..11.2473J. ISSN 2041-1723. PMC 7235046可免费查阅. PMID 32424184. arXiv:1906.03138可免费查阅. doi:10.1038/s41467-020-16108-9可免费查阅. 
  82. ^ Nvidia claims 'record performance' for Hopper MLPerf debut. 
  83. ^ Development of a machine vision system for weed control using precision chemical application (PDF). University of Florida. CiteSeerX 10.1.1.7.342可免费查阅. (原始内容 (PDF)存档于2010年6月23日). 
  84. ^ Self-Driving Cars Technology & Solutions from NVIDIA Automotive. NVIDIA. [2025-02-28]. (原始内容存档于2025-02-22). 
  85. ^ movidius powers worlds most intelligent drone. 2016年3月16日 [2025年2月28日]. (原始内容存档于2016年8月9日). 
  86. ^ Qualcomm Research brings server class machine learning to everyday devices–making them smarter [VIDEO]. 2015年10月 [2025-02-28]. (原始内容存档于2016-08-08). 

外部链接

[编辑]