人工智能(AI)半导体的现状与未来

人工智能（AI，artificial intelligence）技术在当下的应用非常广泛，以至于有人预测，人工智能在未来20年内，可能会开始超过人类智慧并威胁到人类的生存。

在不知不觉中，从车牌识别、语音识别、自动驾驶，到翻译、自然语言互动和游戏，人工智能技术正在不同的领域展现出显著的成果。而在作曲和绘画等被认为不可能通过技术复制的“纯人类行为”的创造性应用中，人工智能也有出色的表现。

技术对人类解决问题能力的复制，源于与早期计算机表现完全不同的神经网络¹计算方法。

目前，许多研究人员正试图通过使用这种人工神经网络来解决现有方法难以解决的问题。而从21世纪开始，它成为与量子计算（Quantum computing）²共同获得最多关注的一种新的问题解决方式。传统计算机执行的算法是以基于布尔代数（Boolean Algebra）³的数学模型的冯·诺伊曼（von Neumann）架构设计的。在20世纪，它是解决问题的最佳工具。然而，我们已经进入以人工智能为特色的21世纪，它为我们带来了一种完全不同的能力。

图1：早期人工神经网络模型发展时间轴

Image Download

虽然神经网络技术最近才被应用，但它有很长的历史。在人工智能研究的早期阶段，有各种模仿人类决策能力的人工智能技术：如专家系统，它组织知识并使其正规化，以提出解决方案；更如基于脚本的对话代理，实现了人类与计算机的互动。神经网络在当时也是一种解决问题的方法，但被认为太过原始，有太多的局限性，无法实现商业化。

图2：人类大脑中的神经元

Image Download

从根本上说，神经网络的基础是大脑的机制。在神经解剖学证明了神经网络由神经元和神经元之间的突触组成后，沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts）在1943年开发了一个神经网络的数学模型。在1969年以前，这种被称为感知器模型的数学模型进行各种逻辑运算的能力被不断证明。1969年，著名数学家马文·闵斯基（Marvin Minsky）和西摩·佩珀特（Seymour Papert）指出，感知器模型只能解决线性方程，甚至不能学习简单的XOR函数⁴，这促使许多人把注意力转移到其他地方。此外，学习和确定突触权重的方法具有挑战性，却是神经网络计算的关键。这使得该方法更难投入实际应用中。

图3：人工神经网络

Image Download

2010年，多伦多（Toronto）大学的杰弗里·辛顿（Geoffrey Hinton）教授提出了一种简单但具有突破性的方法，即采用一种叫做线性整流函数（ReLU，Rectified Linear Unit）的激活函数。它将使计算机能够在不失去准确性的情况下，通过穿透多层来学习突触重量，本质上是进行从输出到输入的知识反向传播。这是神经网络研究历史上的一个转折点。而在2012年，辛顿教授的研究小组发表了AlexNet，一个将深度神经网络的学习方法应用于图像分类的架构，这是计算机视觉领域最具挑战性的问题。可以说，AlexNet的出现大大克服了现有技术的局限性。

在这个过程中，卷积神经网络（CNN, Convolutional Neural Net）模型被引入，该模型模拟了猫眼在视网膜捕捉图像后并进行处理的视网膜结构。最终，这一模型达到了与人分析图像的方式相当的性能水平。深度神经网络是指具有超过10个隐藏层的深度垂直结构的神经网络，而一般的神经网络只有4到5层。在这样的过程中，需要的计算工作量是巨大的，由于用时极长，它很难在现有的计算机上使用。但科技公司英伟达（NVIDIA）利用为显卡开发的图形处理单元（GPU, Graphics Processing Unit）的计算能力，以大规模的并行处理功能来构建深度神经网络（DNN, Deep Neural Networks），以解决传统方法无法解决的问题，并在短时间内实现突触权重的训练。

这导致了巨大的进步。DNN被用于许多其他应用，许多研究人员亦竞相研究新的DNN结构。因此，以DNN为代表的人工智能解决问题的能力迅速发展，并渗透到许多应用领域，成为解决困难问题的万能药。

人工智能半导体

正是以GPU为中心的硬件的发展，使DNN得以从理论基础发展到应用。如果没有GPU的强大计算能力，人工智能的发展将是非常缓慢的。

但要最终创造出超越人类能力的人工智能，需要比今天更强的计算性能。因此，关键点便在超越当前GPU的下一代人工智能半导体中。

我们已知人类的神经元（neuron）大约有850亿个，连接神经元的突触比实际的神经元多1，000至10，000倍。为了模拟人脑，需要约85万亿至850万亿的突触权重，也需要一个大型存储设备来存储这些数值。

这种规模的计算结构超出了目前半导体制造的能力，但预计专门设计的人工智能半导体（AI芯片）可以处理它。据预测，由这样的人工智能系统组成的半导体芯片将面临性能的快速提高、指数级的市场化以及应用范围的扩大。预计到2024年，市场将增长到约52万亿韩元（约440亿美元），到2030年更将增长到140万亿韩元（约1200亿美元）。

图4：人类神经元和突触数量的对比

Image Download

根据应用领域的不同，人工智能半导体大体上可以分为云服务芯片和边缘计算芯片。对于这两类芯片，所要求的规格差别很大，而这两个市场的规模预计是相似的。而根据功能的不同，人工智能芯片还可以分为两个专门的领域：用于推理以及用于数据训练（一般也囊括推理功能）。

推理指的是根据已经训练过的内容将输出传递给输入的单边计算。它主要是由8位或更低精度的矩阵向量乘法组成。相比之下，用于训练的芯片需要16到32位（bit）的高精度，对各种数据批次进行训练，以此来快速训练大量的数据。这需要进行矩阵和矩阵间的运算，带来更大的计算量，并比简单推理消耗更多的能量。然而，一旦进行了训练并定义了突触权重，工作就会转移到大量专门用于推理的低功耗AI芯片上。

专用AI半导体

作为云服务市场的最强者，谷歌（Google）在专注于更有效地运营人工智能服务方面领先于其竞争对手。谷歌特别清楚，它需要一个专用的专业处理器，以更快、更有效的方式处理人工智能中使用的深度学习工作负载计算。现实上，使用科技公司英伟达的GPU是最合理的选择，但GPU从根本上说是用于图像渲染和执行光线追踪计算的。因此，它采用了可编程的单指令、多数据（SIMD，Single-Instruction, Multiple Data）处理器结构。虽然它为处理高速游戏图形进行了优化，并且由于它是可编程的，所以可以用于各种应用，但对于DNN来说，它的效率很低，缺乏执行前沿人工智能应用的深度学习或机器学习工作负载的效率。

此外，GPU支持图形数据，这与人工智能所需的数据不同。同时，计算方法也存在差异，这意味着虽然它能提供有用的功能，但在能源效率方面是不利的。为了克服这些限制并开发谷歌自家专用于人工智能服务的处理器，该公司在2013年组建了一个处理器架构团队，开始开发张量处理单元（TPU，Tensor Processing Unit）。到2015年，谷歌开发的半导体芯片开始被应用于自家云服务中。该芯片的具体功能和组成直到2017年才被披露出来。TPU有一个巨大的矩阵，所持有的突触权重能有效地执行DNN的推理功能，同时还有使每层输入向量翻倍的功能。它的性能也通过采用收缩结构而得到显著改善，以便在不浪费时间的情况下实现必要的并行和流水线计算。

这里，张量指的是二维以上的多维矩阵。谷歌开发的第一款芯片仅用于二维的推理，没有训练能力，而第二款TPU芯片则可以计算多维函数，同时也有训练能力。

谷歌TPU⁵

谷歌的第一代TPU特定应用集成电路（ASIC, Application-Specific Integrated Circuit）采用28纳米工艺制造。这款TPU被用于围棋比赛——一项被认为是仅靠传统计算机难以与人类棋手对抗的游戏，并被用于设计人工智能驱动的围棋程序AlphaGo。在2016年3月的谷歌DeepMind挑战赛上，该TPU以4比1的比分击败了9段的职业围棋选手李世石。这次胜利表明，人工智能的能力已超过了人类的能力。

TPU芯片从根本上说是推理的加速器，不适用于训练目的，即指学习权重，这是DNN处理的另一个方面。此后，谷歌在2017年宣布了第二代TPU v2，2018年宣布了v3，2020年宣布了v4，不仅可以加速推理，还可以加速训练。而且它采用了下一代2.5D（2.5维）高带宽内存（HBM，High Bandwidth Memory），而不是以前的DDR内存作为外部存储器。

HBM作为一种新型内存出现，明显优于以前服务器中大多使用的DDR DRAM。它有4或8个垂直堆叠的DRAM芯片，存储容量比以前更大。它还可以通过分配2000多条连接线，并通过硅中介层（Silicon Interposer）连接，而不是以前大多使用的印刷电路板（PCB, Printed Circuit Board），显著提高了输入/输出性能。因此，HBM已经成为构建高性能系统的一种重要存储器。

图4：SK海力士的HBM3

Image Download

如今，SK海力士已开始生产HBM2E，并成功开发了下一代标准HBM3，保持了市场的领先地位。在开发人工智能专用芯片的过程中，系统管理数据对于找到最有效的结构是非常必要的。由于谷歌运营着大型的云服务中心，要获得所需的数据量并不困难。它可以收集关于识别实际工作负载组合的各种数据，了解服务效率的瓶颈，以有效管理其人工智能服务。因此，谷歌能够建立系统，持续开发基于数据优化的AI加速器。由此可见，谷歌预计将能够通过开发各个应用领域的新芯片来不断应对变化。

英伟达的GPU⁶

与此同时，英伟达继续开发新的模型，将GPU作为可编程处理器，不仅用于图形，而且有效地用于人工智能，它们的设计具有应对各种应用的灵活性，却缺少谷歌为少数特定应用优化的TPU所具有的性能和能源效率。对于英伟达来说，为继续开发有竞争力的GPU，从谷歌（Google）、Facebook、亚马逊（Amazon）和微软（Microsoft）等云服务运营商那里收集各种应用的工作负载组合等操作数据是非常重要的。另外，英伟达必须继续专注于芯片开发，以便在不断变化的应用领域保持竞争力。

定制化AI半导体

今天，设计和制造处理器已不再是英特尔、AMD或三星电子等专门企业的专利。任何人都可以使用高度先进的设计自动化工具进行有效设计，并通过提供尖端加工的代工厂生产具有优化功能的定制处理器。事实上，Apple在iPhone的应用处理器（AP, Application Processors）中使用了自己设计的芯片，甚至为过去使用英特尔芯片的电脑设备Mac设计了自己的中央处理器（CPU，Central Processing Unit），极大地提高了Mac的性能和能效。

Apple M1芯片的最高性能型号是M1 Max，其频率最高可达3.2GHz。它有570亿个晶体管和10个内核，与英特尔最新的第11代i9处理器相比，其性能和能源效率都超乎寻常地好。另一方面，英特尔处理器的一个弱点是由于与过往处理器的命令行兼容问题，难以采用优化的处理器结构。因此，为专业应用开发优化的独特处理器的趋势在未来将继续下去。

对于云服务运营商来说，选择使用一般的处理器还是针对某些DNN应用的专用处理器，服务质量会存在巨大的差异。然而，设计和开发这样的芯片将需要大量的资金和资源，这意味着只有少数大型云服务运营商可以考虑以收益超过成本的方式开发AI芯片。伴随着这一趋势，许多专门从事半导体设计的独立公司正在开发性能超过英伟达GPU的用于云服务的通用AI芯片。然而，开发具有竞争力和高效的AI芯片，需要获得云服务运营商管理服务过程中收集的大量工作负载组合数据。因此，AI芯片专业的无晶圆厂设计公司必须与云服务提供商进行联合开发。

¹神经网络（Neural Network）：通常称为人工神经网络，是受构成动物大脑的生物神经网络启发而产生的计算系统。
²量子计算（Quantum Computing）：一种利用量子态的集体特性（如叠加、干涉和纠缠）来进行计算的计算方式。
³布尔代数（Boolean Algebra）：代数的一个分支，其中变量的值是真值真和假，通常分别表示为1和0。
⁴XOR（Exclusive or 或 Exclusive Disjunction，即“排他性”或“排他性分离”）：“排他性”或“排他性分离”是一种逻辑运算，当且仅当其参数不同时（一个为真，另一个为假）才为真。
⁵张量处理单元（TPU，Tensor Processing Unit）
⁶图形处理单元 (GPU, Graphics Processing Unit)

郑德均博士

Professor
Electrical & Computer Engineering
Seoul National University(SNU) College of Engineering