高效节能的全新维护方式：状态检修

下载图片

我们生活在一个技术高度发达的数字化时代。数字设备和技术是如此丰富，以至于我们在任何地方都能见到它们的身影。我们所用的手机对数字信号的运算能力甚至比不久前的航天器还要强；在数字无线通信的帮助下，观看高清视频也完全不在话下甚至还可以同时观看好几个；数字智能设备正在使住宅和办公室实现自动化，这在十年前无疑是不可思议的。然而，从能源角度来看，全球范围内仍有超过一半的电能被用于驱动机电系统，即发动机、致动器、发电机等运动部件。令人惊讶或不出所料的是，随着电动汽车市场份额的不断扩大，机电系统的使用比例预计还将迅速增长。由于机械特质，这些系统在运行时势必会产生摩擦和振动，最终导致润滑油干涸、零件磨损、轴件错位、支架硬化和断裂等。因此，为确保机电系统的服务和性能水平，经常性的维护对于这些机器而言必不可少。

更智能的维护方式: 状态检修

我们在什么时候会决定维护设备呢？我们往往会通过一些明显的迹象（如完全故障）获知机器出现了故障，并以此作为制定维护决策的依据，但却为时已晚。例如，当空调不再出冷风后，我们才意识到空调压缩机出故障了。甚至有时，为你明确指出故障的，是你碰巧看见的比平时高出一倍的电费账单。

这可能是因为空调中的制冷剂慢慢泄漏并逐渐耗尽，导致空调工作强度需翻倍才能达到设定的温度。上述传统做法通常被称为故障维修。基于这样的策略，我们会任由故障进一步发展，直到出现明显、不容忽视的迹象，才意识到问题。可以想象，这种故障维修方式会给用户带来极大的不便。从用户角度看，设备或机器突然停机，我们不得不投入时间自行维修或安排维修人员上门。从费用角度看，这种维修方式成本高昂，因为维修时故障已经非常严重了。举个例子，一个月前可能只需进行一次简单的维修即可，比如扭紧支架上松动的螺栓。然而，如果不能及时察觉问题，一段时间后，松动的支架可能会在运行时脱落，造成灾难性后果，如导致电机轴变形，或是损坏周遭电子设备等。

在军事或商业应用等要求更为严格的环境中，需要防止设备出现突然、偶发和不可预测的故障，因此“定期维护”不失为一种替代方案，但这种方案需要投入一定的资源（人力、资金、时间、空间、设备等）。然而，定期维护依然无法在维护过程中发现所有的潜在问题，也就是说，设备仍然可能在执行任务期间发生故障。此外，随着设备组数量和成本的增加，若设备因定期维护而暂停运行，无论停运时间在设备总体可用时间中占多大比例，都必然会导致极高的成本。例如，假设一家芯片厂拥有一百台价格超过数千万乃至数亿美元的设备，且每台设备用于定期维护的时间占总体可用时间的1%，这便相当于芯片厂损失了一台这样的昂贵设备。由此可见，定期维护成本很容易突破数百万（甚至对于某些行业来说，数十亿）美元。在这样的成本量级对比下，花费1000万美元的“巨额”资金来解决因定期维护而导致的停运问题，也算是非常划算。此外，由于新冠肺炎疫情以及全球半导体产品供应短缺，若半导体芯片厂停缓晶圆生产，就算时间再短，也会造成极大的损失，因此应尽可能避免停运现象。

为了解决上述问题，状态检修（亦称为“预测性维护”）作为一种设备维护模式，正在迅速普及。状态检修，顾名思义，是试图通过监测设备状态来决定是否需要进行维护，其主要目的是在设备故障出现之前预测故障。状态检修通过分析连续的传感器数据流来获得关于设备健康状态的有用信息，并实时将值得注意的信息发送给决策者。

与故障维修和定期维护相比，状态检修可以在设备发生故障之前，甚至是在出现早期迹象（如上面提到的只需重新拧紧螺栓的例子）之前便发现问题，从而显著提高设备的可靠性。这一优势也体现在维修费用上，因为设备几乎没有发生损坏，需要修理的组件便更少。因此，维修工作可以更方便地交由普通工作人员完成，轻而易举地解决问题。此外，维修时间也将缩短，无需停运，或只在必要时停运极短的时间。因此，状态检修自然对于高科技制造业、海上平台、飞机和航天器等关键领域具有特殊意义。

图1：“状态检修”的概念

下载图片

然而，要让状态检修方式发挥作用，也有一定的条件：无论设备是否处于良好状态，都要提供设备状态的“连续”数据。此外，为详细了解设备的各种情况和状态，需要使用多个传感器来生成精细数据。在此过程中，传感器会不断产生大量的原始数据，必须对这些数据进行处理，才能提取简洁明了，并对决策者具有参考意义的有用信息。

我们不难想象，上述步骤涉及海量数据及计算，需要很多功能强大的硬件（例如强大的CPU/GPU、RAM和数据存储设备）来执行实时的复杂计算。此外，在设备内部和周围安装多个传感器也并非易事。将额外的传感器和计算资源整合或改装到现有设备中的做法并非总是可行的。即使可行，也需要涉及到相当大的工程量。实施状态检修的另一大障碍在于供电和网络方面的支持。我们要如何为新改装的传感器和计算资源供电？又如何将传感器的最终信息发送到决策者手中？

为信息物理系统（CPS, Cyber-Physical System）供电

让我们先思考第一个问题。如果附近有改装后的信息物理系统（CPS）适用的电源插座，那么供电的问题就很好解决（信息物理系统是近期出现的用来指代传感器节点、嵌入式系统或物联网（IoT）的热词）。然而，如果在信息物理系统和附近电源插座之间使用几英尺或几米的悬空电线连接，不仅有碍观瞻，还会给主机环境带来各种潜在风险，例如：电气和机械安全风险（毕竟这些都是会发生振动或移动的机械系统），主机系统电网的噪声和安全问题，以及潜在的电磁干扰问题。

鉴于上述问题，在许多情况下，“改装”后的信息物理系统预计会采用独立电源，而不允许接入公共输电网络。那么，我们如何针对信息物理系统打造“非侵入式”电源呢？首先，配备容量足够大的电池组可能是一个很有吸引力的解决方案。然而，仅仅依靠电池并不是一个长久的解决方案，因为电池最终需要更换或充电，也就是需要进行定期维护！这些因素基本上也使得自我供电机制（即无线输电或能量收集）成为唯一的方案。

无论是电感式还是电容式，无限功率传输（WPT, Wireless Power Transfer）都可以通过空气等介质传输大量电能，功率可达千瓦级。然而，这种传输需要在电网/主机端配备专门的发射器，“侵入性”问题便再次出现，而且问题的严重程度可比悬空电线要大很多。除非我们提前将无线功率传输设计在主机系统内，这种输电方案的高侵入性导致其并不具备吸引力，特别是对于最多消耗几毫瓦或几瓦的、用于监测的小型信息物理系统来说。

图2：无线输电与能量收集

下载图片

另一方面，能量收集并非从另一端的专用有源发射器处接收大量能量，而是被动地从环境能源（如光、温度、电磁场、振动、运动、摩擦等）中提取能量，因此自然不存在与主机系统输电网络有关的电力安装/连接问题。然而，在主机端并没有专门的发射器，这意味着功率和能量密度较低，因此要求在信息物理系统端配备大面积或大体积的收集接口。此外，环境能源有时也决定着运行环境。例如，光伏（PV, photovoltaic）和风能的收集设备通常需要在户外环境安装和运行。下表列出了常用的能量收集来源及其所需的接口大小。此处假设收集量为100毫瓦，这是用于支持小型信息物理系统监测合理的收集目标。

表1：不同能量收集来源间的比较

下载图片

通过传统布线来传输100毫瓦的电力很容易实现。实际上，你能找到的任何电线都可以轻松做到这一点（例如，你的USB充电线可以轻松传输5W=5000mW的电力）。能量收集的真正好处在于可以使信息物理系统独立于外部电源和布线系统，这样便能将其放置于几乎任何地方。在现实生活中，在我们的房子周围安装的由光伏电池供电的户外安防监控摄像头便是一个很好的例子。你不需要从几十英尺甚至几十米开外最近的电源插座接一条长长的电源线到你要安装摄像头的位置。你也不必担心需要在门上或墙上钻一个洞，然后把这个洞和里面的电线密封起来——这些都是安装户外电子设备的一大障碍。然而，如上所述，这种方法在室内是行不通的，因为在室内，光伏电池几乎毫无价值。

让我们更深入讨论一下为信息物理系统供电的能量收集方法，特别是针对处于运动状态的、大多在室内的机电系统，如图3所示的芯片制造厂内的自动化搬送（OHT,Overhead Hoist Transfer）装置。根据上表，对这些装置来说，压电能量收集、磁振动能量收集或交流磁场能量收集等方法最为相关。

图3：SK海力士芯片制造厂顶部运行的自动化搬送（OHT）装置。

下载图片

压电能量收集基于一种特殊的材料，该材料在压力作用下，能使接触表面双方产生电压。当电机振动并引起压电界面两层膜之间产生压差时，便会产生感应电压。将其连接至负载或储能装置，便可以从中提取能量/电力。

磁振动能量收集基于悬挂在刚性结构（传统上往往是一个金属悬臂）中的永磁体。随着机电系统的振动，金属结构和永磁体（特别是顶端部位）也会随之发生振动。根据大自然的基本物理原理，并且通过法拉第定律，可以将磁铁振动引起磁场变化转化为电压。通过连接负载，感应电压便开始流转电流，表明正向发电。这与无电池自行车轮灯的原理相同，当车轮旋转时灯便会亮起。

图4：无电池自行车轮灯如何自我供电

下载图片

交流磁场能量收集基于主机系统运行时产生的交流电流。同样，根据物理学，机电系统的交流电流会在其载流导线周围产生随时间变化的磁场。通过磁性材料和绕组线圈形成电磁耦合（类似于典型的变压器），磁场能量便可以得到利用。连接负载或电荷储存器（如电池或电容器）便可提取正向能量。这种方法非常有效，因为机电系统运行过程受到的监控恰好为能量收集提供了机会。与其他方法相比，这种收集方法的另一个好处是功率密度更高，而且本身不太容易出现机械问题。

无论选择哪种收集方法，最重要的一点是，只要为收集装置提供足够的空间或使功率负载降低至收集装置负载能力之下，信息物理系统是可以在电力和能源的角度完全实现无忧运行的。这推动了发展环境、社会和治理（ESG）标准的全球趋势。

信息物理系统中存在的问题：联网

要使信息物理系统向最终决策者传递信息，最简单方式是将其连接到现有的网络基础设施（如智能工厂的Wi-Fi或类似设施）。然而，根据主机环境的不同，这种连接并非总能得到保证。例如，出于显而易见的安全原因，军事/公用事业网络不允许外部网络设备接入。那么，为信息物理系统构建信息通道的一个可靠方法就是拥有自己的独立网络，而不依赖主机系统的网络资源——正如我们的自我供电收集装置一样。其中一个可行的方法是利用信息物理系统本身建立一个网状（或部分网状）的网络，因为这些系统很可能分散在广泛的区域内。结合能源采集，这种网状拓扑结构在更高层次上带来了一个有趣的挑战：将信息传递给最终决策者。

设想一个实际场景，其中数百个机电系统和信息物理系统散布在某个芯片制造厂中（例如各种泵、致动器和发电机等）。电机会在不同的时间内运行，且持续时间各不相同。各个通过能量收集供电的信息物理系统的“监测/睡眠”频率自然会有所不同。因此，总体而言，数以百计的自供电信息物理系统将按照自己的节奏和能量储备，不定期地上线和下线。根据当前处于活动状态的信息物理系统情况，来自某个信息物理系统的重要消息并不一定能有通向最终决策者的完整路径。在这种情况下，消息必须在更短的时间内存储在网络中的某个位置，以便最终能送达决策者，而不是返回原点。

图5：信息物理系统的两种架构方案

下载图片

“需要处理什么样的信息？”是我们下一个应当解决的问题。这涉及到信息物理系统的架构和数据结构。用于构建信息物理系统架构的方案通常有两种。1）具备强大的板载计算能力，可在本地生成“短信息或无信息”（状态信息），并通过低带宽通信发送；2）具备较小的板载计算能力和高带宽通信能力，可发送传感器生成的原始数据。显然，第一种方案花费极少的功率用于低带宽通信（如低功耗蓝牙），但代价是板载计算硬件的功耗普遍较大。由于设备的健康状况将在本地进行评估，因此“无信息”可能是健康电机的响应。第二种方案是花费极少的功率用于计算方面（例如，不对原始传感器数据进行处理），但代价是高带宽通信（例如，WiFi）方面会消耗大量功率。该方案无法在本地推断出健康信息，必须将整个传感器生成的原始数据发送给决策者进行“分析”。一般来说，每种选项都有其优点。然而，在这样的情况下，数百个信息物理系统会同时产生原始传感器数据，即使是千兆以太网级（Gbps）Wi-Fi网络也很容易出现超载。此外，每个信息物理系统必须能够临时存储数千兆字节或数万兆字节“同步和原始”的传感器数据，以防当下没有通向最终决策者的完整路径。根据这种存储要求，信息物理系统便不能仅仅是简单的小型监测设备了。因此，在这种情况下，方案一（具有强大的板载计算能力，采用“短信息或无信息”方法）要更合理、更可行且更易于管理。

所面临的挑战和对应的解决方案

基于振动传感器和电传感器数据推断状态信息通常需要进行复杂的数学运算（例如时间序列操作、域转换、过滤、窗口操作等）。此外，策略计算也是一项计算密集型任务：无论是要基于上百个信息物理系统在此前的联机和离线时间安排最佳消息传输路径，还是要在没有完整路径的情况下决定如何选择消息临时存储器的最佳位置。采用强大的CPU和/或GPU以及大量的RAM和高速数据存储系统来进行这类实时计算，通常需要几十秒的时间。而这样的计算系统可能会花费超过数千美元，瞬时功率更会消耗数百瓦以上，甚至数千瓦。上述限制远远超出了能量收集设备和中小型信息物理系统的合理运行水平。

借助于新兴的人工智能（AI, Artificial Intelligence）和神经网络（NN, Neural Network）技术，近期有研究文章【1、2】表明，在小规模信息物理系统计算能力开发方面取得了突破性进展。在复杂的数学运算过程中，功耗仅需数百毫瓦，而不是数百瓦，这意味着功耗降低了一千倍。这是因为人工智能和神经网络算法并不需要执行原始的复杂数学运算来推断最终的答案。人工智能和神经网络算法可以以极高的概率得到相同的答案，而不需要像在原始操作中那样进行真正的数学运算。最重要的是，完成计算过程只需要价值数十美元（甚至更少）的广泛可用硬件，而不是价值数千美元的强大计算硬件，这使成本降低了一百倍。由于不需要庞大且笨重的电源和冷却系统，计算硬件的物理体积和空间也相对更小。这要得益于高度面向目标的边缘计算设备，该设备由现场可编程门阵列（FPGA, field-programmable gate array）实现，并使用严格的硬件优化算法。简而言之，该设备可以非常快速且高效地进行一系列有限的高度优化计算，在这种情况下，人工智能和神经网络算法可以推断机电系统的“健康”信息。然而，这种设备并不像台式机或笔记本CPU那样无所不能。使用人工智能和神经网络来处理高度集中型任务，以及使用高度优化的硬件系统集成，可以在性能、功耗和成本方面获得极大的改善。

这些技术影响极大，适用性极强。在微型信息物理系统中实现板载计算（弥合大量连续收集的数据和较低带宽通信限制之间差距的最大障碍）终于成为现实。数据过滤、信号处理、压缩和智能网状网络路由等可以快速地在“本地”完成，其功耗和成本增加则可以忽略不计。在不久的将来，真正的“智能”设备将成为状态检修（亦称为预测性维护）的基础，此类设备可以像台式机一样进行任务计算，并且可以由微型能量采集器维持，而无需使用昂贵的锂离子电池。

人工智能和神经网络软件技术目前正以意想不到的方式攻克一些最具挑战性的工程问题。近年来半导体技术不断取得进步，以更低的成本提供了爆炸性增长的计算能力和存储容量，使得相关研究、设计和创新成为可能。包括SK海力士在内的半导体制造商将致力于满足关键硬件设备上软件技术的无限需求，包括用于深度神经网络的大量训练数据存储（多层4D NAND闪存和存储解决方案 –SSD/SD卡/等）、高速大容量存储器（DRAM – HBM/GDDR6+/DDR5/LPDDR5/等）和快速处理器。

图6：采用EUV设备的SK海力士1a纳米级动态随机存取存储器（DRAM）

下载图片

图7：SK海力士的176层4D NAND闪存

下载图片

【参考资料】

【1】 S. Kang，J. Moon，S. Jun，“基于低功耗IoT设备的FPGA加速时间序列挖掘”，2020年 IEEE第31届专用系统、体系结构与处理器国际会议（ASAP），2020年，第33-36页，doi: 10.1109/ASAP49362.2020.00015。
【2】 J. Chen，S. Hong，W. He，J. Moon，S. Jun，“Eciton：适用于边缘预测性维护的超低功耗LSTM神经网络加速器”2021年现场可编程逻辑和应用(FPL)国际会议。

文真永 博士

助理教授
电器与计算机工程
佛罗里达农工大学与佛罗里达州立大学工程学院

高效节能的全新维护方式：状态检修

更智能的维护方式: 状态检修

为信息物理系统（CPS, Cyber-Physical System）供电

信息物理系统中存在的问题：联网

所面临的挑战和对应的解决方案

相关帖子