预测性维护的建模挑战用于钢铁厂预测性维护的智能系统-江苏省钢铁行业协会

预测性维护是通过监控设备的运行状况和使用情况来实施智能、动态和可扩展的策略。这导致越来越多的机构投资资源，以实现其当前维护策略的现代化。资产密集型钢铁行业也一直在采用预测性维护策略，作为现代化和关键竞争优势的一部分。有必要构建能够从操作数据中学习并主动指导维护团队的自动化系统。本文将分享在钢铁厂内建立和部署这种系统所面临的关键挑战，该系统目前正在多个关键设备上实时运行。

在智能制造环境中，监测和预测关键设备的运行状况是预测性维护策略的重要组成部分。随着边缘和云计算信息处理的快速发展，它能够在接近真实操作时间交付结果。机器学习和深度学习的最新发展表明，设备运行状况预测的成功算法越来越多。与人工编码的规则不同，这些算法通过学习机器状态的演变来生成预测。

本文介绍的研究工作结合了无监督和有监督的机器学习算法。提供给这些算法的时间序列数据由传感器特征（自变量）和目标标签（因变量）组成。自变量集可以扩展，以包括其他相关的工艺信息。无监督算法只对自变量集进行操作，通常可以识别由这些变量的子集所跨越的有意义区域。这些区域由它们与过程状态的关系决定，以确保可解释性。另一方面，有监督的算法在这种情况下需要一个目标标签，比如故障事件的时间标识。本文的目标是从自变量所跨越的空间中预测目标标签或目标标签的某个功能。需要强调的是，在无监督算法和有监督算法之间的正确选择通常是由故障动力学的复杂性以及一些关键建模挑战决定。

预测性维护的建模挑战

为维护团队设计和运作一个有效的维护方案需要考虑几方面因素。在构建一个数据驱动的方法时，从建模的角度来看，会面临以下挑战：1）需要几乎实时地分析来自多个传感器的流数据。2）生产环境下的传感器数据是有噪声的，并且会在不同的操作制度下发生变化。3）以足够的分辨率描述组件的故障模式是至关重要的。4）提前预测故障事件是重要的，以便维修团队采取行动。5）有限数量的故障标签或停机事件在选择正确的建模方法和确定模型的总体性能方面发挥着作用。6）利益相关者需要洞察导致故障的关键传感器的行为。

多流传感器——对于任何组件，都要监控多个传感器，因为相关的故障机制（模式）通常表现为多变量模式。这意味着模型应考虑传感器之间的相关性，而不是独立对待它们。当考虑到以极高频率对传感器值进行采样这一事实时，这些相关性具有挑战性。例如所用的传感器数据以高频率（如10ms）进行采样。由于模型是跨多种故障模式构建的，这就强调了需要一个可扩展的系统来训练和部署这些模型。

生产过程中的传感器行为——钢厂的生产过程需要每天多批次生产。因此，传感器的时间序列读数基本上是不稳定的，在运行期间可能会有很大变化。因此，操作环境，包括但不限于设定值、热/产品特性和其他操作变量，需要与传感器数据一起编码。

故障模式表征——组件可能通过多种机制或故障模式发生故障。对组件的运行至关重要的故障模式进行优先级划分是很重要的。如前所述，通过理解如何根据传感器数据描述故障的发生，有助于实现这一点。这确保了一个组件和跨组件的故障模式标记的一致性。

故障事件和故障数量——组件历史故障记录了发生故障时操作员采取的措施。这些动作序列有助于识别相关的故障模式和理解故障事件发生的时间。这与故障模式表征相结合，在实践中具有重要意义，因为它会影响故障标签的准确性，因为跨组件的故障事件数量相对较少。在事件发生之前（几小时/几天而不是几分钟之前）充分地预测这些事件是至关重要的，这样维护团队就可以根据预测主动采取行动。

模型可解释性——在模型训练阶段，系统从导致过去故障事件的传感器行为中学习。在近乎实时的推断阶段（实时运行）中，它预测是否有任何异常模式发生，以及故障事件发生的预期时间。为了让维护团队对这些早期警告采取行动，识别并与他们共享与预测故障事件相关的关键传感器是很重要的。这有助于他们更好地理解系统输出并建立信任。

智能设备运行状况应用程序

考虑到上一节中描述的挑战，并考虑到需要监控的大量设备，本文采用了一种系统化的方法来构建和部署模型。将模型构建过程分解为数据预处理、特征生成、模型开发等几个步骤，如图1所示。系统架构中每个步骤都可以进行设备配置，并将这些步骤整合到一个流水线中，用于训练和部署模型。数据预处理步骤从传感器等级、噪声、异常值和物理过程相对应的特殊情况等方面考虑输入数据的质量。特征生成步骤考虑特征构造和特征选择。数据预处理步骤和特征生成步骤都可以处理来自“生产运行期间传感器行为”的挑战。模型构建步骤包括两个阶段：第一个阶段涉及到Noodle.ai的异常检测模型（FlowOps Sentinel），它能捕获针对设备故障模式的异常产生；第二阶段包括Noodle.ai的可能发生故障的时间预测模型（FlowOps Precog）。该模型可以捕获不同传感器之间以及每个传感器在不同时间分辨率下的多变量交互。此外，预测模型还可以使用异常检测模型的输出。流水线构造还允许选择能提供最佳性能的模型超级参数。

建模结果案例

第一个案例是关于万向轴（解耦）故障的。在连铸机内部有26个这样的组件，每个组件有20多个信号。利用异常检测流水线，发现扭矩信号相对于正常运行表现出非常高的方差，根据警示信号的捕捉以及突出显示异常行为的时间序列，维修团队采取了积极行动，在事先计划的检测停止之前，松开变速箱并移走辊子，避免了组件故障。在某些情况下，在计划停机前一周出现警告，提前通知维修团队随时准备更换部件。

第二个案例是关于冷却回路堵塞，可能导致模板熔化并在生产线上造成灾难性故障。连铸机结晶器有8个冷却回路，每个回路超过24个信号。冷却回路内松动的金属部件可能导致阀门堵塞。根据它们的位置，这些松动的金属部件可能会锁定在阀杆上，阻止阀门关闭。这严重影响了结晶器的冷却能力，导致严重的故障。利用异常检测流水线，可以发现阀门位置和流量信号与正常运行的相关性偏离。根据捕捉警告的时间序列，可知这些警告可以进一步以状态（以不同深浅的颜色编码）来表征，其中每个状态捕获不同的传感器之间的关系。维修团队停机后检查冷却回路，冲洗回路，发现大量的松散颗粒。通过主动维护，他们避免了灾难性的事故，能够快速恢复作业。

除了产生异常外，还提供了额外的诊断来证明异常。包括突出显示导致异常模式的相关传感器以及捕捉这些传感器间关系的状态。同样，一个关键因素被指定为维护优先级。

一旦系统识别出异常，它还会提供组件可能出现故障的预期持续时间。这种预测是传感器模式和异常特征（状态、临界状态、持续时间等）结合生成的。基于操作需求，度量标准（在线和事件后）用于度量这些预测对维护团队的有用性和可操作性。在线度量是度量后续预测与先前预测的总体偏差，而事件后度量是度量预测是否与预测视锥一致。万向轴解耦案例中的预测周期为一小时（可按用户指定的周期性配置）。

记录故障标签中要面临的是噪音问题。为了解这种噪音的影响，在NASA公开的引擎故障数据集中，模拟了故障标签的延时记录。随机选择了一个数据集，并将其分为训练组、验证组和测试组。训练和验证数据的规模被更改，以适应只有相关故障数据子集可用的情况。对于训练和验证数据，加入了不同数量的扰动，而保持事件和事件的值，以解释未能准确捕获故障时间的原因。为此选择了两种设置：小型和大型，分别为7个周期和25个周期的扰动。训练数据和验证数据分别用于模型训练和超级参数调整。对测试数据（20台发动机）的预测值和实际值之间的平均绝对百分比误差进行了计算，它不受这里描述的场景的影响。表1显示了试验结果。观察到，对于有限数量的故障标签数据，记录故障时噪声的增加导致了更高的预测误差。为获得可接受的误差范围，需要解决这个问题。

机器学习可以指导钢铁制造过程中多种故障模式下的维修操作。由于多流传感器、噪声数据和多种操作模式，为现场生产运行构建可扩展的系统具有挑战性。本文介绍了一个解决这些挑战的系统，通过在无监督的方式下学习多变量传感器中的相关性，以产生早期预警。系统学习与时间有关的降级模式，以预测下一次故障的可能发生时间。与故障模型相关的模式通过计算传感器所起的作用来实现。本文还讨论了在钢厂实际实施的结果，以及如何通过主动指导来协助执行维护计划。应该再次强调的是，故障标签的质量对这些模型是极其重要的。一个关键的焦点是围绕捕获、记录和将故障事件归因到各自的组件来改进当前的流程。