涨姿势!揭秘设备智能运维的特征工程

2020-07-03 11:27:31 admin 26

数字化时代,推动世界运转的是数据。然而原始数据需要经过提取、训练才能被算法理解,才真正具有使用价值。

今天,向大家介绍的便是让数据具有价值的重要一步——特征工程。

No.1 什么是特征工程

业界流传:“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。

特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。

特征工程前期处理包括数据探索、数据清洗、特征预处理。后期处理则包括特征选择、特征构造和特征提取。

图片关键词

图片关键词

特征工程的内容

No.2 怎么做特征工程

特征工程主要有下面几个步骤:

步骤一 数据探索

在数据探索过程主要考虑两个方面。

  1. 数据说明查看

    看原始数据以及数据说明文件,对数据有一个整体的了解。

  2. 数据初步筛查

    通过人工查看的方式,对数据本身做一个比较直观的了解,然后对数据做初步的整理分类,剔除没有必要的数据。

根据数据的特征和目标,确定后续的数据清洗方法。

步骤二 数据清洗

  1. 数据格式内容错误

    数据来源有多种,有些是传感器采集,然后算法提取的特征数据;有些是采集的控制器的数据;还有一些应用场合,则是用户/访客产生的,数据肯定存在格式和内容上不一致的情况,所以在进行模型构建之前需要先进行数据的格式内容清洗操作。

  2. 逻辑错误清洗

    主要是通过简单的逻辑推理发现数据中的问题数据,防止分析结果走偏,主要包含以下几个步骤:

  • 数据去重,去除或替换不合理的值;

  • 去除或重构不可靠的字段值(修改矛盾的内容);

  • 去除异常点数据。

步骤三 数据预处理

  1. 数据相关分析

    数据相关性分析是为了剔除数据中相关程度高的特征成分,对数据进行初步的降维,为后续的模型训练做准备。

  2. 数据不平衡

    在实际应用中,数据往往分布得非常不均匀,也就是会出现“长尾现象”,即绝大多数的数据在一个范围或属于一个类别,而在另外一个范围或者另外一个类别 中,只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太少,所以需要对数据进行重构。

步骤四 特征选择、特征构造与特征提取

特征工程的后期方法根据应用领域不同,使用的方法完全不一样。在互联网领域,主要是应用特征选择的方法。在计算机视觉、语音信号处理,自然语言处理主要是特征提取。在设备智能运维领域,则主要是特征提取与特征构造两种方式。在此不做详细描述。

图片关键词

No.3 设备智能运维常用的特征工程方法

设备智能运维主要是通过传感器获取设备的监测参数,然后利用机器学习的手段去实现设备的健康评估与故障诊断。设备健康评估与故障诊断的准确性与特征提取息息相关。设备智能运维上常用的特征工程方法,主要集中在数字信号处理领域。常用的方法有如下:

1.  时域统计指标分析

对清洗后的数据,提取时域统计指标,利用时域统计指标来对设备的状态进行状态监测、健康评估与故障诊断。这种方法主要用于一些非旋转机械的场合。例如往复式运动设备。求取的指标主要是有效值,方差,峰峰值,峭度指标,歪度指标,峰值因子、裕度因子等。

2.  频域分析

频域分析方法主要是快速傅里叶变换(FFT)以及相关的一些方法,例如包络解调,细化谱分析,倒频谱分析等。主要是通过对采集数据进行频谱分析及类似的分析,提取设备运行的特征成分,构成监测部件的特征向量。主要应用在旋转设备监测的场合。例如风机、水泵的监测,齿轮箱、大型汽轮机组等各种旋转机械的场合。例如齿轮的监测,提取齿轮啮合频率能量和边带成分能量。

3.  时频分析方法

传统上,我们常用傅里叶变换来观察一个讯号的频谱。然而,这样的方法不适合用来分析一个频率会随着时间而改变的讯号。时频分析方法提供了时间域与频率域的联合分布信息,清楚地描述了信号频率随时间变化的关系。常用的时频分析方法有短时傅里叶变换(STFT)、小波分析、希尔伯特黄变换等。

No.4 特征工程在设备智能运维的应用

下面以寰球设备智慧运维系统为例,分析一下特征工程在设备智能运维的应用。

寰球设备智慧运维系统是面向制造行业推出的一款产品化设备健康管理系统,集数据采集与分析、设备状态监测、故障预诊与健康管理和智能决策为一体,专为旋转类设备运维提升效率、增强可靠性与安全性而设计。

图片关键词

寰球设备智慧运维系统框架

寰球设备智慧运维系统,在特征工程方面使用了多种不同方法:

01 基于统计信号特征的异常值剔除

利用统计学数据分布原理,对信号中的异常值进行剔除,确保了数据的准确性。

02 基于时域信号的统计特征提取以及特征指标相关分析

提取时域统计信号指标,并利用相关分析方法,剔除了多余的特征,降低了特征数据的维度,进而降低了云端算法模型的复杂度。

03 基于设备运行机理的特征参数提取

不同设备运行特征不一样,寰球设备智慧运维系统,在特征提取方面,充分了解了设备运行机理,利用FFT、包络分析,信号积分等手段准确提取了代表设备运行的特征成分,确保了设备监测的有效性。例如对电机的监测,获取电机运行速度,提取了设备转速频率幅值,此指标可以很好的反应电机输出轴的状态。

04 基于主成分分析的数据降维

为了兼顾系统准确性与算法模型的复杂度,在特征工程中,专门使用基于主成分分析的降维算法,对特征向量矩阵进行了降维,在兼顾状态监测与故障诊断准确性同时,大大降低了云端算法模型的复杂度。

好啦,今天关于特征工程的介绍就到这里。

特征工程是数据处理的重要构成部分,特征的选择对模型的解释性和性能都有影响,值得大家去重视。希望我们这里所叙述的概念和经验,对你有所启发。那么,我们下期再见!

想要了解寰球设备智慧运维系统,欢迎来拍一拍寰球哦~


电话咨询
产品服务
解决方案
QQ客服