导读:2012年伴随“工业4.0”概念的出现,工业大数据能够创造更大的潜在商业价值,核心就是将工业技术与IT技术进行结合,以挖掘工业大数据的价值。本文主要从工业设备的预测性维护(Predictive Maintenance),文中简称(PdM)这一角度出发展开详细介绍。
全文将会围绕下面五点展开:
01
PdM价值及发展历程
1. PdM的主要价值
①减少事故,减少故障停机
②降低维护成本
③商业模式转变
2. PdM 的发展历程
PdM 是工业设备维护历经百年后的终极产物,发展历程如下:
①事后维护
②预防性维护
③基于状态的维护
④PdM
--
02
PdM的常见技术路线
基于前文所述,PdM的技术路线部分主要会详细介绍基于状态的维护和PdM 这两个部分,主要技术涵盖大数据、物联网以及人工智能等诸多方面;基于状态的维护又被称为故障诊断,PdM 又被称为故障预测。
1. PdM常用技术路线
业内常用4种方法:
①信号处理
②机理 + 大数据
③数字孪生
④AI
综上所述,机理+大数据的方法和数字孪生方法,应该会成为未来的趋势。
2. 信号处理
针对一台工程机械,以大轴承为例,长期运转会不可避免地带来一些损坏。通过采集振动信号(如图所示,采集了4路振动信号),通过傅里叶变换、EMD、小波、包络等方法进行信号分解得到某时段内的时频谱;通过分析信号的频域特征,来推断轴承在什么时段可能会出现问题。
3. 机理+大数据
以某液压系统为例,左下图中的红色直线为该液压系统的基准线,然而事先并不知道斜率、截距等参数的具体取值;此时可以基于样本数据进行拟合,以推测出实际的参数值。如果设备运行良好,则散点应该集中分布在拟合直线的周围;图中列举了两种拟合不理想的情况:左图中,由于参数控制不当,图的右侧出现了“死区”,右图中,由于系统出现内泄,直线和红线的趋势产生了差异(说明在高压和低压状态下系统的特性是有所不同的)。基于此,我们可以通过斜率的绝对值与原厂的油泵特性理论值对比判断油泵整体效率,再通过高低压模式差异值反应液压系统内泄程度(性能退化程度)。
使用机理+大数据这种方法可以很大程度地减少对数据标签的依赖。
4. 数字孪生
(1)数字孪生介绍
数字孪生是个很宽泛的概念,这里所讲的数字孪生,主要是基于国际标准ISO23247/TC184工作组定义的数字孪生,包括数字孪生体和数字线程两个部分。数字孪生体是在虚拟空间构建的表征物理实体或业务过程实时运行状态的虚拟体,数字线程是连接物理世界和数字孪生体的通道。
通过设备的原理和运行数据,将数据给到模型,模型通过自我学习和动态调整将分析结果输出到终端软件中,由终端软件控制和反馈物理对象和业务过程,最终形成闭环。上述闭环以数据为基础,以模型为核心,以软件为执行载体,这是数字孪生的主要实现手段,而实现闭环的链路通道就是我们常说的数字线程。
(2)使用数字孪生实现PdM
基本步骤如下:
相比机理建模或参数特征建模,该方法可节省50%以上时间。
(3)数字孪生PdM 技术原理
在数字孪生PdM 领域,常用的方法是相似性模型。
传统方法的故障预警是预先设定报警阈值,一旦监控到数据超过阈值,就会发出警报;然而这种方法存在滞后性,即发出警报的时刻设备已经故障了,因此即使报警也无法避免设备的停机甚至损坏。更好的方法是将这个固定的阈值转化成动态的阈值,不同时刻、不同工况下,监控信号的报警阈值都是动态变化的,这样就可以基于设备的不同运行工况进行实时报警。
基于数字孪生的PdM ,主要包括异常识别(预测模型)和故障推导(故障机理)这两个部分。
可以拿我们自身做一个形象地比喻:我们在跑100米的时候会有一个正常范围的心跳值。同样,在跑1公里、跑20公里的时候,以及在安静状态甚至睡眠状态下,分别会有不同的心跳范围。基于过去半年或者一年累计的数据进行统计,可以推算出当今某种特定状态下(例如跑200米)身体的机能是否和往年比有所下降,进而而可以判断出自己身体的是否健康。
因此,基于数字孪生做PdM 的核心思想是:
--
03
PdM时序数据库选型
1. 原始需求
基于上述方法在IoT方向上做PdM ,无论是汽车行业还是工程机械、批量机械设备等方向,都会涉及大量设备的监测和分析;因此,如何在海量数据中应用上述方法对设备进行PdM,并精准分析出每台设备的分析结果,都是一项具有挑战性的工作。
例如,针对以下场景:
①对某现场2W台设备进行维护
②每天会产生100~200G的数据量
③Kafka消费每秒可达1.5W条
④通常涉及低频大查询和高频小查询
⑤往往需要进行周期性滚动计算
⑥每台设备每天进行超过500个指标的计算
⑦涉及5类,累计超过20个算法模型
⑧算法逻辑往往通过python开发实现而不是SQL
2. 数据库选型——窄表vs宽表
基于以上原始需求,带来了一个核心问题——使用窄表存储还是宽表存储。从运维人员的角度考虑,使用窄表会更加便于维护,因为窄表的列名是固定的,不会发生改变;从业务应用的角度考虑,使用宽表会使业务语义更加清晰,可以快速获得某一特定指标的某一段时间的数据。
从存储角度来看:
基于以上需求,通过调研,对比了常用的PostgreSQL、GreenPlum、MatrixDB、TD-Engine等数据库的优劣,最终选择了MatrixDB作为存储工具,可以实现2W台设备,每天100~200G的数据量,每台设备每天进行超过20个算法模型、超过500个指标的计算分析需求。
3. MatrixBD数据库使用效果
MatrixDB数据库是个超融合数据库:
--
04
PdM案例与价值故事
1. 堵管问题分析
无论是数据库的提供方,还是作为使用数据库的甲方,甲方会关心收益。因此,PdM需要更多地聚焦在客户的痛点上,抓住要点,给客户提供看得到的价值,客户的问题会逐渐得到解决。
2. 故障问题线下闭环
--
05
一点思考
无论企业规模大小,制造业的数字化转型人才大多来自互联网,首先带来的必然是互联网的最佳实践:围绕Hadoop + Spark + HIVE 等搭建生态,这是第一层认知。
转型初期,上述生态的确可以承载企业急需解决的部分数字化的问题,比如“研产供销服”对应的业务数据的打通、各种KPI的计算、BI类的报表等,解决一部分问题,这是第二层认知。
当转型进入深水区,比如在研发侧,公司研发的设备客户哪里不满意,我需要怎样的改进,改进的效果如何?在生产侧,我的生产管理流程如何优化,我如何提升工厂生产的各类指标?当我们面临这些问题时,才发现,每一个问题都需要分析海量的数据,并且分析的方式再也不是统计、聚合类的,而是要结合工业机理的,甚至是要逐条地分析,基于Hadoop的那套生态几乎彻底不能承载我们快速开发算法、调度算法的性能需求。此时,公司面临的将是要么不断贴膏药勉强维持,要么再斥巨资引入适应这些需求的IT技术,这是第三层认知。
令人遗憾的是,大多数先驱公司都是从第1条慢慢往后演进的,不过同样令人欣慰的是,也有越来越多的人看到这个过程,在业务初期就尝试运用像MatrixDB这样的跨界产品来一站式解决问题。
--
06
问答环节
Q:为什么TDengine+Spark不是最优选择?
A:TDengine需要用Spark集群做分析,而Spark从数据入库到分析,存在诸多的不稳定性。而使用Hadoop+Spark的方式,要比使用MatrixDB分析效率慢7-10倍。
Q:在工业领域,除了时序数据,是否还有其他数据类型和时序数据协同分析?
A:在PdM 方面,大部分还是来自IoT时序数据;在一些极端情况下,会有描述设备本身标识的维度数据,比如设备的每个子系统、每个零部件的供应商、编号、部件特性等的维度数据。这类数据作为关系型数据库,可以被兼容到MatrixDB这样的超融合数据库中。
Q:频域能否做PdM 研究?
A:虽然在风电等领域,频域分析仍占半壁江山。但是由于其成本的原因,其扩张速度正在收敛,甚至呈现出下降的趋势。随着成本竞争日趋激烈,很难大规模部署传感器;另一方面,从存储成本角度考虑,也很难支持大量1kHz甚至10kHz这类高频数据上云。因此,在物联网、大数据领域,更多地会使用机理+大数据,以及数字孪生这两种方式进行PdM。
Q:是否分析过 IoTDB 或者 MatrixDB 结合 model in 将数据下载做离线计算?
A:这方面没有具体尝试。不过只要是先将数据下载进而离线分析计算,这类工作都会增加工作的难度,降低工作的效率。团队之所以放弃Hadoop+Spark的方式,正是因为这类方式需要预先下载数据进而分析计算。分析和存储查询分离的方式,一般会出现大量的数据迁移,通常情况下会降低分析的效率。
Q:工业时序领域哪些时序类函数是强需求?例如异常检测、预测类算法等,如果集成在数据中,开发效率会不会更友好?
A:工业领域的数据分析和互联网领域存在截然的不同:工业数据分析,很难用一个公式解决大量设备通用问题。信号处理方法在一定程度上可以解决一大类通用问题的分析,但是采样率要求很高,因此会带来成本的增加,从而导致适用范围的局限性;因此,大部分企业会使用机理+大数据,以及数字孪生这两种方式,而这两种方式不具备通用性,对于不同设备甚至同一设备不同型号,机理模型都会发生变化。因此,工业领域的机理模型或者数据模型,很难得到抽象的、通用的、能够注入到数据中的模型;因此通常做法是先获取相关数据,进而通过不同的尝试,最终确定模型。
今天的分享就到这里,谢谢大家。
阅读更多技术干货文章、下载讲师PPT,请关注微信公众号“DataFunTalk”。
分享嘉宾:封杨博士 小米 高级算法专家
编辑整理:王吉东 昆仑数据
出品平台:DataFunTalk
分享嘉宾:
关于我们:
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。
欢迎转载分享评论,转载请私信。
留言与评论(共有 0 条评论) “” |