国内或国外 期刊或论文

您当前的位置: 发表学术论文网电子论文》 基于数据挖掘的装备质量信息分析处理技术研究综述> 正文

基于数据挖掘的装备质量信息分析处理技术研究综述

所属分类:电子论文 阅读次 时间:2022-04-02 10:48

本文摘要:摘 要:对装备质量信息进行分析和处理是准确掌握装备性能状态,提高装备保障水平的关键。随着计算机技术与信息技术的不断发展和大数据的运用,部队亟需装备质量信息分析处理技术以充分利用装备质量数据资源,基于数据挖掘的装备质量信息分析处理技术正逐渐成为装备保障

  摘 要:对装备质量信息进行分析和处理是准确掌握装备性能状态,提高装备保障水平的关键。随着计算机技术与信息技术的不断发展和大数据的运用,部队亟需装备质量信息分析处理技术以充分利用装备质量数据资源,基于数据挖掘的装备质量信息分析处理技术正逐渐成为装备保障领域的重要研究方向。从因果分析、关联分析和数据处理几个方面论述了装备质量信息分析处理的研究内容,梳理了数据挖掘的方法,并阐述了国内外研究现状。简要分析了各类数据挖掘技术面向装备质量信息分析处理不同研究点时的适用性。探讨了基于数据挖掘的装备质量信息分析处理面临的主要问题及其未来发展方向。

  关键词:数据挖掘;装备质量信息分析处理;因果分析;关联分析;数据处理

数据挖掘技术

  装备质量信息是装备在设计、生产制造、使用、维护等各阶段与质量相关的信息,贯穿于装备的整个生命周期,反映装备质量要求、状态、变化和相关要素及其相互关系。装备在全寿命周期内,质量特性会伴随使用过程呈现逐渐退化的趋势,部分装备则会出现显性故障。由于装备全寿命周期内的质量影响因素复杂多变,造成其质量退化特性和故障规律难以把握。

  事实上,全寿命周期内除了研制阶段,在使用阶段还会积累大量使用过程中产生的质量相关信息,例如:装备贮存、勤务、使用、维修等方面的信息,在这些大量的装备质量相关信息中蕴含着装备质量退化特性、故障规律等关联信息,如果加以充分利用,将对装备质量管理提供有力支持。传统的数据分析方法可大致分为基于时间维度的分析方法、基于概率统计的分析方法和基于失效物理的分析方法。

  数据挖掘评职知识:数据挖掘工程师发表论文期刊推荐

  此类方法的共同点是需要对原始数据进行抽样,得到数据样本,从有限的样本空间中寻找出特征和规律,追求算法的复杂性和准确性。大数据分析方法直接对全体数据进行分析而不需要数据样本,所面对的数据量大大增加,更追求算法的高效性,应降低算法复杂度,提高运行速度,尽可能采用精简高效的模式对数据集进行分析。大数据分析方法和传统数据分析方法的区别主要体现在分析对象和算法的要求上,而且传统数据分析方法还存在数据样本规模涵盖不全面影响分析结果的问题。大数据运用是继云计算和物联网之后信息技术领域又一次重大科技变革。

  但是面对数据的巨量增加、数据种类繁多和数据格式迥异,如何从海量数据中获取有价值的信息,成为了大数据运用的核心问题。作为一种对数据高效处理和全面利用的技术,数据挖掘技术是应对上述挑战的有效手段之一。应用数据挖掘技术进行装备质量信息分析处理,能够从大量数据集中发掘出有价值的知识、规则或高层次的信息,将为装备质量信息资源利用奠定基础,为破解装备保障相关问题与提升装备管理保障科学化水平发挥重要作用。

  1 装备质量信息分析

  处理研究内容装备质量信息是组织实施装备质量管理的基础,也是进行装备使用、维修、保障以及改进装备设计的重要依据。美军从上世纪 50 年代起就已经认识到装备质量信息管理的重要性,由国防部依托综合数据交换网进行全国性的装备质量信息管理,各军种和军事基地建立信息系统,提供装备全寿命周期各阶段的相关数据。

  国内相关研究工作也取得了许多成果,余磊运用本体技术实现了装备 PHM信息的标准化描述,解决了信息异构问题,研究了装备 PHM 领域本体语义推理和本体检索技术,在此基础上设计并建立了信息共享系统,实现了装备PHM 信息共享[1]。准确掌握装备的性能质量状况是完成作战任务的重要前提。

  由于传统装备性能质量评估方法存在效率较低、主观因素影响大等问题,黄睿等提出运用系统工程理论及分析方法设计某型导弹性能质量评估系统,结合导弹质量信息,实现了性能质量的评估与预测[2]。装备质量信息分析处理的研究内容可分为因果分析、关联分析、数据处理几个方面。因果分析是纵向的,能够从结果中探寻原因或者由原因预测结果;关联分析是横向的,得到的是事物之间的相互作用和相互影响,从不同的维度分析装备质量数据可以更准确清晰地发掘其背后隐藏的知识,必要的数据处理能够提高数据质量,保证发掘过程的顺利实施。

  1.1 质量信息因果分析

  装备质量信息因果分析主要包括故障诊断、故障预测和剩余使用寿命预测等内容。故障诊断的实质是故障检测和故障隔离的过程,目的是对装备发生故障的类型、部位和原因进行诊断。基于模型的故障诊断方法需要依据先验知识分析装备部组件以及分系统之间的联系,为其建立相对准确的数学物理模型,从而实现对整个系统的状态监测和故障诊断[3]。

  数据驱动的故障诊断技术运用多种不同的数据挖掘方法从海量的运行数据中提取和分类故障特征,不依赖系统的先验知识和准确的数学物理模型,能更好地适应新一代武器系统发展需要,因此近年来这方面的研究取得了许多成果。数据驱动的故障诊断方法包括基于多元统计的方法、基于深度学习的方法、基于信号处理的方法以及基于定量 AI 模型的方法。故障预测是为了预测装备的运行趋势,为维修策略的制定提供支持。

  目前常用的故障预测方法可分为定性预测和定量预测,其中定量预测包括基于数据的预测和基于模型的预测。基于模型的方法需要建立较为准确的数学模型,不适用于复杂装备。基于知识的方法中最具代表性的是专家系统,由于知识难以自动获取且开发周期较长,其应用范围受到限制[4]。基于数据的方法旨在利用装备运行过程中产生的大量数据提取信息,不需要确定的数学模型,适用性较强,而且能用于弥补专家系统存在的缺陷[5],此类方法包括深度学习、灰色模型、极限学习机、随机森林等。

  剩余使用寿命是系统或部件可继续正常使用的时间长度,剩余使用寿命预测技术是装备 PHM的关键技术。剩余使用寿命预测方法分为基于模型的预测方法和基于数据驱动的预测方法这两类。基于模型的方法难以建立复杂装备的退化模型,不适用于描述其退化过程,此类方法主要有粒子滤波、卡尔曼滤波等[6]。基于数据驱动的方法不需要对象的先验知识,以装备各个阶段的测试数据、传感器历史数据为基础,经过分析得到数据和剩余使用寿命之间的映射关系,此类方法包括卷积神经网络、循环神经网络、深度置信网络和自编码器等[7 8]。

  1.2 质量信息关联分析

  装备质量信息关联分析主要包括参数关联分析、装备性能退化因素分析和装备故障关联分析等内容。参数关联分析的目的是找出装备之间或者质量参数与性能指标之间的联系,例如,导弹装备的“存储温度”和“存储时间长度”可能会共同对“陀螺转速”产生影响,这种关系是很难从质量数据中直接判断的,如何发现这些关联关系需要深入研究。帅勇等人利用 FP Growth 算法构建了文本数据的FP Tree,推理出了某型装甲装备动力系统关键参数之间的关联关系,提出了基于综合模型的可靠性参数选择算法[9]。王魁提出的测试参数体系分析技术,梳理了导弹装备各级组成间测试参数的关联,优化了测试方案,提高了测试覆盖程度[10]。装备性能退化是武器装备在使用过程中,部分性能指标随着时间的推移而逐渐下降的过程。性能退化因素分析的目的是探寻装备性能退化的影响因素,如外部环境变化、内在特性变化等。

  装备性能退化分析的方法可分为失效物理建模方法和数据驱动建模方法两类。失效物理建模方法需要分析失效机理,根据物理或化学反应规律建立基于失效物理的退化模型,应用较为广泛的模型有反应论模型[11]和累积损伤模型[12]。数据驱动建模方法直接从装备性能测试数据和状态监测数据中挖掘出隐含的性能演变规律,而不用考虑装备内部的退化失效机制,此类方法包括退化轨迹方法[13]、随机过程方法[14]等。故障关联分析能够寻找装备故障之间的关联关系,发现关键部位之间的故障伴生规律。

  国内外专家学者在这方面开展了相关研究,如基于 N 1 校验的故障相关性网络、基于事故链信息的故障关联矩阵、电机故障关联分析等[15]。对于复杂装备,常用的故障检测方法往往只能得到相对独立的故障信息,无法获悉其中隐含的关联关系,运用数据挖掘技术对大量故障数据开展相关性分析是解决这一问题的有效途径。文献[16]提出了一种航空设备故障关联分析方法,将 Apriori 算法用于挖掘航空设备故障关联关系并进行了验证。

  1.3 装备质量数据处理

  装备质量数据处理主要包括数据清洗、数据增强、数据离散化等内容。数据清洗起初是为了解决美国社会保险号码的纠错问题,现如今已经在许多领域得到了应用。随着军队信息化建设的不断推进,人们能够在装备全寿命周期内获取越来越多的质量相关信息。在获得这些数据之后,通过数据挖掘技术希望能从中抽取出有价值的知识。为了得到满足装备管理需求的有价值的信息,就要求所获得的数据具有可靠性,同时能够准确反映装备实际情况。

  但事实上,人们获得的第一手数据往往含有噪声,如果不预先进行清洗处理,其中不准确数据、异常数据以及人为造成的错误数据等可能影响数据挖掘效果甚至最终结论的准确性。沈小军等提出的风电机组运行数据清洗方法根据拉依达准则,将服从正态分布的数据中超过3倍标准差的数据值视为异常值进行消除[17]。

  文献[18]提出运用决策树分类模型来实现数据清洗,相对于传统的数据清洗算法在性能上得到了提高。四分位法根据实测数据进行离群值分析处理,实现异常数据清洗,但此方法在异常数据比重较大时识别效果不佳[19]。处理大量异常数据时可采用支持向量回归算法,其核心是用函数拟合数据[20]。K means算法能够实现异常数据的快速识别,且具有较好的准确性[21]。

  K 最近邻算法及其改进方法对于数据缺失值的处理具有较好的效果[22]。实际采样收集到的装备运行状态数据中,正常数据样本量大,而故障数据样本量小且对应的各种故障类型样本分布不均衡。样本数据的不平衡特性将严重影响基于数据驱动方法的有效性。

  为实现数据驱动的武器系统电子元部件级故障诊断技术的工程应用,解决数据质量问题,杨华晖研究了电子元部件故障小样本数据的增强方法,建立了基于生成式对抗网络的故障小样本数据增强模型,提出了基于多标签一维 AC GAN 的数据增强方法,并以电压整流器晶体管故障为例进行了验证[23]。装备质量相关数据中包括部分连续量,故数据离散化也是必不可少的数据准备环节之一。离散化是将连续的值域划分为若干个区间,每个区间对应一个值,最后将连续数据转化为离散量。

  离散化数据对存储空间的需求较小,形式更简洁,能够保证一些数据挖掘方法的顺利运行,提高数据挖掘的效率。离散化算法主要有:PKID 算法,近似等频离散化算法,基于聚类的离散化算法,ChiMerge 算法,基于粗糙集的离散化算法,CAIM 算法[24 25]。一些专家学者在开展自身科研工作的同时,对所涉及的数据处理方法也进行了研究改进。袁浩恒提出了一种并行比较并获得最优离散化的数据准备算法,针对不同数据集,先进行特性检测以获得其分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理[26]。

  白堂博等人在文献[27]中指出了传统的均匀区段划分法、加权划分法和模糊指数法等离散化方法存在的问题,提出了基于符号聚合近似的关联规则挖掘方法,对振动信号进行特征提取之后利用符号聚合近似方法进行数据离散化。从装备质量信息分析处理的研究现状来看,装备质量信息因果分析与关联分析所采用的方法可大致分为基于模型的方法和基于数据的方法这两类。基于模型的方法针对特定型号的装备时分析结果较为精确,但其对系统先验知识要求较高,难以满足复杂装备的需求。

  基于数据的方法不依赖装备先验知识,方法适用性较强,不局限于特定对象,能更好适应新型装备结构复杂、系统内部关联紧密的特点,但其训练周期较长,且对信号与数据要求更高。装备质量数据处理的研究相对较少,仍有一些问题有待解决,数据清洗面临异常数据处理不充分与隐藏有用信息过度剔除之间的矛盾;提高数据质量是数据驱动方法实现工程应用的基础性研究,面对海量装备质量数据时仍存在较大困难;数据离散化仍面临离散化过度、离散化质量不高、有用信息丢失等问题。

  2 数据挖掘的方法

  数据挖掘就是从大量数据中获取有用信息的过程,其实质是综合应用各种技术对数据进行处理和训练,得到能够反映输出数据与输入数据之间关系的模型。根据解决的问题和处理数据的方式,数据挖掘的方法可以分为回归、分类、聚类、关联规则、预测和离群点检测这六大类。回归是确定两种以上参数之间定量关系的一种统计分析方法。

  根据因变量的个数或者回归函数的类型可将回归方法分为一元线性回归、一元非线性回归、多元线性回归、多元非线性回归这几类,此外,逐步回归方法[28]和 Logistic 回归方法[29]也是常用的回归方法。回归可用于装备故障预测、剩余寿命预测、性能评估、数据清洗等研究,适合定量分析,回归方法的选用比较灵活。分类是通过分析已知类别的训练集得到分类规则,再用分类规则为新的数据划分类别的方法。

  目前分类方法的研究成果主要包括:决策树方法、BP 神经网络方法、贝叶斯分类、K 近邻算法、判别分析、支持向量机等[30 32]。分类方法可用于故障诊断、寿命预测、装备作战效能评估、机内测试技术等研究,不同的分类方法各有优劣,每一种方法都有特定的应用领域,但是通常只适合解决某一类问题。聚类是将原本没有类别的对象聚集成由类似的对象集合组成的若干个类或者簇的过程。

  目前聚类算法可以分为层次聚类、划分聚类、基于模型的聚类、基于网格的聚类和基于密度的聚类这几类,其中实践应用较多的是 K means、神经网络聚类、模糊 C 均值聚类、层次聚类、高斯聚类等方法[33 35]。聚类可用于故障诊断、装备维修辅助决策、维修性分析、数据离散化等研究。关联规则挖掘是发现数据项集之间关联关系的过程,常见的算法有 Apriori 算法[36]和 FP Growth算法[37]。关联规则被广泛应用于装备故障关联分析、性能退化因素分析、可靠性工程等研究中,对于隐藏知识的发掘具有优势,但面对较大规模的数据集时,其效率不够理想。

  数据挖掘中的预测是依据现有的数据建立数学模型,从而对未来的数据进行预测。预测方法有灰色预测[38]、马尔科夫预测[39]、回归方法[40]、神经网络[41]、最小二乘法[42]、平滑预测法[43]、自回归模型[44]、自回归移动平均模型[45]等。预测适用于装备故障预测、剩余寿命预测等研究,优点是能够定量地描述事物的变化程度,依据历史数据而不受主观因素影响,缺点是灵活性不够,不适合处理变化较大的数据。离群点是数据集中的少量异常数据,可能是噪声数据,但也可能包含有用信息,离群点检测的目的是发现这些隐藏的知识。

  经典的检测方法可以分为基于统计学的方法、基于距离或邻近度的方法、基于密度的方法和基于聚类的方法。离群点检测通常用于数据处理,提高数据分析的准确性。近些年离群点检测的方法研究取得了一定进展。对于装备质量信息分析处理涉及的不同内容,都有其适用的数据挖掘方法,质量信息因果分析适合采用回归、分类、预测或离群点检测方法,质量信息关联分析主要运用关联规则,装备质量数据处理适用聚类、分类、回归或离群点检测方法。

  3 面临的问题及未来研究方向

  我军针对装备质量信息分析已开展了一定的研究工作。在因果分析方面,故障诊断的相关研究较为广泛和深入,不论是技术方法的探索还是体系框架的构建都取得了丰硕成果,提高复杂装备故障诊断的准确度是需要重点解决的问题,智能诊断、综合诊断等是近些年的研究热点。故障预测的相关研究更倾向于技术与方法的改进,在航空装备上得到了更为广泛的应用。

  剩余寿命预测通常将装备中某个分系统或零部件如发动机、传感器、电池、轴承等作为研究对象,对于具体问题的研究程度较深。在关联分析方面,参数关联分析和装备性能退化因素分析的研究相对较少,主要开展算法优化或者建立模型等工作,故障关联分析受到的关注较多,其应用也更广泛,研究人员依据不同的对象提出了许多有效的方法。

  在数据处理方面,数据清洗、数据增强、数据离散化等通常是为满足特定需求而实施的,专门的研究较少,仍有较大发展空间。随着我军现代化建设的不断推进,新一代武器系统得到了更为广泛的运用,新型装备全寿命周期内的质量影响因素复杂多变,使得其质量退化特性和故障规律难以把握。传统的定期维修、视情维修等方法在故障诊断的准确性、故障检测与排除的及时性、保障效率以及维护成本等方面存在一定的弊端,难以适应新形势下装备保障需求的发展。

  依托“装备云”等平台,利用数据挖掘技术进行装备质量信息的分析处理为解决这些现实矛盾,提高装备质量问题分析能力、装备质量评估能力和装备预防性维修能力开辟了新的途径,为提升装备管理保障的科学化水平提供了有力支持[46 48]。对于数据分析,目前我军采用的方法包括深度神经网络、偏相关分析、关联规则分析、大数据分析等[49 51]。

  3.1 面临的问题

  目前,一些专家学者已经将数据挖掘技术运用于装备质量管理知识发现、装备使用质量信息分析、装备故障智能诊断方法、装备设计质量综合评估方法、装备故障诊断系统等领域的研究,并提出了装备质量信息分析处理的构想,初步建立了基于数据挖掘的装备使用质量信息管理系统框架,探索了装备故障诊断的方法,对数据挖掘算法开展了深入研究。但是,利用数据挖掘技术实现装备质量信息分析处理还面临一些问题:

  1)数据挖掘是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域,将数据挖掘技术用于装备质量信息分析处理的研究具有一定的难度,而且部队相关条件建设还不够完善,如“装备云”等平台仍处于规划和发展阶段,因此,目前研究将数据挖掘技术运用于装备质量信息分析处理的学者较少。现有的研究主要是提出系统框架设计方案或者提供研究思路,在问题的解决方法和具体实践工作方面比较欠缺。

  2)许多专家学者对数据挖掘技术进行了深入的研究,取得了丰硕的成果。经典的数据挖掘方法思路简单且技术成熟,但是挖掘效率不高,如果参与挖掘的装备质量相关数据涉及的项目较多,效果可能不理想,将影响复杂装备质量问题分析能力。改进算法种类繁多,不同算法的设计理念与实现思路各异,在特定的应用背景下具有良好的运行效果,但相关研究不够成熟,对于解决其他问题是否同样适用需要论证。

  3)数据处理是解决原始数据存在问题,保证数据挖掘顺利进行的重要步骤。目前有些与数据挖掘相关的文献对数据准备阶段工作的论述和数据处理方法的研究比较欠缺。一些学者用于挖掘的数据不是原始数据,但未将数据准备纳入到研究范围内,而是用人工方法转换了部分数据,在数据量较大或者数据质量不高时效率较低。对于数据清洗的理论研究还不够成熟,不同的数据离散化方法对于装备数据挖掘的适应性有待验证。

  3.2 未来研究方向

  目前,基于数据挖掘的装备质量信息分析处理技术研究仍有许多工作亟待完成,未来研究方向主要体现在以下几个方面:

  1)装备质量相关数据是质量信息分析处理的基础。装备全寿命周期内积累的大量信息通常以多种形式存在,例如以结构化数据形式存在的数据表格、以半结构化数据形式存在的自描述性文本、以非机构化数据形式存在的描述性文字等。对于特定类型的装备,针对其质量监控和寿命评估、作战使用及延寿整修决策需要,甄别筛选与装备质量相关的数据,归纳提炼形成质量信息集,构建全寿命质量信息数据体系。2)根据装备质量数据挖掘工作需要,研究针对不同问题的数据清洗方法和具有普遍适用性与高效率的数据离散化算法,提高装备质量数据处理效果。

  3)运用云技术,研究特定型号装备全寿命质量数据资源建设。结合在贮存、使用、勤务、维修等环节质量数据的生成特点,研究终端节点装备质量数据的采集、存储和管理机制,利用云存储的分布式优势,实现数据的终端采集,云端处理。

  4)结合装备质量数据的特点,立足部队装备管理实际需求,利用关联规则挖掘方法,发掘出质量参数之间的关联关系,运用分类、预测等数据挖掘方法,分析装备质量退化原因及故障发生规律。研究装备质量信息挖掘方法,评估算法的适应性并设法改进。优化方法方面可以在与其他算法、技术进行融合或各种改进方式综合使用上取得突破。5)依托数据挖掘技术和云技术,打破传统的层级式保障模式,探索装备全寿命质量信息资源应用机制与方法。根据不同应用场景和功能需求,构建云终端应用,设置终端软件,实现数据采集、数据查询、数据处理、数据分析、质量评估、维修预测等功能。

  4 结束语

  数据挖掘是从大量数据中挖掘出有用信息的过程,通过挖掘数据中隐含的信息,可以得到平时难以获取的知识和事物背后隐藏的规律。基于数据挖掘的装备质量信息分析处理的实质是运用数据挖掘技术从大量装备质量相关数据中采掘出其中的关联关系和因果关系,从而探寻装备质量退化特性和故障规律,充分发挥质量数据的效用,进而破除传统装备保障方法存在的弊端。

  基于数据挖掘的装备质量信息分析处理技术为提高装备质量问题分析能力、装备质量评估能力和装备预防性维修能力拓展了思路,能够为提升装备管理保障的科学化水平提供有力支持。如何解决现有研究中面临的问题,使基于数据挖掘的装备质量信息分析处理技术在实际工程应用中发挥更大作用,将是未来的重要研究方向。

  参考文献

  [1] 余磊. 基于本体的装备 PHM 信息共享技术研究[D].石家庄:陆军工程大学,2017.

  [2] 黄睿,刘小方,郑祥. 某型导弹性能质量评估系统设计与实现[J]. 火炮发射与控制学报,2019,40(2):88 92

  .[3] 蔡金燕,韩春辉,孟亚峰. Analog circuit testability forfault diagnosis[J]. Tsinghua Science andTechnology,2007,12(S1):270 274.

  [4] HU LQ,HE CF,CAI ZQ,et al. Track circuit faultprediction method based on grey theory and expertsystem[J]. Journal of Visual Communication and ImageRepresentation,2019,58:37 45

  .[5] 王亮,吕卫民,滕克难,等. 基于数据驱动的装备故障预测技术研究 [J]. 计算机测量与控制,2013,21(8):2087 2089+2105.

  [6] RAHIMI A,KUMAR K D,Alighanbari H. Failureprognosis for satellite reaction wheels using Kalman filterand particle filter[J]. Journal of Guidance,Control,andDynamics,2020,43(3):585 588.

  作者:李馥林,孟晨,范书义

转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/29919.html