傳遞信息,分享正能量
在這里找尋
每一個發(fā)展歷程的足跡
了解從這里開始
瀏覽【27345】 2021-09-17 22:30:00
伴隨裝備制造業(yè)的不斷革新,產(chǎn)生了自主維修、狀態(tài)檢修等新型設(shè)備健康管理模式,極大地推進(jìn)了設(shè)備健康管理的創(chuàng)新與發(fā)展。而這些新模式的基礎(chǔ)和核心就是故障預(yù)測與健康管理(Prognostics and Health Management, PHM)技術(shù)。
一、什么是PHM?
PHM技術(shù)是指釆用傳感器信息、專家知識及維修保障信息,借助各種智能算法與推理模型進(jìn)行設(shè)備運行狀態(tài)的監(jiān)測、預(yù)測、判別以及管理,實現(xiàn)低虛警率的故障檢測與隔離,解決傳統(tǒng)維修過程中存在的“維修不足”及“維修過?!钡葐栴},有效提高設(shè)備的可用性、減少保障費用,并最終達(dá)到設(shè)備狀態(tài)的智能維護(hù)及智能任務(wù)規(guī)劃的目的。
PHM 技術(shù)將設(shè)備管理與運維從事后維修、計劃檢修推向了狀態(tài)檢修階段,提供故障從發(fā)現(xiàn)到解決全過程一體化方案。核心功能包括:狀態(tài)監(jiān)測、故障預(yù)測、原因分析、策略匹配、計劃保障、維修輔助、維修保障等。
二、統(tǒng)計分析和機器學(xué)習(xí)在PHM的應(yīng)用
為保障系統(tǒng)功能的精準(zhǔn)性與高效性,以統(tǒng)計分析和機器學(xué)習(xí)等大數(shù)據(jù)挖掘技術(shù)為代表的故障預(yù)測與診斷方法逐漸被應(yīng)用于PHM領(lǐng)域,快速推進(jìn)了PHM 技術(shù)的發(fā)展。
相關(guān)技術(shù)和方法包括統(tǒng)計分析、概率推理、分類預(yù)測、綜合評價等,已經(jīng)在實時狀態(tài)監(jiān)控、故障判別、健康預(yù)測及輔助決策等多個場景得到應(yīng)用和落地,并取得了非常不錯的效果。
1、實現(xiàn)設(shè)備的多層級監(jiān)控預(yù)警
監(jiān)控狀態(tài)是設(shè)備健康管理體系中重要的一環(huán),設(shè)備狀態(tài)監(jiān)測需要對設(shè)備運行參數(shù)、運行狀態(tài)等數(shù)據(jù)進(jìn)行實時監(jiān)控和預(yù)報警推送。
目前,設(shè)備的安全預(yù)警閾值更多是依賴人工經(jīng)驗對設(shè)備當(dāng)前監(jiān)控指標(biāo)設(shè)定安全警戒線,缺乏科學(xué)的依據(jù),容易出現(xiàn)由于預(yù)警值設(shè)定較低導(dǎo)致虛警率過高問題,或是因為設(shè)置預(yù)警閾值過高,導(dǎo)致報警時就已經(jīng)發(fā)生了不可逆的故障。
基于這種情況,企業(yè)期望在傳統(tǒng)經(jīng)驗預(yù)警的基礎(chǔ)上加入更加科學(xué)的數(shù)據(jù)分析方法,實現(xiàn)多級預(yù)警。
基于統(tǒng)計分析實現(xiàn)科學(xué)的閾值劃分
通常設(shè)備出廠設(shè)定的閾值叫做其安全預(yù)警,也是多級預(yù)警體系中的一級預(yù)警。在此基礎(chǔ)上,可以通過數(shù)據(jù)分析的方法來構(gòu)建二級預(yù)警,二級預(yù)警的解決思路是運用異常檢測的方法,對歷史數(shù)據(jù)進(jìn)行統(tǒng)計分析,形成靜態(tài)或動態(tài)工況的參數(shù)閾值。
此類方法常見的有基于箱線圖的異常檢測、基于分位數(shù)的異常檢測、基于Z-Score的異常檢測以及基于拉依達(dá)準(zhǔn)則的異常檢測等。在實際使用過程中,可以通過模型的不斷更新來生成動態(tài)參數(shù)閾值,這樣做的好處是使得參數(shù)更加符合設(shè)備當(dāng)前的運行狀況。
比如,我們在汽輪機設(shè)備監(jiān)測預(yù)警過程中,針對主汽母管溫度閾值的確定,使用了基于箱線圖的異常檢測方法。如下圖左側(cè)是箱型圖方法,右側(cè)是基于這種方法得出的閾值。與設(shè)備根據(jù)經(jīng)驗確定的一級預(yù)警值共同提供預(yù)警服務(wù),圖中不連續(xù)的點是因為并未對全部的工況進(jìn)行劃分,這主要是考慮到數(shù)據(jù)量的因素。
基于回歸預(yù)測實現(xiàn)異常提前發(fā)現(xiàn)
設(shè)備狀態(tài)監(jiān)測指標(biāo)為運維人員提供當(dāng)前的設(shè)備運行情況,但如果設(shè)備出現(xiàn)狀態(tài)異常時,比如已經(jīng)或即將達(dá)到設(shè)備故障的臨界點,則留給運維人員的維修時間較少,因此,需要提前對設(shè)備的運行狀態(tài)進(jìn)行異常預(yù)警。
關(guān)于設(shè)備運行狀態(tài)的指標(biāo)預(yù)警,主要是對各個運行指標(biāo)進(jìn)行預(yù)測。其中,不但要考慮指標(biāo)自身變化,還需要考慮其它指標(biāo)變化對該指標(biāo)的影響。
針對這類問題,常用回歸預(yù)測方法進(jìn)行建模預(yù)測,包括線性回歸、嶺回歸、SVR、梯度提升回歸樹、XGboost回歸等等。而關(guān)于回歸算法的選擇,可以嘗試多種算法進(jìn)行預(yù)測與對比,并從中選取誤差較小的一種算法。當(dāng)然,在指標(biāo)選擇時還會運用到相關(guān)分析、方差分析等方法進(jìn)行指標(biāo)選取。
以汽輪機上“低溫省煤器入口溫度”預(yù)測為例,通過相關(guān)指標(biāo)分析確定影響該指標(biāo)的因素有發(fā)電機功率、鍋爐給水流量、主汽門蒸汽壓力、冷段再熱母管蒸汽壓力。同時,確定上述指標(biāo)與目標(biāo)指標(biāo)之間的時間差,并基于此來構(gòu)造200多個指標(biāo),然后運用線性回歸、嶺回歸、SVM回歸、XGBoost回歸四種方法進(jìn)行建模預(yù)測,其中XGBoost回歸效果最佳。
值得一提的是,隨著預(yù)測時間長度的變化,預(yù)測準(zhǔn)確度評判指標(biāo)R方有一個衰退趨勢,在這組數(shù)據(jù)預(yù)測中,預(yù)測近1分鐘的數(shù)據(jù)R方為0.97,10分鐘的值R方衰退到0.91,30分鐘R方衰退到0.78。在實際使用中需要根據(jù)業(yè)務(wù)需要確定預(yù)測時間范圍,同時,如何減緩衰退也是模型要改善的目標(biāo)之一。
基于歷史趨勢擬合實現(xiàn)異常預(yù)警
對于結(jié)構(gòu)相對簡單,或可變參數(shù)相對較少的設(shè)備,由于其指標(biāo)之間相互沒有影響,在進(jìn)行故障預(yù)警多圍繞單個指標(biāo)進(jìn)行分析。這里,可以根據(jù)歷史故障發(fā)生前后指標(biāo)的變化進(jìn)行趨勢的擬合,再以擬合好的公式對新的數(shù)據(jù)進(jìn)行判斷,提前發(fā)現(xiàn)異常。
比如,在判斷動車上牽引變流器冷卻系統(tǒng)濾網(wǎng)是否堵塞的故障時,冷卻系統(tǒng)油溫/水溫變化就是一個非常關(guān)鍵的指標(biāo),我們可以對濾網(wǎng)清理后到堵塞前這段時間的溫度變化進(jìn)行擬合。它們之間的關(guān)系可以是線性也可以是非線性的,根據(jù)實際情況進(jìn)行選擇,但注意在選取數(shù)據(jù)的時候一定是要選擇在相同工況下的數(shù)據(jù),同時對于不同次故障前指標(biāo)的變化需要進(jìn)行無量綱處理。
進(jìn)一步地,對兩次濾網(wǎng)堵塞情況(一次輕微堵塞、一次嚴(yán)重堵塞)在上次清理到堵塞前的數(shù)據(jù)進(jìn)行對齊處理,通過對指標(biāo)標(biāo)準(zhǔn)化后,選擇指數(shù)擬合、logistic擬合、二次擬合、增長擬合等多種方法進(jìn)行擬合,然后通過誤差分析來選擇最好的一種擬合算法。
在模型擬合好之后,再將輕微堵塞和嚴(yán)重堵塞兩種情況分別在曲線上進(jìn)行標(biāo)注,這時輕微堵塞的溫度增長率為0.108,嚴(yán)重堵塞的增長率達(dá)到0.21,在實際應(yīng)用中可以在列車運行過程中對每天的溫度與上一天溫度的變化進(jìn)行預(yù)警,而預(yù)警值要在輕微堵塞之前,比如0.09。
2、實現(xiàn)智能化故障診斷
前面提到針對不同指標(biāo)/測點的監(jiān)測和分析,可以獲悉單個指標(biāo)/測點當(dāng)前是否超出范圍,以及未來一段時間的狀況。
在實際的應(yīng)用過程中,部分單個測點可以直接表征一類故障,但更多時候,一個故障的發(fā)生可能會引發(fā)多個測點表現(xiàn)異常。而且,不同的故障可能導(dǎo)致的異常程度不一致。
那么,如何根據(jù)這些異常測點精準(zhǔn)地定位到具體的故障類型呢?根據(jù)應(yīng)用場景的不同、設(shè)備的不同、采集數(shù)據(jù)類型的不同,有不同的故障診斷方法。
基于多指標(biāo)異常檢測實現(xiàn)故障預(yù)警
前面講的都是基于單個指標(biāo)通過閾值進(jìn)行異常預(yù)警,在實際應(yīng)用中,我們會發(fā)現(xiàn)一種故障對應(yīng)的異常點可能會出現(xiàn)多個,且多個部位之間有連鎖反應(yīng),其中的某一個部位異常不足以說明問題,需要結(jié)合多個部位的數(shù)據(jù)綜合判斷才能給出明確的答案。
針對這類問題可以選擇異常檢測方法,異常檢測方法一般分為四類:基于統(tǒng)計的Robust Covariance、基于密度的局部離群點檢測LOF、基于劃分的Isolation Forest以及基于分類的One-class SVM。
比如,對于列車齒輪箱溫度故障,僅用一個軸端溫度不足以說明故障的產(chǎn)生,還需要結(jié)合同側(cè)溫差和溫升等數(shù)據(jù)進(jìn)行判斷。這時,使用異常檢測算法是一個不錯的選擇。通過對比不同算法檢測出異常的準(zhǔn)確率和召回率,可以實現(xiàn)多種不同算法之間的比較,以此來確定哪種算法最優(yōu)。
基于分類預(yù)測實現(xiàn)故障診斷
對于復(fù)雜設(shè)備,由于設(shè)備故障的產(chǎn)生是由多個因素綜合導(dǎo)致的,在這種情況下,使用傳統(tǒng)方法進(jìn)行判斷的準(zhǔn)確性并不高,還需要綜合考慮各方面的因素進(jìn)行預(yù)測。同時,由于設(shè)備故障類型多樣,還需要對不同的故障分別進(jìn)行分析。在這方面,基于分類的機器學(xué)習(xí)方法得到了較為廣泛的應(yīng)用。常用的分類算法包括:決策樹算法、隨機森林分類、梯度提升樹分類、神經(jīng)網(wǎng)絡(luò)、SVM分類、貝葉斯網(wǎng)絡(luò)分類、Xgboost分類等。
比如,在針對油浸式變壓器進(jìn)行故障的時候,故障的類型有局部放電故障、高能放電故障、低溫過熱故障、高溫過熱故障、油道堵塞故障、絕緣老化故障等等。我們提取設(shè)備運行過程中的油中溶解氣體含量指標(biāo),包括c2h6、co2、n2、o2、c2h4、ch4、co、h2、c2h2,將故障作為目標(biāo)指標(biāo)進(jìn)行分類模型構(gòu)建。我們在實際中使用了梯度提升樹算法、支持向量機算法和隨機森林算法,并取得了不錯的效果。
基于綜合評價實現(xiàn)設(shè)備健康評估
在實際的生產(chǎn)中,大型設(shè)備一般包含多個關(guān)鍵部件,想要了解整體設(shè)備的健康狀況,可以使用綜合評價方法進(jìn)行設(shè)備健康評估。此方法是基于業(yè)務(wù)理解及設(shè)備構(gòu)造分析,對設(shè)備關(guān)鍵部件所對應(yīng)的評價指標(biāo)進(jìn)行梳理,從而構(gòu)建綜合評價模型,并對設(shè)備及其各部位進(jìn)行全方位的評價。該方法的好處在于,一方面,可以對設(shè)備進(jìn)行綜合監(jiān)控、及時預(yù)警;另一方面,可對設(shè)備發(fā)生異常現(xiàn)象的情況進(jìn)行原因追溯,指導(dǎo)維護(hù)人員快速定位設(shè)備問題。
設(shè)備健康狀態(tài)評估一般使用的指標(biāo)包含幾個方面:設(shè)備上監(jiān)測指標(biāo)、設(shè)備部件的消耗情況、設(shè)備生產(chǎn)過程中的生產(chǎn)效率、產(chǎn)品質(zhì)量、物耗狀態(tài)等。
例如,在對煙草生產(chǎn)過程中的某成型設(shè)備進(jìn)行健康狀況綜合評價時,我們構(gòu)建了“評價維度-評價要素-評價指標(biāo)”三級綜合評價體系,從設(shè)備效率表現(xiàn)指數(shù)、產(chǎn)品質(zhì)量放心指數(shù)、設(shè)備物耗評價指數(shù)三個維度進(jìn)行總體評價,每個維度下又分為若干評價要素,每個評價要素下分若干個評價指標(biāo),最終得到設(shè)備健康狀況綜合得分,發(fā)現(xiàn)設(shè)備綜合得分降低后,可以快速追溯到是哪方面的原因?qū)е碌?,便于企業(yè)運維人員快速維護(hù)。
基于性能劣化的壽命預(yù)測
由于觀測設(shè)備全生命周期內(nèi)的變化非常困難,因此這里說的壽命預(yù)測主要是針消耗類產(chǎn)品或?qū)υO(shè)備上的消耗件/周轉(zhuǎn)件(如輪胎、軸承、刀具、電池、剎車片等),不考慮設(shè)備整體的剩余壽命。此類部件壽命預(yù)測多是通過歷史數(shù)據(jù)發(fā)現(xiàn)部件在設(shè)備性能、生產(chǎn)效率、生產(chǎn)質(zhì)量等方面的劣化趨勢,然后通過曲線擬合的方式,構(gòu)建部件全生命周期內(nèi)的設(shè)備性能/效率/質(zhì)量趨勢曲線,進(jìn)而通過當(dāng)前部件的性能劣化表現(xiàn),反推其處在生命周期的具體階段。
3、提高故障原因/策略的發(fā)現(xiàn)效率
傳統(tǒng)設(shè)備故障診斷主要依靠人工經(jīng)驗進(jìn)行原因分析和策略匹配,企業(yè)在歷史的設(shè)備故障診斷過程中也沉淀了大量的原因診斷及策略匹配的知識,那么如何將這些知識進(jìn)行合理規(guī)整及高效利用?目前,部分企業(yè)已經(jīng)建立了故障相關(guān)的知識庫并加以利用,而機器學(xué)習(xí)在其中發(fā)揮的作用:一是在構(gòu)建知識庫的過程中,提高知識庫的構(gòu)建效率;二是在知識庫的使用過程中,提高使用的效率。這里,主要會用到的文本分類、聚類及相似度等方法。
基于聚類分析實現(xiàn)知識庫快速構(gòu)建
在設(shè)備故障診斷過程中,診斷知識庫的構(gòu)建是非常重要的一個環(huán)節(jié),它的結(jié)構(gòu)內(nèi)容合理與否直接影響著診斷效率,但這部分工作也是最難的,這是由于企業(yè)歷史的故障原因、維護(hù)策略等數(shù)據(jù)大多都是人工填寫,而企業(yè)在早期并沒有建立一個統(tǒng)一的規(guī)范,從而導(dǎo)致整理現(xiàn)有的故障記錄、構(gòu)建故障知識體系的難度非常大?;谖谋痉治?聚類的方法能夠很大程度上減少人工工作量,從而提高知識庫構(gòu)建的效率。
例如,在構(gòu)建發(fā)動機故障知識庫的過程中,涉及到對發(fā)動機故障知識進(jìn)行分類。由于故障數(shù)據(jù)非常多,要想通過人工實現(xiàn),工作量非常大。而通過文本分類的方法對所有故障進(jìn)行分詞,然后通過聚類的方式對所有故障進(jìn)行劃分,并根據(jù)劃分的結(jié)果對每一類故障進(jìn)行標(biāo)注,這樣就能夠節(jié)省很多時間。
基于相似度計算實現(xiàn)故障原因/策略精準(zhǔn)匹配
由于觀測設(shè)備全生命周期內(nèi)的變化非常困難,因此這里說的壽命預(yù)測主要是針消耗類產(chǎn)品或?qū)υO(shè)備上的消耗件/周轉(zhuǎn)件(如輪胎、軸承、刀具、電池、剎車片等),不考慮設(shè)備整體的剩余壽命。此類部件壽命預(yù)測多是通過歷史數(shù)據(jù)發(fā)現(xiàn)部件在設(shè)備性能、生產(chǎn)效率、生產(chǎn)質(zhì)量等方面的劣化趨勢,然后通過曲線擬合的方式,構(gòu)建部件全生命周期內(nèi)的設(shè)備性能/效率/質(zhì)量趨勢曲線,進(jìn)而通過當(dāng)前部件的性能劣化表現(xiàn),反推其處在生命周期的具體階段。
維修人員在設(shè)備故障定位及維修過程中,由于經(jīng)驗的缺乏可能會導(dǎo)致故障的排查和處理速度較慢,針對此類情況,企業(yè)會建立輔助排故系統(tǒng)來幫助維修人員快速的定位故障原因和匹配策略。具體來說,通過對問診過程中獲取的設(shè)備現(xiàn)象描述與故障知識庫中現(xiàn)有的故障現(xiàn)象、原因進(jìn)行匹配,發(fā)現(xiàn)與當(dāng)前設(shè)備現(xiàn)象相似的故障,將歷史原因及解決措施進(jìn)行推薦,幫助用戶快速解決問題。相似度計算的方法包括歐氏距離、皮爾遜相關(guān)系數(shù)、余弦相似度、廣義Jaccard相似系數(shù)。
例如,對汽輪機設(shè)備進(jìn)行輔助排故的過程中,通過數(shù)據(jù)的自動采集獲取到設(shè)備當(dāng)前運行狀態(tài)數(shù)據(jù),明確部分指標(biāo)發(fā)生異常,但是無法定位到具體原因,這時可以通過對當(dāng)前設(shè)備運行狀態(tài)與歷史發(fā)生的異常情況進(jìn)行相似性計算來定位原因。
通過對設(shè)備當(dāng)前運行狀態(tài)與歷史異常情況進(jìn)行相似度分析,發(fā)現(xiàn)當(dāng)前設(shè)備運行狀況與歷史編號為“9890”的異常情況相似度最高,對此我們可以將“9890”對應(yīng)的故障原因、排查步驟、維修策略等歷史知識推送給維修人員,提升維修效率。
三、結(jié)束語
本文介紹了幾種常用的機器學(xué)習(xí)與統(tǒng)計分析方法在設(shè)備故障診斷中的應(yīng)用,我們稱之為基于數(shù)據(jù)驅(qū)動的故障診斷。在實際設(shè)備故障診斷過程中,除了使用數(shù)據(jù)驅(qū)動的方法,還需要結(jié)合設(shè)備機理知識、專家經(jīng)驗知識等對設(shè)備健康狀況進(jìn)行綜合分析。
此外,在數(shù)據(jù)驅(qū)動的診斷過程中也會存在一些特殊的數(shù)據(jù)處理及分析方法,例如針對信號類數(shù)據(jù)(設(shè)備上的震動、聲音、電流等)采用信號處理方法進(jìn)行故障判斷。當(dāng)然,還有一些設(shè)備故障判斷的方法,如曲線相似度法、歷史數(shù)據(jù)包絡(luò)算法、特征相似度法,受篇幅的限制,我們會在今后的文章中再跟大家詳細(xì)分享。
隨著企業(yè)對生產(chǎn)過程智能化要求的提高,設(shè)備健康管理將越來越受重視。同時,伴隨數(shù)據(jù)采集的全面性,基于數(shù)據(jù)驅(qū)動的方法在故障診斷中發(fā)揮的作用將會越來越大。利用機器學(xué)習(xí)基本知識,探索/組合新的智能化模型,更加高效、準(zhǔn)確的解決異常預(yù)警、故障發(fā)現(xiàn)、原因分析、策略匹配等設(shè)備運行維護(hù)過程中的問題,是企業(yè)數(shù)據(jù)分析人員的責(zé)任,是企業(yè)智能化必經(jīng)之路。