top of page

Come Utilizzare il Machine learning per il Rilevamento delle Anomalie

Caso d'uso concreto per l'apprendimento automatico e l'analisi statistica nel settore del rilevamento di anomali industriale.

In questo articolo, introdurremo un paio di diverse tecniche e applicazioni dell'apprendimento automatico e dell'analisi statistica, quindi mostreremo come applicare questi approcci per risolvere un caso d'uso specifico per il rilevamento di anomalie e il monitoraggio delle condizioni.



Data Science, digitalizzazione, Industria 4.0, ecc….

Questi sono tutti termini che probabilmente hai sentito o letto prima. Tuttavia, dietro tutte queste parole d'ordine, l'obiettivo principale è l'uso della tecnologia e dei dati per aumentare la produttività e l'efficienza. La connettività e il flusso di informazioni e dati tra dispositivi e sensori consente un'abbondanza di dati disponibili. Il fattore chiave è quindi essere in grado di utilizzare queste enormi quantità di dati disponibili ed estrarre effettivamente informazioni utili, consentendo di ridurre i costi, ottimizzare la capacità e ridurre al minimo i tempi di fermo. È qui che entra in gioco il recente ronzio intorno all'apprendimento automatico e all'analisi dei dati.

Rilevamento di anomalie con Machine Learning

Il rilevamento delle anomalie (o rilevamento dei valori anomali) è l'identificazione di elementi, eventi o osservazioni rari che sollevano sospetti differendo in modo significativo dalla maggior parte dei dati. Tipicamente, i dati anomali possono essere collegati a qualche tipo di problema o evento raro come ad esempio frode bancaria, problemi medici, difetti strutturali, malfunzionamento delle apparecchiature ecc. Questa connessione rende molto interessante poter individuare quali punti dati possono essere considerati anomalie , poiché l'identificazione di questi eventi è in genere molto interessante dal punto di vista aziendale. Questo ci porta a uno degli obiettivi chiave: come possiamo identificare se i punti dati sono normali o anomali? In alcuni casi semplici, come nella figura di esempio qui sotto, la visualizzazione dei dati può fornirci informazioni importanti.


Rilevamento di anomalie per due variabili
Rilevamento di anomalie per due variabili


In questo caso di dati bidimensionali ( X e Y ), diventa abbastanza facile identificare visivamente le anomalie attraverso punti dati situati al di fuori della distribuzione tipica . Tuttavia, guardando le figure a destra, non è possibile identificare il valore anomalo direttamente dall'indagine di una variabile alla volta: è la combinazione delle variabili X e Y che ci consente di identificare facilmente l'anomalia. Ciò complica sostanzialmente la questione quando si passa da due variabili a 10-100 di variabili, come spesso accade nelle applicazioni pratiche del rilevamento delle anomalie.

Monitoraggio anomalie con il Machine Learning

Qualsiasi macchina, sia essa rotante (pompa, compressore, turbina a gas o vapore, ecc.) o non rotante (scambiatore di calore, colonna di distillazione, valvola, ecc.) finirà per raggiungere un punto di cattive condizioni di salute. Quel punto potrebbe non essere quello di un guasto o di un arresto effettivo, ma quello in cui l'apparecchiatura non funziona più nel suo stato ottimale. Ciò segnala che potrebbe essere necessaria qualche attività di manutenzione per ripristinare il pieno potenziale operativo. In parole povere, l'identificazione dello “stato di salute” delle nostre apparecchiature è il dominio del condition monitoring .

Il modo più comune per eseguire il monitoraggio delle condizioni è guardare ogni misurazione del sensore dalla macchina e imporre un limite di valore minimo e massimo su di essa. Se il valore corrente rientra nei limiti, la macchina è integra. Se il valore corrente è fuori dai limiti, la macchina non è integra e viene inviato un allarme.

È noto che questa procedura di imposizione di limiti di allarme codificati invia un gran numero di falsi allarmi, ovvero allarmi per situazioni che sono effettivamente stati di salute della macchina. Ci sono anche gli allarmi mancanti, cioè situazioni problematiche ma non allarmate. Il primo problema non è solo la perdita di tempo e fatica, ma anche la disponibilità dell'attrezzatura. Il secondo problema è più cruciale in quanto porta a danni reali con costi di riparazione associati e perdita di produzione.

Entrambi i problemi derivano dalla stessa causa: lo stato di salute di un'apparecchiatura complessa non può essere giudicato in modo affidabile sulla base dell'analisi di ciascuna misurazione da sola (come illustrato anche nella figura 1 nella sezione precedente sul rilevamento delle anomalie). Dobbiamo piuttosto considerare una combinazione delle varie misurazioni per avere un'indicazione veritiera della situazione


Sezione tecnica rilevamento Anomalie e M.L.

È difficile trattare gli argomenti dell'apprendimento automatico e dell'analisi statistica per il rilevamento delle anomalie senza entrare anche negli aspetti più tecnici. Eviterò comunque di approfondire il background teorico (ma fornirò alcuni collegamenti a descrizioni più dettagliate). Se sei più interessato alle applicazioni pratiche dell'apprendimento automatico e dell'analisi statistica quando si tratta, ad esempio, del monitoraggio delle condizioni, non esitare a passare alla sezione "Caso d'uso del monitoraggio delle condizioni".

Approccio 1: Analisi statistica multivariata per il rilevamento delle anomalie con il M.L.


Riduzione dimensionale mediante analisi delle componenti principali

Poiché la gestione di dati ad alta dimensionalità è spesso difficile, esistono diverse tecniche per ridurre il numero di variabili ( riduzione della dimensionalità ). Una delle tecniche principali è l'analisi delle componenti principali (PCA), che esegue una mappatura lineare dei dati in uno spazio a dimensione inferiore in modo tale da massimizzare la varianza dei dati nella rappresentazione a dimensione ridotta. In pratica si costruisce la matrice di covarianza dei dati e gli autovettori di questa matrice sono calcolati. Gli autovettori che corrispondono agli autovalori maggiori (le componenti principali) possono ora essere utilizzati per ricostruire una grande frazione della varianza dei dati originali. Lo spazio delle caratteristiche originali è stato ora ridotto (con una certa perdita di dati, ma si spera mantenendo la varianza più importante) allo spazio coperto da alcuni autovettori.

Rilevamento multivariato di anomalie con il M.L.

Come abbiamo notato sopra, per identificare le anomalie quando si tratta di una o due variabili, la visualizzazione dei dati può spesso essere un buon punto di partenza. Tuttavia, quando si scala questo verso dati ad alta dimensione (come spesso accade nelle applicazioni pratiche), questo approccio diventa sempre più difficile. Questo è fortunatamente il punto in cui le statistiche multivariate vengono in aiuto.

Quando si ha a che fare con una raccolta di punti dati, avranno in genere una certa distribuzione (ad es Distribuzione gaussiana). Per rilevare le anomalie in modo più quantitativo, calcoliamo prima la distribuzione di probabilità P(x) dai punti dati. Poi quando un nuovo esempio,X,entra, confrontiamoP(x) con una sogliaR. SeP(x)<R, è considerata un'anomalia. Questo perché gli esempi normali tendono ad avere un grandeP(x) mentre gli esempi anomali tendono ad avere un piccoloP(X)

Nel contesto del monitoraggio delle condizioni, questo è interessante perché le anomalie possono dirci qualcosa sullo "stato di salute" dell'apparecchiatura monitorata: i dati generati quando l'apparecchiatura si avvicina a un guasto, o un'operazione non ottimale, hanno in genere una distribuzione diversa rispetto ai dati da attrezzatura “sana”.

La distanza di Mahalanobis

Si consideri il problema della stima della probabilità che un punto dati appartenga a una distribuzione, come descritto sopra. Il nostro primo passo sarebbe trovare il baricentro o il centro di massa dei punti di campionamento. Intuitivamente, più il punto in questione è vicino a questo centro di massa, più è probabile che appartenga all'insieme.


Tuttavia, dobbiamo anche sapere se l'insieme è distribuito su una vasta o una piccola gamma, in modo da poter decidere se una determinata distanza dal centro è degna di nota o meno. L'approccio semplicistico consiste nel stimare la deviazione standard delle distanze dei punti di campionamento dal centro di massa. Inserendo questo nella distribuzione normale possiamo derivare la probabilità che il punto dati appartenga alla stessa distribuzione. Lo svantaggio dell'approccio di cui sopra era che si presumeva che i punti di campionamento fossero distribuiti attorno al centro di massa in modo sferico.


Se la distribuzione fosse decisamente non sferica, ad esempio ellissoidale, allora ci aspetteremmo che la probabilità che il punto di prova appartenente all'insieme dipenda non solo dalla distanza dal centro di massa, ma anche dalla direzione. In quelle direzioni in cui l'ellissoide ha un asse corto il punto di prova deve essere più vicino, mentre in quelle in cui l'asse è lungo il punto di prova può essere più lontano dal centro. Mettendo questo su una base matematica, l'ellissoide che meglio rappresenta la distribuzione di probabilità dell'insieme può essere stimato calcolando la matrice di covarianza dei campioni. La distanza di Mahalanobis (MD) è la distanza del punto di prova dal centro di massa divisa per la larghezza dell'ellissoide nella direzione del punto di prova.

Per poter utilizzare la MD per classificare un test point come appartenente a una delle N classi, si stima prima la matrice di covarianza di ciascuna classe, solitamente basata su campioni noti per appartenere a ciascuna classe. Nel nostro caso, poiché siamo interessati solo a classificare "normale" e "anomalia", utilizziamo dati di allenamento che contengono solo condizioni operative normali per calcolare la matrice di covarianza. Quindi, dato un campione di prova, calcoliamo la MD nella classe "normale" e classifichiamo il punto di prova come "anomalia" se la distanza è superiore a una certa soglia.

Nota di cautela: l'uso della MD implica che l'inferenza può essere eseguita attraverso la matrice media e covarianza - e questa è una proprietà della sola distribuzione normale. Questo criterio non è necessariamente soddisfatto nel nostro caso, poiché le variabili di input potrebbero non essere distribuite normalmente. Tuttavia, proviamo comunque e vediamo come funziona!

Approccio 2: Rete neurale artificiale per rilevare le anomalie


Reti di codifica automatica

Il secondo approccio si basa sull'utilizzo di reti neurali autoencoder . Si basa su principi simili a quelli dell'analisi statistica di cui sopra, ma con alcune lievi differenze.

Un autoencoder è un tipo di rete neurale artificiale utilizzata per apprendere codifiche di dati efficienti senza supervisione . Lo scopo di un autoencoder è quello di apprendere una rappresentazione (codifica) per un insieme di dati, tipicamente per la riduzione della dimensionalità . Insieme al lato di riduzione, viene appreso un lato di ricostruzione, in cui l'autocodificatore cerca di generare dalla codifica ridotta una rappresentazione il più vicino possibile al suo input originale.

Architettonicamente, la forma più semplice di un autoencoder è una rete neurale feedforward , non ricorrente , molto simile ai molti perceptron a strato singolo che crea un perceptron multistrato (MLP), con uno strato di input, uno strato di output e uno o più strati nascosti che li collegano — ma con il livello di output avente lo stesso numero di nodi del livello di input e allo scopo di ricostruire i propri input.

rete di autoencoder
rete di autoencoder


Nel contesto del rilevamento delle anomalie e del monitoraggio delle condizioni, l'idea di base è quella di utilizzare la rete di autoencoder per "comprimere" le letture dei sensori in una rappresentazione a dimensioni inferiori, che catturi le correlazioni e le interazioni tra le varie variabili. (Essenzialmente lo stesso principio del modello PCA, ma qui consentiamo anche interazioni non lineari tra le variabili).

La rete di autoencoder viene quindi addestrata sui dati che rappresentano lo stato operativo “normale”, con l'obiettivo di comprimere prima e poi ricostruire le variabili di input. Durante la riduzione della dimensionalità, la rete apprende le interazioni tra le varie variabili e dovrebbe essere in grado di ricostruirle alle variabili originali in uscita. L'idea principale è che il degrado dell'apparecchiatura monitorata dovrebbe influire sull'interazione tra le variabili (es. variazioni di temperatura, pressioni, vibrazioni, ecc.). Quando ciò accade, si comincerà a vedere un errore maggiore nella ricostruzione delle reti delle variabili di input. Monitorando l'errore di ricostruzione, si può così ottenere un'indicazione dello “stato di salute” dell'apparecchiatura monitorata, poiché tale errore aumenterà con il degrado dell'apparecchiatura.Mahalanobis distance , qui utilizziamo la distribuzione di probabilità dell'errore di ricostruzione per identificare se un punto dati è normale o anomalo.


Caso d'uso del monitoraggio delle condizioni: guasto al cuscinetto dell'ingranaggio In questa sezione, analizzerò un caso d'uso pratico per il monitoraggio delle condizioni utilizzando i due diversi approcci descritti sopra.

Per questo caso d'uso, l'obiettivo è rilevare il degrado dei cuscinetti degli ingranaggi su un motore e fornire un avviso che consenta di adottare misure predittive per evitare un guasto agli ingranaggi (che potrebbe ad esempio essere una manutenzione/riparazione pianificata dell'attrezzatura) .

Dettagli sperimentali e preparazione dei dati

Tre serie di dati, ciascuna composta da quattro cuscinetti, sono state eseguite fino al cedimento in condizioni di carico e funzionamento costanti. I segnali di misurazione delle vibrazioni vengono forniti per i set di dati per tutta la durata dei cuscinetti fino al guasto. Il fallimento si è verificato dopo 100 milioni di cicli con una crepa nella razza esterna (vedere il documento readme dalla pagina di download per ulteriori informazioni sugli esperimenti). Poiché l'attrezzatura è stata utilizzata fino al guasto, i dati dei primi due giorni di funzionamento sono stati utilizzati come dati di addestramento per rappresentare l'attrezzatura normale e "sana". La parte rimanente dei set di dati per il periodo precedente al cedimento del cuscinetto è stata quindi utilizzata come dati di test, per valutare se i diversi metodi potessero rilevare il degrado del cuscinetto prima del cedimento.

Approccio 1 : PCA + distanza Mahalanobis

Come spiegato più dettagliatamente nella "Sezione tecnica" di questo articolo, il primo approccio consisteva nell'eseguire prima un'analisi dei componenti principali , quindi calcolare la distanza di Mahalanobis (MD) per identificare i punti dati come normali o anomali (segno di degrado dell'attrezzatura) . La distribuzione del DM per i dati di allenamento che rappresentano attrezzature “sane” è illustrata nella figura seguente.


Approccio 1 : PCA + distanza Mahalanobis
Approccio 1 : PCA + distanza Mahalanobis

Distribuzione della distanza di Mahalanobis per attrezzature "sane"


Utilizzando la distribuzione di MD per apparecchiature “sane”, possiamo definire un valore di soglia per cosa considerare un'anomalia. Dalla distribuzione sopra, possiamo ad esempio definire un MD > 3 come anomalia. La valutazione di questo metodo per rilevare il degrado delle apparecchiature ora consiste nel calcolare il MD per tutti i punti dati nel set di test e confrontarlo con il valore di soglia definito per contrassegnarlo come anomalia.


Valutazione del modello sui dati del test per il Rilevamento delle anomalie

Utilizzando l'approccio di cui sopra, abbiamo calcolato la MD per i dati di prova nel periodo di tempo che ha preceduto il cedimento del cuscinetto, come illustrato nella figura seguente.

Valutazione del modello sui dati del test
Valutazione del modello sui dati del test

Previsione del guasto del cuscinetto utilizzando l'approccio 1


Nella figura sopra, i punti verdi corrispondono al MD calcolato, mentre la linea rossa rappresenta il valore di soglia definito per segnalare un'anomalia. Il guasto del cuscinetto si verifica alla fine del set di dati, indicato dalla linea tratteggiata nera. Ciò dimostra che il primo approccio di modellazione è stato in grado di rilevare il guasto imminente dell'apparecchiatura circa 3 giorni prima del guasto effettivo (dove il MD supera il valore di soglia).

Possiamo ora svolgere un esercizio simile utilizzando il secondo approccio di modellazione, al fine di valutare quale dei metodi funziona meglio dell'altro.

Approccio 2: Rete neurale artificiale

Come spiegato più dettagliatamente nella "Sezione tecnica" del documento, il secondo approccio consisteva nell'utilizzare una rete neurale di autoencoder per cercare anomalie (identificate attraverso una maggiore perdita di ricostruzione dalla rete). Analogamente al primo approccio, anche qui utilizziamo la distribuzione dell'output del modello per i dati di addestramento che rappresentano apparecchiature "sane" per rilevare le anomalie. La distribuzione della perdita di ricostruzione (errore medio assoluto) per i dati di addestramento è mostrata nella figura seguente:

Approccio 2: Rete neurale artificiale
Approccio 2: Rete neurale artificiale

Distribuzione della perdita di ricostruzione per apparecchiature "sane".


Utilizzando la distribuzione della perdita da ricostruzione per apparecchiature “sane”, possiamo ora definire un valore soglia per cosa considerare un'anomalia. Dalla distribuzione sopra, possiamo ad esempio definire una perdita> 0,25 come un'anomalia. La valutazione del metodo per rilevare il degrado delle apparecchiature ora consiste nel calcolare la perdita di ricostruzione per tutti i punti dati nel set di test e nel confrontare la perdita con il valore di soglia definito per contrassegnarlo come anomalia.

Valutazione del modello sui dati del test

Utilizzando l'approccio di cui sopra, calcoliamo la perdita di ricostruzione per i dati di prova nel periodo di tempo che precede il cedimento del cuscinetto, come illustrato nella figura seguente.


Valutazione del modello sui dati del test:
Valutazione del modello sui dati del test

Previsione del guasto del cuscinetto utilizzando l'approccio 2


Nella figura sopra, i punti blu corrispondono alla perdita di ricostruzione, mentre la linea rossa rappresenta il valore soglia definito per segnalare un'anomalia. Il guasto del cuscinetto si verifica alla fine del set di dati, indicato dalla linea tratteggiata nera. Ciò dimostra che anche questo approccio di modellizzazione è stato in grado di rilevare il guasto imminente dell'apparecchiatura circa 3 giorni prima del guasto effettivo (dove la perdita di ricostruzione supera il valore di soglia).

Riepilogo risultati

Come visto nelle sezioni precedenti sui due diversi approcci per il rilevamento delle anomalie, entrambi i metodi sono in grado di rilevare con successo l'imminente guasto dell'apparecchiatura diversi giorni prima del guasto effettivo. In uno scenario reale ciò consentirebbe di adottare misure predittive (manutenzione/riparazione) prima del guasto, il che significa sia risparmi sui costi sia la potenziale importanza per gli aspetti HSE dei guasti alle apparecchiature.

Con il costo ridotto dell'acquisizione dei dati attraverso i sensori, nonché la maggiore connettività tra i dispositivi, la possibilità di estrarre informazioni preziose dai dati sta diventando sempre più importante. Trovare modelli in grandi quantità di dati è il regno dell'apprendimento automatico e della statistica e, a mio avviso, ci sono enormi possibilità di sfruttare le informazioni nascoste in questi dati per migliorare le prestazioni in diversi domini. Il rilevamento delle anomalie e il monitoraggio delle condizioni, come illustrato in questo articolo, sono solo una delle tante possibilità.

In futuro, crediamo che l'apprendimento automatico sarà utilizzato in molti più modi di quanto siamo in grado di immaginare oggi.


Che impatto pensi che avrà sui vari settori?

Ci piacerebbe sentire i tuoi pensieri nei commenti qui sotto.

PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page