Cresta di potenziamento per la macchina di apprendimento estremo ottimizzata a livello globale per problemi di classificazione e regressione

Rapporti scientifici volume 13, numero articolo: 11809 (2023) Citare questo articolo

191 accessi

Dettagli sulle metriche

Questo articolo esplora la struttura del boosting ridge (BR) nella comunità delle macchine per l'apprendimento estremo (ELM) e presenta un nuovo modello che forma gli studenti di base come un insieme globale. Nel contesto delle reti a singolo strato nascosto di Extreme Learning Machine, i nodi nello strato nascosto vengono preconfigurati prima dell'addestramento e l'ottimizzazione viene eseguita sui pesi nello strato di output. La precedente implementazione dell'insieme BR con ELM (BRELM) come studenti di base fissa i nodi nello strato nascosto per tutti gli ELM. Il metodo di apprendimento dell'insieme genera diversi coefficienti del livello di output riducendo l'errore residuo dell'insieme in modo sequenziale man mano che più studenti di base vengono aggiunti all'insieme. Come in altre metodologie d'insieme, gli studenti di base vengono selezionati finché non soddisfano criteri d'insieme come dimensioni o prestazioni. Questo articolo propone un metodo di apprendimento globale nel quadro BR, in cui gli studenti di base non vengono aggiunti passo dopo passo, ma tutti vengono calcolati in un unico passaggio alla ricerca di prestazioni d'insieme. Questo metodo considera (i) che le configurazioni dello strato nascosto sono diverse per ogni studente di base, (ii) gli studenti di base sono ottimizzati tutti in una volta, non in sequenza, evitando così la saturazione, e (iii) la metodologia ensemble non presenta lo svantaggio di lavorare con classificatori forti. Sono stati selezionati vari set di dati di benchmark di regressione e classificazione per confrontare questo metodo con l'implementazione BRELM originale e altri algoritmi all'avanguardia. In particolare, sono stati considerati 71 dataset per la classificazione e 52 per la regressione, utilizzando diverse metriche e analizzando diverse caratteristiche dei dataset, come la dimensione, il numero di classi o la natura sbilanciata degli stessi. I test statistici indicano la superiorità del metodo proposto sia nei problemi di regressione che in quelli di classificazione in tutti gli scenari sperimentali.

Nell'ultimo decennio, l'Extreme Learning Machine (ELM)1 è diventata una metodologia popolare nell'apprendimento automatico che sfida problemi, ad esempio, le interfacce cervello-computer2, la previsione della vita utile residua dei cuscinetti volventi3, il rilevamento dell'origine del finocchio che è di grande importanza importanza negli aromi alimentari4, la previsione della polmonite da COVID-195, la classificazione dell’EGG per l’interfaccia cervello-computer6, la gestione della rete idrica7 e la previsione della resa del grano8, tra gli altri. Le teorie ELM affermano che i parametri del livello nascosto, ovvero il peso e il bias nelle reti feed-forward a livello nascosto singolo, non necessitano di essere regolati, ma possono essere generati in modo casuale, indipendentemente dal set di dati di addestramento9. Pertanto, solo i pesi di output vengono calcolati in un unico passaggio utilizzando la soluzione stimata dei minimi quadrati. Grazie a questa inizializzazione casuale, la velocità di addestramento dell'ELM è più efficiente rispetto ai tradizionali solutori per reti neurali, ad esempio quelli basati sulla back-propagation10,11, senza perdere prestazioni, anzi addirittura migliorandole.

Uno degli svantaggi dei modelli ELM è che richiedono un numero elevato di neuroni per lo strato nascosto perché la combinazione non lineare di caratteristiche viene esplorata in modo casuale12. Per questo motivo, sono stati studiati diversi metodi per ridurre questa casualità senza aumentare il tempo di calcolo o la complessità dell'algoritmo, come la potatura13, l'ottimizzazione dello sciame14,15 e metodi di apprendimento d'insieme.

In questo contesto, sono stati proposti diversi metodi di insieme per i modelli ELM, ad esempio, insiemi per la regressione16, insiemi fuzzy per la classificazione di big data17, insiemi profondi per la previsione di serie temporali18, Meta-ELM incrementale con feedback di errore19 o insiemi ELM kernel pesati per set di dati sbilanciati20. Inoltre, molti metodi di ensemble ELM sono stati applicati a problemi del mondo reale, come la previsione dell’altezza delle onde oceaniche21, il riconoscimento dell’attività umana22, la calibrazione della spettroscopia nel vicino infrarosso23 o il riconoscimento del canto degli uccelli24. In generale, gli insiemi mirano a migliorare l'errore di generalizzazione utilizzando una miscela di classificatori o regressori, noti come studenti di base nel quadro dell'apprendimento d'insieme. Il miglioramento delle prestazioni è associato alla diversità tra i predittori di base, cioè è essenziale per la generalizzazione dell'insieme che gli studenti di base siano il più possibile in disaccordo25. Esistono molti modi per combinare le singole previsioni. Pertanto sono stati proposti diversi metodi di voto per migliorare l'efficienza di questi insiemi, come Bagging26, Boosting27, sistema di apprendimento incrementale che utilizza esperti lineari locali28 o una variazione di Boosting costruita da un algoritmo di discesa del gradiente funzionale con la funzione di perdita L229, tra gli altri. Le metodologie d'insieme conosciute come Bagging e Boosting sono gli approcci più utilizzati, principalmente per la loro facilità di applicazione e per la loro prestazione d'insieme30. La chiave di queste metodologie d’insieme risiede nei dati di addestramento per generare diversità. In questo modo, attraverso il campionamento dei dati, vengono implicitamente ricercate diverse soluzioni al problema di ottimizzazione associato ai predittori di base31.