banner
Centre d'Information
Conception attrayante

Boosting Ridge pour le machine d'apprentissage extrême globalement optimisé pour les problèmes de classification et de régression

Jun 17, 2023

Rapports scientifiques volume 13, Numéro d'article : 11809 (2023) Citer cet article

191 Accès

Détails des métriques

Cet article explore le cadre Boosting Ridge (BR) dans la communauté Extreme Learning Machine (ELM) et présente un nouveau modèle qui forme les apprenants de base en tant qu'ensemble global. Dans le contexte des réseaux à couche cachée unique Extreme Learning Machine, les nœuds de la couche cachée sont préconfigurés avant l'entraînement et l'optimisation est effectuée sur les poids de la couche de sortie. L'implémentation précédente de l'ensemble BR avec ELM (BRELM) en tant qu'apprenants de base corrige les nœuds de la couche cachée pour tous les ELM. Le procédé d'apprentissage d'ensemble génère différents coefficients de couche de sortie en réduisant l'erreur résiduelle de l'ensemble de manière séquentielle à mesure que davantage d'apprenants de base sont ajoutés à l'ensemble. Comme dans d'autres méthodologies d'ensemble, les apprenants de base sont sélectionnés jusqu'à ce qu'ils remplissent des critères d'ensemble tels que la taille ou la performance. Cet article propose une méthode d'apprentissage globale dans le cadre BR, où les apprenants de base ne sont pas ajoutés étape par étape, mais tous sont calculés en une seule étape à la recherche de performances d'ensemble. Cette méthode considère (i) que les configurations de la couche cachée sont différentes pour chaque apprenant de base, (ii) les apprenants de base sont optimisés d'un seul coup, et non séquentiellement, évitant ainsi la saturation, et (iii) la méthodologie d'ensemble n'a pas l'inconvénient de travailler avec des classificateurs puissants. Divers ensembles de données de référence de régression et de classification ont été sélectionnés pour comparer cette méthode avec la mise en œuvre originale de BRELM et d'autres algorithmes de pointe. En particulier, 71 ensembles de données pour la classification et 52 pour la régression ont été considérés en utilisant différentes métriques et en analysant différentes caractéristiques des ensembles de données, telles que la taille, le nombre de classes ou leur nature déséquilibrée. Les tests statistiques indiquent la supériorité de la méthode proposée dans les problèmes de régression et de classification dans tous les scénarios expérimentaux.

Au cours de la dernière décennie, l'Extreme Learning Machine (ELM)1 est devenue une méthodologie populaire dans l'apprentissage automatique pour résoudre des problèmes complexes, par exemple les interfaces cerveau-ordinateur2, la prédiction de la durée de vie utile restante des roulements3, la détection de l'origine du fenouil qui est d'une grande importance. importance dans l'arôme alimentaire4, la prévision de la pneumonie COVID-195, la classification EGG pour l'interface cerveau-ordinateur6, la gestion du réseau d'eau7 et la prévision du rendement du blé8, entre autres. Les théories ELM affirment que les paramètres de la couche cachée, c'est-à-dire le poids et le biais dans les réseaux à action directe à couche cachée unique, n'ont pas besoin d'être ajustés, mais ils peuvent être générés de manière aléatoire, indépendamment de l'ensemble de données d'entraînement9. Ainsi, seuls les poids de sortie sont calculés en une seule étape en utilisant la solution estimée par les moindres carrés. Grâce à cette initialisation aléatoire, la vitesse de formation ELM est plus efficace par rapport aux solveurs traditionnels pour réseaux de neurones, par exemple ceux basés sur la rétro-propagation10,11, sans perdre en performances, et même en les améliorant.

L’un des inconvénients des modèles ELM est qu’ils nécessitent un nombre élevé de neurones pour la couche cachée car la combinaison non linéaire de caractéristiques est explorée de manière aléatoire12. Pour cette raison, plusieurs méthodes ont été étudiées pour réduire ce caractère aléatoire sans augmenter le temps de calcul ou la complexité de l'algorithme, telles que l'élagage13, l'optimisation par essaim14,15 et les méthodes d'apprentissage d'ensemble.

Dans ce contexte, plusieurs méthodes d'ensemble pour les modèles ELM ont été proposées, par exemple des ensembles pour la régression16, des ensembles flous pour la classification des mégadonnées17, des ensembles profonds pour la prévision de séries chronologiques18, des méta-ELM incrémentaux avec retour d'erreur19 ou des ensembles ELM à noyau pondéré pour des ensembles de données déséquilibrés20. En outre, de nombreuses méthodes d’ensemble ELM ont été appliquées à des problèmes du monde réel, tels que la prévision de la hauteur des vagues océaniques21, la reconnaissance de l’activité humaine22, l’étalonnage de la spectroscopie proche infrarouge23 ou la reconnaissance du chant des oiseaux24. En général, les ensembles visent à améliorer l'erreur de généralisation en utilisant un mélange de classificateurs ou de régresseurs, appelés apprenants de base dans le cadre d'apprentissage d'ensemble. L'amélioration des performances est associée à la diversité des prédicteurs de base, c'est-à-dire qu'il est essentiel pour la généralisation de l'ensemble que les apprenants de base soient autant que possible en désaccord25. Il existe de nombreuses façons de combiner des prédictions individuelles. Ainsi plusieurs méthodes de vote ont été proposées pour améliorer l'efficacité de ces ensembles, comme le Bagging26, le Boosting27, un système d'apprentissage incrémental utilisant des experts linéaires locaux28 ou une variante du Boosting construit à partir d'un algorithme de descente de gradient fonctionnel avec la fonction de perte L229, entre autres. Les méthodologies d’ensemble connues sous le nom de Bagging et Boosting sont les approches les plus utilisées, principalement en raison de leur facilité d’application et de leurs performances d’ensemble30. La clé de ces méthodologies d'ensemble réside dans les données de formation pour générer de la diversité. De cette manière, diverses solutions au problème d’optimisation associé aux prédicteurs de base sont implicitement recherchées grâce à l’échantillonnage de données31.