Classification en apprentissage automatique : une introduction
La classification est le processus de prédiction de la classe de points de données donnés. Les classes sont parfois appelées cibles, étiquettes ou catégories. La modélisation prédictive de classification consiste à approximer une fonction de cartographie (f) des variables d'entrée (X) aux variables de sortie discrètes (y.)
Par exemple, la détection du spam chez les fournisseurs de services de messagerie peut être identifiée comme un problème de classification. Il s'agit d'une classification binaire puisqu'il n'existe que deux classes marquées comme « spam » et « non spam ». Un classificateur utilise certaines données de formation pour comprendre comment les variables d'entrée données sont liées à la classe. Dans ce cas, les e-mails connus comme spam et non-spam doivent être utilisés comme données de formation. Lorsque le classificateur est formé avec précision, il peut être utilisé pour détecter un e-mail inconnu.
La classification appartient à la catégorie de l'apprentissage supervisé où les cibles reçoivent également les données d'entrée. La classification peut être appliquée à une grande variété de tâches, notamment l'approbation de crédit, le diagnostic médical et le marketing ciblé, etc.
Il existe deux types d’apprenants dans la classification : les apprenants paresseux et les apprenants avides.
Les apprenants paresseux stockent les données de formation et attendent que les données de test apparaissent. Lorsque c’est le cas, la classification est effectuée sur la base des données d’entraînement stockées les plus pertinentes. Comparés aux apprenants enthousiastes, les apprenants paresseux passent moins de temps à s’entraîner mais plus de temps à prédire.
Exemples:K-voisin le plus proche et raisonnement basé sur des cas.
Les apprenants impatients construisent un modèle de classification basé sur les données de formation fournies avant de recevoir les données à classer. Il doit être capable de s’engager sur une seule hypothèse qui couvre tout l’espace des instances. Pour cette raison, les apprenants enthousiastes mettent beaucoup de temps à se former et moins de temps à prévoir.
Exemples:Arbre de décision, Bayes naïfs et réseaux de neurones artificiels.
En savoir plus sur l'apprentissage automatique : les 10 meilleurs algorithmes d'apprentissage automatique que tout débutant devrait connaître
Il existe de nombreux algorithmes de classification parmi lesquels choisir. Choisir le bon dépend de l’application et de la nature de l’ensemble de données disponibles. Par exemple, si les classes sont linéairement séparables, les classificateurs linéaires comme la régression logistique et le discriminant linéaire de Fisher peuvent surpasser les modèles sophistiqués et vice versa.
Un arbre de décision construit des modèles de classification ou de régression sous la forme d'une structure arborescente. Il utilise un ensemble de règles « si-alors » mutuellement exclusives et exhaustives pour la classification. Les règles sont apprises séquentiellement en utilisant les données d'entraînement une par une. Chaque fois qu'une règle est apprise, les tuples couverts par les règles sont supprimés. Ce processus se poursuit jusqu'à ce qu'il satisfasse à une condition de terminaison.
L’arbre est construit de manière descendante, récursive, « diviser pour régner ». Tous les attributs doivent être catégoriques. Dans le cas contraire, il convient de les discrétiser au préalable. Les attributs situés en haut de l'arborescence ont plus d'impact dans la classification et sont identifiés à l'aide du concept de gain d'information.
Un arbre de décision peut être facilement sur-ajusté, générant trop de branches et pouvant refléter des anomalies dues au bruit ou à des valeurs aberrantes. Un modèle sur-ajusté entraîne de très mauvaises performances sur les données invisibles, même s'il dégage des performances impressionnantes sur les données d'entraînement. Vous pouvez éviter cela grâce à la pré-taille, qui arrête précocement la construction de l'arbre, ou à la post-taille, qui enlève les branches de l'arbre adulte.
Naive Bayes est un classificateur probabiliste inspiré du théorème de Bayes sous l'hypothèse que les attributs sont conditionnellement indépendants.
La classification est effectuée en dérivant le maximum postérieur, qui est le maximum P(Ci|X), l'hypothèse ci-dessus s'appliquant au théorème de Bayes. Cette hypothèse réduit considérablement le coût de calcul en ne comptant que la distribution des classes. Même si l'hypothèse n'est pas valable dans la plupart des cas puisque les attributs sont dépendants, étonnamment, le naïf Bayes est capable de fonctionner de manière impressionnante.
Naive Bayes est un algorithme simple à mettre en œuvre et peut donner de bons résultats dans la plupart des cas. Il peut être facilement adapté à des ensembles de données plus volumineux, car cela prend un temps linéaire, plutôt que l'approximation itérative coûteuse qu'utilisent d'autres types de classificateurs.