Table of Contents
Classification et clustering
Dans l’analyse de données, l’objectif est souvent de catégoriser les individus ou mieux encore de découvrir des structures cachées.
Deux grandes approches existent : la classification supervisée et le clustering non supervisé.
Variables cibles et explicatives
Variable cible (ou variable dépendante, output, Y)
C’est la variable que l’on cherche à prédire, expliquer ou classifier.
Elle dépend des autres variables.
Elle est connue dans l’apprentissage supervisé (ex. classification, régression).
Variable explicative (ou variable indépendante, feature, X)
Ce sont les caractéristiques observées qui servent à expliquer ou prédire la variable cible.
Elles sont indépendantes entre elles (en théorie) mais influencent la variable cible.
Classification supervisée
La classification consiste à attribuer une observation à une classe prédéfinie.
On dispose d’un ensemble de données d’apprentissage étiquetées (chaque observation appartient à une classe connue) et l’algorithme apprend une règle de décision.
Méthodologie
- Constitution du jeu d’apprentissage : données avec variables explicatives (âge, revenu, historique d’achat…) et une variable cible (classe : « fidèle », « risque »).
- Choix d’un algorithme de classification.
- Apprentissage du modèle : l’algorithme ajuste ses paramètres pour minimiser l’erreur de prédiction.
- Évaluation : mesurer la précision sur de nouvelles données (validation croisée, matrice de confusion).
- Prédiction : classer les nouvelles observations.
Algorithmes courants
- Arbres de décision (CART, C4.5, Random Forest) : règles simples de type « si… alors… ».
- k-Nearest Neighbors (k-NN) : un individu est classé selon la majorité de ses plus proches voisins.
- Naïve Bayes : modèle probabiliste basé sur le théorème de Bayes.
- Régression logistique : adaptée aux classes binaires.
- SVM (Support Vector Machines) : séparateurs optimaux entre classes.
- Réseaux de neurones : pour des problèmes complexes et volumineux.
Clustering (non supervisé)
Le clustering (ou classification automatique) consiste à regrouper des individus en classes (clusters) non connues à l’avance, en fonction de leur similarité.
Il n’y a pas de variable cible : l’algorithme cherche à découvrir des structures naturelles dans les données.
Méthodologie
- Choisir une mesure de similarité (distance euclidienne, Manhattan, cosinus…).
- Appliquer un algorithme de regroupement.
- Évaluer la qualité des clusters (compacité, séparation, indice de silhouette).
- Interpréter les groupes : leur donner un sens métier (ex. « clients premium », « clients occasionnels »).
L’indice de silhouette (Silhouette Coefficient) mesure à quel point un objet (une donnée) est bien placé dans son cluster par rapport aux autres clusters.
Il évalue deux choses :
Cohésion intra-cluster → à quel point l’objet est proche des autres membres de son cluster.
Séparation inter-cluster → à quel point il est éloigné des membres des autres clusters.
Algorithmes courants
- k-Means : partitionne en k clusters en minimisant la variance intra-classe.
- Clustering hiérarchique : construit un arbre (dendrogramme) de regroupement.
- DBSCAN : identifie des zones de densité et détecte les anomalies.
- Gaussian Mixture Models (GMM) : modèles probabilistes où chaque cluster suit une distribution normale.