1
vecteurs.classification
medina5 edited this page 2025-09-16 07:52:01 +02:00
This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

Classification et clustering

Dans lanalyse de données, lobjectif est souvent de catégoriser les individus ou mieux encore de découvrir des structures cachées.

Deux grandes approches existent : la classification supervisée et le clustering non supervisé.

Variables cibles et explicatives

Variable cible (ou variable dépendante, output, Y)

Cest la variable que lon cherche à prédire, expliquer ou classifier.

Elle dépend des autres variables.

Elle est connue dans lapprentissage supervisé (ex. classification, régression).

Variable explicative (ou variable indépendante, feature, X)

Ce sont les caractéristiques observées qui servent à expliquer ou prédire la variable cible.

Elles sont indépendantes entre elles (en théorie) mais influencent la variable cible.

Classification supervisée

La classification consiste à attribuer une observation à une classe prédéfinie.

On dispose dun ensemble de données dapprentissage étiquetées (chaque observation appartient à une classe connue) et lalgorithme apprend une règle de décision.

Méthodologie

  1. Constitution du jeu dapprentissage : données avec variables explicatives (âge, revenu, historique dachat…) et une variable cible (classe : « fidèle », « risque »).
  2. Choix dun algorithme de classification.
  3. Apprentissage du modèle : lalgorithme ajuste ses paramètres pour minimiser lerreur de prédiction.
  4. Évaluation : mesurer la précision sur de nouvelles données (validation croisée, matrice de confusion).
  5. Prédiction : classer les nouvelles observations.

Algorithmes courants

  • Arbres de décision (CART, C4.5, Random Forest) : règles simples de type « si… alors… ».
  • k-Nearest Neighbors (k-NN) : un individu est classé selon la majorité de ses plus proches voisins.
  • Naïve Bayes : modèle probabiliste basé sur le théorème de Bayes.
  • Régression logistique : adaptée aux classes binaires.
  • SVM (Support Vector Machines) : séparateurs optimaux entre classes.
  • Réseaux de neurones : pour des problèmes complexes et volumineux.

Clustering (non supervisé)

Le clustering (ou classification automatique) consiste à regrouper des individus en classes (clusters) non connues à lavance, en fonction de leur similarité.

Il ny a pas de variable cible : lalgorithme cherche à découvrir des structures naturelles dans les données.

Méthodologie

  1. Choisir une mesure de similarité (distance euclidienne, Manhattan, cosinus…).
  2. Appliquer un algorithme de regroupement.
  3. Évaluer la qualité des clusters (compacité, séparation, indice de silhouette).
  4. Interpréter les groupes : leur donner un sens métier (ex. « clients premium », « clients occasionnels »).

Lindice de silhouette (Silhouette Coefficient) mesure à quel point un objet (une donnée) est bien placé dans son cluster par rapport aux autres clusters.

Il évalue deux choses :

Cohésion intra-cluster → à quel point lobjet est proche des autres membres de son cluster.

Séparation inter-cluster → à quel point il est éloigné des membres des autres clusters.

Algorithmes courants

  • k-Means : partitionne en k clusters en minimisant la variance intra-classe.
  • Clustering hiérarchique : construit un arbre (dendrogramme) de regroupement.
  • DBSCAN : identifie des zones de densité et détecte les anomalies.
  • Gaussian Mixture Models (GMM) : modèles probabilistes où chaque cluster suit une distribution normale.