Universite/sql

Fork 0

Table of Contents

Classification et clustering

Variables cibles et explicatives

Variable cible (ou variable dépendante, output, Y)
Variable explicative (ou variable indépendante, feature, X)

Classification supervisée

Méthodologie
Algorithmes courants

Clustering (non supervisé)

Méthodologie
Algorithmes courants

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

Classification et clustering

Dans l’analyse de données, l’objectif est souvent de catégoriser les individus ou mieux encore de découvrir des structures cachées.

Deux grandes approches existent : la classification supervisée et le clustering non supervisé.

Variables cibles et explicatives

Variable cible (ou variable dépendante, output, `Y`)

C’est la variable que l’on cherche à prédire, expliquer ou classifier.

Elle dépend des autres variables.

Elle est connue dans l’apprentissage supervisé (ex. classification, régression).

Variable explicative (ou variable indépendante, feature, `X`)

Ce sont les caractéristiques observées qui servent à expliquer ou prédire la variable cible.

Elles sont indépendantes entre elles (en théorie) mais influencent la variable cible.

Classification supervisée

La classification consiste à attribuer une observation à une classe prédéfinie.

On dispose d’un ensemble de données d’apprentissage étiquetées (chaque observation appartient à une classe connue) et l’algorithme apprend une règle de décision.

Méthodologie

Constitution du jeu d’apprentissage : données avec variables explicatives (âge, revenu, historique d’achat…) et une variable cible (classe : « fidèle », « risque »).
Choix d’un algorithme de classification.
Apprentissage du modèle : l’algorithme ajuste ses paramètres pour minimiser l’erreur de prédiction.
Évaluation : mesurer la précision sur de nouvelles données (validation croisée, matrice de confusion).
Prédiction : classer les nouvelles observations.

Algorithmes courants

Arbres de décision (CART, C4.5, Random Forest) : règles simples de type « si… alors… ».
k-Nearest Neighbors (k-NN) : un individu est classé selon la majorité de ses plus proches voisins.
Naïve Bayes : modèle probabiliste basé sur le théorème de Bayes.
Régression logistique : adaptée aux classes binaires.
SVM (Support Vector Machines) : séparateurs optimaux entre classes.
Réseaux de neurones : pour des problèmes complexes et volumineux.

Clustering (non supervisé)

Le clustering (ou classification automatique) consiste à regrouper des individus en classes (clusters) non connues à l’avance, en fonction de leur similarité.

Il n’y a pas de variable cible : l’algorithme cherche à découvrir des structures naturelles dans les données.

Méthodologie

Choisir une mesure de similarité (distance euclidienne, Manhattan, cosinus…).
Appliquer un algorithme de regroupement.
Évaluer la qualité des clusters (compacité, séparation, indice de silhouette).
Interpréter les groupes : leur donner un sens métier (ex. « clients premium », « clients occasionnels »).

L’indice de silhouette (Silhouette Coefficient) mesure à quel point un objet (une donnée) est bien placé dans son cluster par rapport aux autres clusters.

Il évalue deux choses :

Cohésion intra-cluster → à quel point l’objet est proche des autres membres de son cluster.

Séparation inter-cluster → à quel point il est éloigné des membres des autres clusters.

Algorithmes courants

k-Means : partitionne en k clusters en minimisant la variance intra-classe.
Clustering hiérarchique : construit un arbre (dendrogramme) de regroupement.
DBSCAN : identifie des zones de densité et détecte les anomalies.
Gaussian Mixture Models (GMM) : modèles probabilistes où chaque cluster suit une distribution normale.

Classification et clustering

Variables cibles et explicatives

Variable cible (ou variable dépendante, output, Y)

Variable explicative (ou variable indépendante, feature, X)

Classification supervisée

Méthodologie

Algorithmes courants

Clustering (non supervisé)

Méthodologie

Algorithmes courants

Variable cible (ou variable dépendante, output, `Y`)

Variable explicative (ou variable indépendante, feature, `X`)