56 lines
1.6 KiB
Markdown
56 lines
1.6 KiB
Markdown
Parfait 👍 Alors, puisque vous avez vos vecteurs nutritionnels dans une colonne nutrition vector (normalisés avec un Z-score), vous pouvez utiliser l’extension pgvector pour faire une classification KNN directement dans PostgreSQL.
|
||
|
||
Voici un exemple de requête complète en k-nearest neighbors (kNN) :
|
||
|
||
-- Supposons que vous avez :
|
||
-- table produit(id serial, nom text, famille text, nutrition vector)
|
||
|
||
-- Exemple : on veut classifier un produit inconnu
|
||
|
||
```sql
|
||
WITH nouveau AS (
|
||
SELECT
|
||
ARRAY[
|
||
80, -- énergie (kcal/100g)
|
||
3.5, -- protéines
|
||
12, -- glucides
|
||
11, -- sucres
|
||
2.0, -- graisses
|
||
0.8, -- graisses_saturées
|
||
0.1, -- sel
|
||
1.2, -- fibres
|
||
5, -- nutriscore numérique
|
||
0 -- nombre d'additifs
|
||
]::vector AS nutrition
|
||
)
|
||
SELECT p.famille,
|
||
COUNT(*) AS voisins,
|
||
ROUND(AVG(p.nutrition <-> n.nutrition)::numeric, 3) AS distance_moyenne
|
||
FROM produit p
|
||
JOIN nouveau n ON true
|
||
ORDER BY p.nutrition <-> n.nutrition -- tri par distance euclidienne
|
||
LIMIT 5; -- on récupère les 5 plus proches voisins
|
||
```
|
||
|
||
```sql
|
||
Étape suivante : classification majoritaire
|
||
|
||
Pour prédire la famille (yaourt ou confiture), on peut compter la famille majoritaire parmi les k plus proches voisins :
|
||
|
||
WITH nouveau AS (
|
||
SELECT ARRAY[80, 3.5, 12, 11, 2.0, 0.8, 0.1, 1.2, 5, 0]::vector AS nutrition
|
||
),
|
||
voisins AS (
|
||
SELECT p.famille
|
||
FROM produit p
|
||
JOIN nouveau n ON true
|
||
ORDER BY p.nutrition <-> n.nutrition
|
||
LIMIT 5 -- k=5
|
||
)
|
||
SELECT famille, COUNT(*) AS occurrences
|
||
FROM voisins
|
||
GROUP BY famille
|
||
ORDER BY occurrences DESC
|
||
LIMIT 1; -- famille prédite
|
||
```
|