Prédiction avec scikit-learn

Dans le monde du Big Data et de l'analyse prédictive, scikit-learn s'est imposé comme la bibliothèque de référence pour le machine learning en Python. Son intégration transparente avec les systèmes de gestion de bases de données en fait un outil incontournable pour les data scientists travaillant sur des projets d'envergure.

1. Fondamentaux de scikit-learn pour l'analyse prédictive

Scikit-learn propose une API cohérente pour l'apprentissage automatique, particulièrement adaptée aux projets impliquant des bases de données massives. Les principales interfaces sont :

fit() : entraînement du modèle
predict() : prédiction sur de nouvelles données
transform() : transformation des données

Configuration de l'environnement


# Installation des dépendances
pip install scikit-learn pandas numpy psycopg2
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
import psycopg2  # Pour la connexion PostgreSQL

2. Intégration avec les bases de données

L'un des aspects cruciaux est l'extraction efficace des données depuis les systèmes de stockage.


# Connexion à PostgreSQL et chargement des données
def load_data_from_db():
    conn = psycopg2.connect(
        dbname="analytics_db",
        user="data_scientist",
        password="",
        host="localhost"
    )
    
    query = """
        SELECT feature1, feature2, target
        FROM ml_dataset
        WHERE data_quality_score > 0.8
    """
    
    df = pd.read_sql(query, conn)
    conn.close()
    return df
# Chargement et préparation des données
df = load_data_from_db()
X = df.drop('target', axis=1)
y = df['target']

3. Pipeline de prétraitement et modélisation

La création d'un pipeline robuste est essentielle pour garantir la reproductibilité et la maintenabilité du modèle.

from sklearn.pipeline import Pipeline from sklearn.compose import ColumnTransformer from sklearn.impute import SimpleImputer # Définition du pipeline numeric_features = ['feature1', 'feature2'] numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()) ]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features) ]) # Pipeline complet model_pipeline = Pipeline([ ('preprocessor', preprocessor), ('classifier', LogisticRegression()) ])
# Entraînement X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model_pipeline.fit(X_train, y_train)

4. Optimisation des performances

L'optimisation des requêtes et du traitement des données est cruciale pour les performances globales.

from sklearn.model_selection import GridSearchCV # Paramètres à optimiser param_grid = { 'classifier__C': [0.1, 1.0, 10.0], 'classifier__max_iter': [100, 200, 300] } # Recherche par grille avec validation croisée grid_search = GridSearchCV( model_pipeline, param_grid, cv=5, n_jobs=-1, scoring='accuracy' )
grid_search.fit(X_train, y_train)

5. Persistance et déploiement

La sauvegarde et le déploiement du modèle doivent être intégrés dans l'infrastructure existante.

import joblib # Sauvegarde du modèle joblib.dump(grid_search.best_estimator_, 'model.joblib')
# Fonction de prédiction pour l'API def predict_from_db(connection_string, query): # Chargement du modèle model = joblib.load('model.joblib') # Récupération des données with psycopg2.connect(connection_string) as conn: data = pd.read_sql(query, conn) # Prédiction predictions = model.predict(data) return predictions

6. Monitoring et maintenance

Le suivi des performances du modèle en production est essentiel.

from sklearn.metrics import classification_report import logging # Configuration du logging logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__)
def monitor_model_performance(y_true, y_pred): report = classification_report(y_true, y_pred) logger.info(f"Performance Report:\n{report}") # Stockage des métriques dans la base de données with psycopg2.connect(connection_string) as conn: cursor = conn.cursor() cursor.execute(""" INSERT INTO model_metrics (accuracy, timestamp) VALUES (%s, NOW()) """, (accuracy_score(y_true, y_pred),)) conn.commit()

7. Tests et validation

La mise en place de tests automatisés garantit la fiabilité du système.

import unittest
class ModelTestCase(unittest.TestCase): def setUp(self): self.model = joblib.load('model.joblib') def test_prediction_shape(self): test_data = pd.DataFrame({ 'feature1': [1, 2, 3], 'feature2': [4, 5, 6] }) predictions = self.model.predict(test_data) self.assertEqual(len(predictions), 3) def test_database_connection(self): with psycopg2.connect(connection_string) as conn: self.assertTrue(conn.status == 1)

Conclusion

L'intégration de scikit-learn avec les systèmes de bases de données nécessite une approche méthodique et structurée. Les points clés à retenir sont :

L'importance d'une pipeline de données robuste

L'optimisation des performances à chaque niveau

La mise en place d'un système de monitoring efficace

L'automatisation des tests et de la validation

Cette approche permet de construire des solutions d'analyse prédictive fiables et maintenables dans un contexte de production.

Prédiction avec scikit-learn

5

0

2

1. Fondamentaux de scikit-learn pour l'analyse prédictive

Configuration de l'environnement

2. Intégration avec les bases de données

3. Pipeline de prétraitement et modélisation

4. Optimisation des performances

5. Persistance et déploiement

6. Monitoring et maintenance

7. Tests et validation

Conclusion

Partager cet article

Commentaires (0)

Rejoignez la discussion

Première discussion

À propos de l'auteur

Olivier Dupuy

Articles similaires

Navigation rapide

Prédiction avec scikit-learn

5

0

2

1. Fondamentaux de scikit-learn pour l'analyse prédictive

Configuration de l'environnement

2. Intégration avec les bases de données

3. Pipeline de prétraitement et modélisation

4. Optimisation des performances

5. Persistance et déploiement

6. Monitoring et maintenance

7. Tests et validation

Conclusion

Partager cet article

Commentaires (0)

Rejoignez la discussion

Première discussion

À propos de l'auteur

Olivier Dupuy

Articles similaires

Docker pour environnements de données

Deep Learning avec TensorFlow

Optimiser NoSQL avec MySQL

Navigation rapide