BUSINESS CASE DATA SCIENCE : GRG

Détection des défaillances de paiement client (météo)

LE CONTEXTE

A l’issue du projet de mise en place de son environnement d’aide à la décision, la direction générale souhaitait remplacer ses fichiers Excel de gestion des risques de paiement de ces clients par une approche « Big Data » de détections des risques d’impayés.

LA METHODOLOGIE

  • Cette étape est primordiale. Il s’agit d’explorer en profondeur les données disponibles afin de déterminer les insights que l’on peut en retirer.Il s’agit de :
    • Explorer la distribution des différents descripteurs ;
    • Vérifier la fiabilité des données (valeurs manquantes, incohérentes ou aberrantes) ;
    • Déterminer les valeurs métiers que l’on peut retirer de ces données (analyse du cycle d’entretien des véhicules, du cycle d’achat de véhicule neuf, comportement clients, etc) ;
    • Définir les processus nécessaires de transformation ;

     

    Grâce à DSS, nous pouvons explorer très simplement les données car il permet de visualiser le niveau de qualité de ces données sources ainsi que d’analyser graphiquement la distribution de chaque variable.

  • Cette étape est assurée par les équipes d’INSYNIUM. Il s’agit de :
    • Réorganiser les données afin de faciliter la restitution ;
    • Calculer de nouveaux indicateurs à partir des données de détail ;
    • Discrétiser ou non des variables quantitatives ;
    • Réduire des dimensions ;

    Préparation et enrichissement des descripteurs

    DSS dispose d’une bibliothèque de fonctions de transformation des données traitant les cas les plus courant, calcul d’une durée à partir de date, regroupement de codification, mise en forme de données textuelles, discrétisation de données numériques ….

    Ces mécanismes nous permettent rapidement de pouvoir nettoyer et organiser la donnée source.

  • Il est également possible de commencer à traiter (classifier) la donnée car DSS permet aussi très simplement de créer de nouvelles variables à partir des données sources par l’utilisation d’un assistant de conception de formule (fonctionnement proche d’Excel).Pour des calculs plus complexes un script python peut être associé à cette étape de transformation.
  • Echantillonnage des données d’apprentissage et de test
  • Sélection du modèle prédictif 
  • Cette étape est assurée par les équipes d’INSYNIUM. Elle consiste à :
    • Etendre le workflow à un panel de filiales plus étendu ;
    • Identifier les axes de progrès de la solution (données complémentaires, nouveaux indicateurs …) ;
    • Démontrer de nouvelles perspectives en terme d’utilisation des données (algorithmes de clustering, algorithmes prédictifs ….) ;
  • Mise en place d’une procédure de vérification de la qualité du modèle et planification d’une actualisation de la méthode après une période de consolidation des données.

La proposition de valeur

Nos consultants ont travaillé à partir de 3 sources de données.

  • L’entrepôt qui contient l’historique des données qui a été créé dans le cadre du projet BI ;
  • Des opendata issues d’infogreffe, de l’INSEE et de plusieurs sociétés de réassurances ;
  • Les données issues des fichiers Excel qui ont servis de base d’apprentissage au modèle prédictif ;

Pour ce projet pilote, qui est en cours, nous avons utilisé la plateforme DATAIKU pour déterminer le modèle prédictif le plus adapté au contexte.

.

LES BÉNÉFICES 

Ce projet étant en cours, nous n’avons pas encore de résultats tangibles, mais les objectifs de la Direction est de diviser le coût de traitement des impayés par deux en 3 ans.