Comment Dataiku a aidé la Bred à améliorer la gestion de ses GAB grâce aux données

Un article mindFintech

Depuis 2018, la Bred utilise les services de Dataiku pour ses projets de Big Data. Lors du salon Big Data Paris 2019, deux de ses data scientists ont présenté un cas d’usage portant sur la gestion du parc de guichets automatiques bancaires (GAB).

Comment limiter le temps d’indisponibilité de ses 620 guichets automatiques bancaires (GAB), aussi bien en France que dans les DOM-TOM ? C’est de ce besoin exprimé par la Bred, banque du groupe BPCE, qu’est né un projet de machine learning présenté par le data scientist François Simeonidis lors du dernier salon Big Data Paris 2019.
Pour y parvenir, la Data Factory de la banque a fait appel à Dataiku, une entreprise de Service as a platform (SaaS) fondée en 2013 par Florian Douetteau, Marc Batty, Clément Sténac et Thomas Chabrol. Son outil phare : le Data Science Studio (DSS), une plateforme collaborative qui permet aux équipes de data scientists, data analysts, aux directions business ou aux équipes IT de mener leurs projets big data de bout en bout, de la préparation des données jusqu’à l’outil data opérationnel.

Variations d’indisponibilité

François Simeonidis explique : “nous avions une base de relevés d’indisponibilité de nos guichets, et nous souhaitions nous en servir pour améliorer leur gestion et les interventions”. Avec son équipe et Dataiku, ils travaillent sur un Proof of Concept. Dans la proposition : une interface unifiée, une couche de data science, et une autre de data visualisation. Le temps de les chiffrer, de présenter les premiers résultats, puis de livrer : le PoC est prêt 30 jours plus tard. Et les résultats sont probants.

“Les données nous ont permis de constater que, sur la totalité des relevés d’indisponibilité des guichets, la répartition de la durée de ces pannes était très asymétrique”, explique le data scientist, graphique à l’appui. 20% de ces arrêts durent moins de 4 secondes, 40% moins de 2 minutes, et seulement 20% dépassent les 15 minutes. Autre découverte de l’équipe de la Data Factory : ces indisponibilités s’avèrent tout à fait irrégulières dans le temps. “Dans les DOM-TOM, on devine qu’un événement climatique peut avoir des effets sur la mécanique de plusieurs GAB à la fois”, avance l’ingénieur, mais autrement, il reste difficile d’expliquer pourquoi plus de machines tombent en panne en mars 2018 qu’en mars 2017.

Les analystes regroupent alors les GAB par types et par durée d’indisponibilité, et réalisent que 72,25% d’entre eux ne rencontrent que rarement des problèmes. “Sur les autres, les analyses de données ont permis de faire remonter des défauts techniques : certains ont des problèmes de crypteurs, d’autres présentent plutôt des faiblesses de lecture de carte, ou bien de communication avec le réseau”, relate François Simeonidis. Une autre approche a aussi été tentée, en construisant des agrégats d’indisponibilités pour observer si les pannes antérieures permettaient d’anticiper les suivantes, mais cette technique n’a pas fonctionné correctement. “Finalement, nous avons choisi d’établir des seuils de durée d’indisponibilité au delà-desquels nous savons désormais qu’il faut envoyer une équipe réparer le guichet automatique”, ajoute le responsable du projet. Comme certaines indisponibilités de GAB durent moins d’une ou deux secondes, l’équipe a aussi construit des outils de paramétrage pour pouvoir conserver les seules informations de la base de données qui les intéressent, et en évacuer le bruit.

Montée en compétences

Puis est venue l’étape de la mise à l’échelle : la Data Factory utilise alors les fonctionnalités du DSS permettant de séparer le processus en sous-projets, plus simples à produire. La plateforme a aussi permis d’implémenter les différentes approches de l’analyse des données remontées du parc de GAB : le modèle général, mais aussi ceux concernant des sous-populations, par zones géographiques ou selon le mainteneur des machines par exemple. L’outil construit pour ce cas d’usage a été installé en deux fois, d’abord pour le cluster de test, puis pour celui de production.

François Simeonidis souligne le besoin d’y dédier une personne à plein temps pendant les premiers mois d’utilisation, mais aussi la possibilité qu’a offert Dataiku de commencer l’industrialisation dès la phase de prototypage, et la souplesse de sa solution. “Elle nous a notamment permis de gagner du temps dans l’analyse des données et dans les premiers choix de nos paramètres de classification, tout en nous laissant programmer en python ou R quand c’était plus efficace”, indique-t-il.

Plus globalement, le recours aux services de Dataiku a permis à la BRED de structurer les projets de data science, de mieux les suivre, et a favorisé l’acculturation au big data dans l’entreprise. Gilles Demarre, account manager de Dataiku, confirme le constat : plusieurs cas d’usage ont été identifiés par la BRED – des scores d’appétence, des risques d’attrition, ou encore de la lutte contre la fraude, notamment. “Or l’un de nos buts est d’opérer un vrai transfert de compétences vers les utilisateurs du DSS”, explique-t-il. Si, dans un premier temps, Dataiku a envoyé son partenaire Avisia aider à définir les besoins précis de la Data Factory, l’entreprise a ensuite mis sa plateforme à disposition, puis laissé les data scientist et les data analyst en utiliser les fonctions qui les intéressaient. Devant le cas des GAB, Gilles Demarre estime que “les équipes de la BRED ont visiblement gagné en agilité et en rapidité dans la réalisation de leurs projets big data.”

Une rationalisation pour une meilleure exploitation des données

En 2015, la Bred réfléchit à son usage de la data science : elle développe son cluster de données, le couple à des outils de l’écosystème Hadoop – un framework libre et open source qui facilite la fabrication d’applications distribuées et leur mise à l’échelle – tels qu’Apache Spark ou Apache Hive, et réalise ses premiers cas d’usage. En 2018, elle crée une Data Factory pour gérer les projets de data science de la DSI, ainsi que, notamment, ceux des divisions développement et risque et conformité.
“Il est arrivé un moment où nous avions trop d’outils différents pour les maintenir et les utiliser efficacement”, explique Bertrand Ring, en charge de la Data Factory. Par ailleurs, les métiers sont souvent obligés de se tourner vers la DSI pour préparer les données, accéder au cluster correspondant, ou lors de la mise à l’échelle. L’équipe se tourne donc vers Dataiku, dont le Data Science Studio rassemble la majeur partie de ce que d’autres logiciels font séparément. “Il a donné une autonomie nouvelle aux métiers, reconnaît Bertrand Ring. Un autre point positif est l’accent mis par le DSS sur la collaboration, rendue beaucoup plus simple via sa plateforme qu’à coups de mails et de téléphones.”

Grégory Herbert, vice-président Europe continentale de Dataiku, confirme : “notre vision est de sortir l’intelligence artificielle de la boîte noire qu’elle représente. Donc de la rendre explicable, et d’en faciliter la prise en main par les métiers”. C’est l’une des raison pour lesquelles l’entreprise intégrée au DSS des outils comme AutoML, un instrument d’automatisation du machine learning utilisable par des gens qui ne codent pas. “Cela participe à l’acculturation des entreprises au big data”, estime Grégory Herbert.

par Mathilde Saliou

29 août 2019 Alizée BlogPrincipal, Non classé

Previous Next

Comment Dataiku a aidé la Bred à améliorer la gestion de ses GAB grâce aux données