Comment industrialiser la data science ?

L’industrialisation des données est un processus complexe qui doit suivre des étapes clairement définies. De la définition du projet à son déploiement, découvrez les différentes phases nécessaires pour aboutir à un tel projet.

Première étape : définition du projet

La première étape préalable au processus d’industrialisation consiste à une définition claire du sujet. Il est nécessaire de déterminer une idée directrice du projet avant de démarrer quoi que ce soit. Cette première étape s’inscrit dans une démarche de prototypage et de PoC (Proof Of Concept). Ces deux phases de travail peuvent être menées de front. Mettre en place une PoC dans un objectif d’industrialisation des données de DevOps et Data Science permet de s’assurer si le projet est bel et bien faisable. Lors de cette phase, on va tout d’abord s’intéresser aux données, à leur qualité et leur quantité. Il faut qu’elles soient présentes en quantité suffisante et que leur qualité soit bonne. Il est également nécessaire qu’elles soient récupérables. On va également s’assurer de la présence de moyens matériels et humains pour gérer le projet. Lors de cette étape, on va définir clairement les attentes liées aux futurs résultats. Ryax.tech est une solution d’industrialisation de la data science.

Deuxième étape : préparation des données

Sachant qu’une majorité écrasante des données a été créée dans une période très récente, récupérer les données représente un enjeu primordial dans un projet de déploiement de la data science. Il est nécessaire de mettre en place une stratégie de récupération viable dans un objectif de respect du cadre réglementaire. Parfois, il faut redoubler d’ingéniosité pour récupérer des données cloud data science difficilement accessibles. Finalement, plus les données sont importantes, mieux c’est. Quelle que soit leur nature, toutes les données sont potentiellement utiles.

Une fois que la récupération des données a été faite, il faut s’attaquer à leur nettoyage. C’est un travail colossal qui occupe une grande partie du temps des data scientists. Il faut se débarrasser de toutes les données dédoublées, erronées, obsolètes… C’est un travail fastidieux mais très important pour la suite du projet. Il permet de ne garder que les données intéressantes dans l’optique du projet qui a été défini en amont. À l’issue de cette étape, on va réunir toutes les données nettoyées dans un “data lake”.

Troisième étape : création d’un modèle statistique

Cette dernière étape est la plus intéressante. Après avoir récupéré et nettoyé les données intéressantes, on va créer un modèle statistique visant à analyser les données. Pour cela, la technologie nous permet d’avoir recours au machine learning. Deux distinctions principales permettent de distinguer le modèle d’apprentissage du machine learning :

  • L’apprentissage dit “supervisé” : à partir de données préalablement annotées, on cherche à émettre des prédictions sur des données qui n’ont pas été annotées.
  • L’apprentissage dit “non supervisé” : dans ce cas, les données n’ont pas reçu d’annotations au préalable, elles sont regroupées par différences et similitude.

Une fois que le choix du machine learning a bien été défini, on va l’évoluer. Pour cela, on observe les performances de la machine concernant les données d’entraînements qu’elle a reçu. Si les résultats sont favorables, on peut commencer à lui fournir de nouvelles données pour le traitement. Le déploiement, et par la suite la mise en production sont les dernières étapes du projet d’industrialisation. Le déploiement sur des outils solides est primordial pour une utilisation quotidienne.