De l’importance de comprendre la Data Science

Sur le blog d’Alexa (l’assistant intelligent d’Amazon, concurrent du Siri d’Apple), Russ Thompson, Senior Research Scientist chez Alexa, est revenu, dans un billet datant de 2015 (mais qui reste d’actualité), sur l’importance de comprendre ce qu’est la data science (ou science des données), une nouvelle discipline qui s’appuie sur des outils mathématiques, de statistiques, d’informatique et de visualisation des données. En voici la traduction.

On a dit ces dernières années que Data Scientist est « le job le plus sexy du 21e siècle ». Mais pourquoi ce métier rencontre-t-il aujourd’hui autant de succès ? La réponse courte – et la plus évidente – est l’explosion au cours de la dernière décennie du nombre de données détenues et générées par les entreprises comme les particuliers – le fameux « Big Data ». Les data scientists (littéralement « scientifiques de la donnée ») sont les personnes en charge de donner un sens à ces données et de déterminer ce que l’on peut en faire.

La demande en data scientists augmente tellement rapidement que selon le cabinet McKinsey, l’offre de data scientists va faire un bond de 50 % par rapport à la demande en 2018. Une bonne chose, mais en quoi consiste réellement la data science ?

La Data Science, qu’est-ce que c’est ?

Un data scientist peut se définir comme la version adulte d’un enfant qui n’arrête pas de demander « Pourquoi ? ». C’est le genre de personne qui rentre dans un magasin de glaces et commande cinq saveurs différentes afin de connaître le goût de chacune. L’intitulé même « data scientist » est un terme fourre-tout qui inclue plusieurs fonctions. C’est la plus grande différence entre un data scientist et un statisticien ou un analyste ou un ingénieur ; le data scientist réalise un peu de toutes ces tâches. Bien sûr, ce qu’accomplit quelqu’un dont l’intitulé de poste est data scientist dans une entreprise donnée diffère selon l’entreprise et la personne, et certains ressemblent parfois plus à ces autres postes plutôt qu’au mix des trois.

Pour Russ Thompson, auteur de l’article paru sur le blog d’Alexa, un data scientist est quelqu’un qui réalise les tâches suivantes :
1. Analyse de données
2. Modélisation/statistiques
3. Ingénierie/prototypage

L’ordre de ces tâches est intentionnel et reflète le cycle de vie d’un projet data science. Pour être totalement honnête, il faudrait débuter cette liste par « 0. Nettoyage de données », qui peut constituer l’une des tâches les plus chronophages d’un data scientist. Cela représente également un bon test pour ces derniers : quelqu’un qui n’est pas capable de décrypter et analyser un fichier CSV en désordre ne réussira pas en tant que data scientist. Regardons plus en détails ces différentes tâches.

Nettoyage de données
Il existe aujourd’hui un très grand nombre de données disponibles mais la plupart n’est pas dans un format facile à manipuler. Cette partie du métier de data scientist consiste à s’assurer que la donnée soit dans un format qui permette à l’entreprise de l’utiliser et qui soit conforme à un certain nombre de règles.
Prenons pour exemple un fichier CSV où chaque ligne décrit les finances d’une franchise de restauration rapide. On pourrait y trouver une colonne pour la ville, le département et le nombre de hamburgers vendus l’année passée. Mais plutôt que d’avoir toutes ces données dans un seul document (ce serait trop facile !), celles-ci proviennent de plusieurs fichiers différents qu’il faut rassembler. Ce qui représente la partie la plus facile du boulot. Car la plus difficile est de faire que le résultat de ces données combinées ait un sens.
Il restera forcément des incohérences en termes de formats et l’on retrouvera certainement une ligne où le nombre d’hamburgers vendus est « Nantes » et la ville est « 25 000 ». Le nettoyage de données consiste en tout cela : débusquer ces petites erreurs, les réparer et s’assurer qu’elles ne se reproduiront plus dans le futur.

Analyse de données
Voici le genre de tâche pour laquelle tout le monde pense – à tort – que l’on utilise Excel. Un data scientist va travailler avec une gamme de données beaucoup trop volumineuse pour tenir dans une seule feuille de calcul, et beaucoup trop grande pour travailler sur un seul ordinateur.
L’analyse de données est le royaume de la visualisation (la fameuse « data visualisation »). C’est le moment où l’on « cartographie » la donnée pour la rendre plus compréhensible. Via ce process, le data scientist essaie d’élaborer une histoire et d’expliquer les données de façon à pouvoir facilement agir et communiquer dessus.
Cela peut s’avérer parfois simple, comme identifier les comportements ou événements qui montrent qu’un nouvel utilisateur devient un utilisateur à long terme, ou plus compliqué. Par exemple, les data scientists de Facebook ont trouvé qu’avoir au moins dix amis est une garantie qu’un utilisateur va rester actif sur le site. C’est pourquoi le réseau social développe autant de fonctionnalités pour permettre de trouver de nouveaux amis.

Modélisation/statistiques
Le fait qu’un data scientist pense qu’il fait plutôt de la modélisation ou des statistiques dépend principalement de son parcours. Les personnes qui ont étudié les statistiques se considèrent comme des statisticiens, alors que les autres vont se voir davantage comme des experts des modèles prédictifs ou du machine learning.
Un modèle prédictif peut être vu comme une fonction mathématique, à laquelle on donne en entrée un certain nombre de données qui caractérisent l’individu pour lequel on veut faire une prédiction, et qui en sortie propose un score pour cet individu, tout cela en réponse à une question de classification. Un mathématicien de formation qui va travailler sur des modèles va donc se voir comme un spécialiste de la modélisation plutôt que comme un statisticien.

Ingénierie/prototypage
Avoir des données propres (autrement dit nettoyées) et un modèle efficace représente seulement le sommet émergé de l’iceberg. Par exemple, même si l’on a un modèle qui va prédire de manière pertinente le nombre de personnes qui vont visiter le site Internet d’un client, cela ne sert à rien si l’on ne peut pas apporter ces prédictions à ce dernier, et ce de manière cohérente et compréhensible. Cela signifie construire une plateforme qui puisse être utilisée part des personnes (directions marketing ou CRM par exemple) qui ne sont pas data scientists. Cet outil peut avoir plusieurs formes : un graphique (data visualisation), un métrique sur un tableau de bord, une application…
Le fait qu’un data scientist construise une application complète ou juste un POC (Proof Of Concept, réalisation expérimentale préliminaire pour démontrer la faisabilité d’un concept) dépend du volume de données impliquées, de la rapidité avec laquelle doit avancer le projet et de qui seront les clients finaux. Nous vivons encore les premières heures de l’ingénierie en Big Data, et la plupart des outils et techniques qui rendent la programmation plus facile dans ce domaine ne sont pas encore disponibles ou ne fonctionnent pas encore assez bien dans ce nouveau contexte.

Conclusion
Rappelez-vous l’exemple des boules de glace en début d’article. Quand on arrive à la fin du cône, on obtient un mélange coulant de toutes les saveurs que l’on a choisies.
Le cycle de vie à long terme d’un projet data science ressemble beaucoup à cela.
On revient en arrière pour refaire son analyse car on a eu une idée inspirante le matin, qu’une nouvelle source de données est arrivée et doit être intégrée ou encore que son prototype est finalement beaucoup plus utilisé que prévu.

C’est ce qui est le plus beau avec la data science : on fait beaucoup de choses et on les fait toutes en même temps, et c’est un beau challenge – un peu comme un bonne glace avec plein de saveurs.

Par l’équipe de NP6, leader de l’e-mailing et spécialiste de la relation client

Nos contributeurs

Nos contributeurs vous proposent des tribunes ou des dossiers rédigées en exclusivité pour notre média. Toutes les thématiques ont été au préalable validées par le service Rédaction qui évalue la pertinence du sujet, l’adéquation avec les attentes de nos lecteurs et la qualité du contenu. Pour toute suggestion de tribune, n’hésitez pas à envoyer vos thématiques pour validation à veronique.benard@gpomag.fr

Du même auteur

Bouton retour en haut de la page

Adblock détecté

S'il vous plaît envisager de nous soutenir en désactivant votre bloqueur de publicité