De l’importance de comprendre la Data Science

De l’importance de comprendre la Data Science

Évaluer cet élément
(0 Votes)

Sur le blog d’Alexa (l’assistant intelligent d’Amazon, concurrent du Siri d’Apple), Russ Thompson, Senior Research Scientist chez Alexa, est revenu, dans un billet datant de 2015 (mais qui reste d’actualité), sur l’importance de comprendre ce qu’est la data science (ou science des données), une nouvelle discipline qui s’appuie sur des outils mathématiques, de statistiques, d’informatique et de visualisation des données. En voici la traduction.

On a dit ces dernières années que Data Scientist est « le job le plus sexy du 21e siècle ». Mais pourquoi ce métier rencontre-t-il aujourd’hui autant de succès ? La réponse courte – et la plus évidente – est l’explosion au cours de la dernière décennie du nombre de données détenues et générées par les entreprises comme les particuliers – le fameux « Big Data ». Les data scientists (littéralement « scientifiques de la donnée ») sont les personnes en charge de donner un sens à ces données et de déterminer ce que l’on peut en faire.

La demande en data scientists augmente tellement rapidement que selon le cabinet McKinsey, l’offre de data scientists va faire un bond de 50 % par rapport à la demande en 2018. Une bonne chose, mais en quoi consiste réellement la data science ?

La Data Science, qu’est-ce que c’est ?

Un data scientist peut se définir comme la version adulte d’un enfant qui n’arrête pas de demander « Pourquoi ? ». C’est le genre de personne qui rentre dans un magasin de glaces et commande cinq saveurs différentes afin de connaître le goût de chacune. L’intitulé même « data scientist » est un terme fourre-tout qui inclue plusieurs fonctions. C’est la plus grande différence entre un data scientist et un statisticien ou un analyste ou un ingénieur ; le data scientist réalise un peu de toutes ces tâches. Bien sûr, ce qu’accomplit quelqu’un dont l’intitulé de poste est data scientist dans une entreprise donnée diffère selon l’entreprise et la personne, et certains ressemblent parfois plus à ces autres postes plutôt qu’au mix des trois.

Pour Russ Thompson, auteur de l’article paru sur le blog d’Alexa, un data scientist est quelqu’un qui réalise les tâches suivantes :
1. Analyse de données
2. Modélisation/statistiques
3. Ingénierie/prototypage

L’ordre de ces tâches est intentionnel et reflète le cycle de vie d’un projet data science. Pour être totalement honnête, il faudrait débuter cette liste par « 0. Nettoyage de données », qui peut constituer l’une des tâches les plus chronophages d’un data scientist. Cela représente également un bon test pour ces derniers : quelqu’un qui n’est pas capable de décrypter et analyser un fichier CSV en désordre ne réussira pas en tant que data scientist. Regardons plus en détails ces différentes tâches.

Nettoyage de données
Il existe aujourd’hui un très grand nombre de données disponibles mais la plupart n’est pas dans un format facile à manipuler. Cette partie du métier de data scientist consiste à s’assurer que la donnée soit dans un format qui permette à l’entreprise de l’utiliser et qui soit conforme à un certain nombre de règles.
Prenons pour exemple un fichier CSV où chaque ligne décrit les finances d’une franchise de restauration rapide. On pourrait y trouver une colonne pour la ville, le département et le nombre de hamburgers vendus l’année passée. Mais plutôt que d’avoir toutes ces données dans un seul document (ce serait trop facile !), celles-ci proviennent de plusieurs fichiers différents qu’il faut rassembler. Ce qui représente la partie la plus facile du boulot. Car la plus difficile est de faire que le résultat de ces données combinées ait un sens.
Il restera forcément des incohérences en termes de formats et l’on retrouvera certainement une ligne où le nombre d’hamburgers vendus est « Nantes » et la ville est « 25 000 ». Le nettoyage de données consiste en tout cela : débusquer ces petites erreurs, les réparer et s’assurer qu’elles ne se reproduiront plus dans le futur.

Analyse de données
Voici le genre de tâche pour laquelle tout le monde pense – à tort – que l’on utilise Excel. Un data scientist va travailler avec une gamme de données beaucoup trop volumineuse pour tenir dans une seule feuille de calcul, et beaucoup trop grande pour travailler sur un seul ordinateur.
L’analyse de données est le royaume de la visualisation (la fameuse « data visualisation »). C’est le moment où l’on « cartographie » la donnée pour la rendre plus compréhensible. Via ce process, le data scientist essaie d’élaborer une histoire et d’expliquer les données de façon à pouvoir facilement agir et communiquer dessus.
Cela peut s’avérer parfois simple, comme identifier les comportements ou événements qui montrent qu’un nouvel utilisateur devient un utilisateur à long terme, ou plus compliqué. Par exemple, les data scientists de Facebook ont trouvé qu’avoir au moins dix amis est une garantie qu’un utilisateur va rester actif sur le site. C’est pourquoi le réseau social développe autant de fonctionnalités pour permettre de trouver de nouveaux amis.

Modélisation/statistiques
Le fait qu’un data scientist pense qu’il fait plutôt de la modélisation ou des statistiques dépend principalement de son parcours. Les personnes qui ont étudié les statistiques se considèrent comme des statisticiens, alors que les autres vont se voir davantage comme des experts des modèles prédictifs ou du machine learning.
Un modèle prédictif peut être vu comme une fonction mathématique, à laquelle on donne en entrée un certain nombre de données qui caractérisent l’individu pour lequel on veut faire une prédiction, et qui en sortie propose un score pour cet individu, tout cela en réponse à une question de classification. Un mathématicien de formation qui va travailler sur des modèles va donc se voir comme un spécialiste de la modélisation plutôt que comme un statisticien.

Ingénierie/prototypage
Avoir des données propres (autrement dit nettoyées) et un modèle efficace représente seulement le sommet émergé de l’iceberg. Par exemple, même si l’on a un modèle qui va prédire de manière pertinente le nombre de personnes qui vont visiter le site Internet d’un client, cela ne sert à rien si l’on ne peut pas apporter ces prédictions à ce dernier, et ce de manière cohérente et compréhensible. Cela signifie construire une plateforme qui puisse être utilisée part des personnes (directions marketing ou CRM par exemple) qui ne sont pas data scientists. Cet outil peut avoir plusieurs formes : un graphique (data visualisation), un métrique sur un tableau de bord, une application…
Le fait qu’un data scientist construise une application complète ou juste un POC (Proof Of Concept, réalisation expérimentale préliminaire pour démontrer la faisabilité d’un concept) dépend du volume de données impliquées, de la rapidité avec laquelle doit avancer le projet et de qui seront les clients finaux. Nous vivons encore les premières heures de l’ingénierie en Big Data, et la plupart des outils et techniques qui rendent la programmation plus facile dans ce domaine ne sont pas encore disponibles ou ne fonctionnent pas encore assez bien dans ce nouveau contexte.

Conclusion
Rappelez-vous l’exemple des boules de glace en début d’article. Quand on arrive à la fin du cône, on obtient un mélange coulant de toutes les saveurs que l’on a choisies.
Le cycle de vie à long terme d’un projet data science ressemble beaucoup à cela.
On revient en arrière pour refaire son analyse car on a eu une idée inspirante le matin, qu’une nouvelle source de données est arrivée et doit être intégrée ou encore que son prototype est finalement beaucoup plus utilisé que prévu.

C’est ce qui est le plus beau avec la data science : on fait beaucoup de choses et on les fait toutes en même temps, et c’est un beau challenge – un peu comme un bonne glace avec plein de saveurs.

Par l'équipe de NP6, leader de l’e-mailing et spécialiste de la relation client



Lu 4954 fois Dernière modification le mardi, 09 mai 2017 07:53
Nos contributeurs

Nos contributeurs vous proposent des tribunes ou des dossiers rédigées en exclusivité pour notre média. Toutes les thématiques ont été au préalable validées par le service Rédaction qui évalue la pertinence du sujet, l’adéquation avec les attentes de nos lecteurs et la qualité du contenu. Pour toute suggestion de tribune, n’hésitez pas à envoyer vos thématiques pour validation à veronique.benard@gpomag.fr

Annonces

V3 Banniere

Le magazine digital

Inscrivez-vous à notre édition digitale pour feuilleter gratuitement le prochain numéro

inscrit.png   

Paru le 4 mars 2024
GPO Magazine N°113
Demandez votre exemplaire au service Vente au numéro

Lire l'extrait GPO 113.png

Paru le 27 novembre 2023
Édition Spéciale Transformation digitale
Recevez-le dès aujourd'hui !
Abonnez-vous à l'année en cliquant ici

Vignette Lire un extrait HS Transfo Digitale.png

Livres Blanc et E-book

Le Système d'Exploitation Hybride Windows 11 de Microsoft Booste la Productivité et la Sécurité en Entreprise
Microsoft a récemment dévoilé Windows 11, son dernier système d'exploitation, qui s'adapte parfaitement au mode…
Quelle stratégie pour établir une relation commerciale durable en Allemagne : un guide pour les dirigeants d’entreprises françaises
L'Allemagne, premier partenaire commercial de la France, demeure un marché d'exportation incontournable pour les entreprises…
Comment favoriser sa transition vers une économie mondiale durable ?
La CSRD contribue à l’objectif de l’Union européenne de promouvoir une économie durable et responsable,…
Plus de livres blanc

Webinaires

Facturation Électronique 2024 : une opportunité de performer pour les entreprises !
Une enquête de Wax Digital a révélé que 70 % des professionnels de la comptabilité…
Comment faire prospérer son entreprise dans la conjoncture actuelle ?
Pour accompagner les entreprises au plus près de leurs préoccupations, les experts de KPMG, Crédit…
Comment aborder la fin du « quoi qu’il en coûte » ?
Symboles du « quoi qu'il en coûte » comme réponse au Covid-19, les prêts garantis…
Plus de webinaires

Services aux entreprises

 

è  DÉMATÉRIALISATION DES FACTURES : Une opportunité de performer pour les entreprises

visuel dématérialisation des factures.jpg

è  BUSINESS FRANCE : Établir des relations commerciales en l'Allemagne

L'Allemagne est le premier partenaire commercial de la France et représente le plus fort potentiel à l'export de la France à horizon 2025. Ce marché à la fois passionnant et exigeant mérite d'adopter une stratégie durable pour établir une relation commerciale sur le long terme. Tel est l'objectif de ce livre blanc de 64 pages intitulé "Quelle stratégie pour établir une relation commerciale avec l'Allemagne", proposé par Business France et ses partenaires de la Team France, et téléchargeable gracieusement.

 Couverture Livre Blanc Business France Allemagne.png

 

è  SYLOB : ERP pour l'industrie

Anticiper les évolutions industrielles et se projeter dans l'usine intelligente du futur, tels sont les objectifs visés par ce guide pratique de 20 pages à destination des PME intitulé "Industrie 4.0 & ERP", proposé par Sylob et téléchargeable gracieusement.

Couv Sylob CTA.png

 

è  ACROBAT : L'application PDF

Acrobat, l'application PDF n°1 adoptée par + de 5 millions de professionnels dans le monde. Rencontre avec Lofti Elbouhali, spécialiste Adobe chez inmac wstore

GPO Magazine

GPO Magazine, pour Gérer, Prévoir et Optimiser les ressources de l'entreprise est un magazine d'aide à la décision bimestriel, axé sur l'optimisation de la gestion d'entreprise, pour concrètement guider ses lecteurs dirigeants dans leurs réflexions stratégiques, leurs démarches opérationnelles, la gestion de leurs droits et dans le choix de leurs partenaires.

Une ligne éditoriale concrète et pertinente qui conjugue tendances, cas concrèts et témoignages, dossiers d'analyse, dossiers marchés, dossiers métiers, focus, point de droit, point international, point fiscal. Plus des " Avis d'Experts ".

Contactez-nous

Nos autres sites d'information

Twitter - Derniers posts