#5 - Le métier de Data Scientist et les différents types de Data Scientist

Le domaine du Data Science et ses diverses spécialités.

Simon Playe

11/5/20236 min read

👋 Hello la communauté Dataque

🙌 Bienvenue dans cette édition #5 de notre newsletter ! Que tu sois un débutant ou un expert en Data, merci de nous lire chaque semaine.

🎉 Dans cet article nous allons essayer de comprendre le métier de Data Scientist et les différents types de Data Scientist. Nous avons la chance de pouvoir échanger avec Simon Playe, Data Scientist qui a eu plusieurs expériences dans des cabinets de conseil spécialisés en Data Science et Engineering.

👨‍💻 Simon va partager avec nous son expérience et nous expliquer qu’est-ce qu’un Data Scientist.

☝️ Avant de commencer, comme promis une petite note de vocabulaire pour vous aider à comprendre tous les termes :

  • Machine Learning¹ : Une technique qui permet à un ordinateur d'apprendre à partir des données sans qu'il soit nécessaire de lui fournir une programmation explicite.
    Exemple : La reconnaisance des courriers indésirables dans une boite de réception.

  • Natural Language Programming² : Une approche qui consiste à permettre aux personnes de communiquer avec les ordinateurs en utilisant un language humain courant au lieu de devoir écrire des instructions informatiques complexes.
    Exemple : Les chatbots, comme par exemple ChatGPT, comprennent nos questions et fournissent des réponses.

  • Computer Vision³ : Une technologie permettant aux ordinateurs de "voir" et d'intérpreter le monde visuel, tout comme le font les êtres humains.
    Exemple : La reconnaissance faciale assurant par exemple l'authentification biométrique et la détection des visages sur les photo.

👋 Hello Simon,

Est-ce que tu peux nous parler de ton parcours professionnel et pourquoi tu as décidé de devenir Data Scientist ?

Mon parcours est assez atypique, puisque je n’ai ni une formation d’ingénieur, ni une formation d’informaticien. En effet, j’ai fait toute ma scolarité à Dauphine où j’ai d’abord suivi une formation très générale en économie avant d’intégrer un Magistère en finance. Néanmoins, j’ai toujours été curieux et intéressé par tout ce qui touchait aux ordinateurs.

Lors de mes premières années à l'université, j’ai commencé à coder mes premiers petits programmes en Python et j’ai même programmé un jeu en ligne avec une vieille tour de PC en guise de serveur hôte.

Ma curiosité pour la Data Science s’est développée à la fin de ma deuxième année de Magistère (équivalent à une première année de Master). Je cherchais un stage qui me permettrait de coder, et j’ai eu la chance de pouvoir rejoindre Kayrros en tant que Data Scientist Junior pour quelques mois. L’expérience m’a vraiment plu.

Avant de rejoindre Sicara, j’ai quand même tenté d’avoir quelques expériences dans des secteurs se rapprochant plus de ma formation (assurance et finance de marché), mais le cœur n’y était pas. J’ai donc définitivement décidé de me concentrer sur la Data Science en signant mon premier CDI chez Ekimetrics et ensuite rejoindre Sicara.

C’est quoi un Data Scientist et quel est son but ?

L’expression “Data Scientist” regroupe un éventail de métiers qui peuvent être assez différents les uns des autres. Cependant, tous les Data Scientists vont recueillir, traiter et analyser les données pour obtenir un résultat particulier (prédiction, reconnaissance d’image, explication d’une tendance, etc.).

Une des particularités des Data Scientists est que cette analyse des données se fait en utilisant des modèles de Machine Learning¹ - terme à prendre dans son sens large en incluant aussi bien les régressions linéaires que les algorithmes de NLP². Si j’ai dit au départ que le terme “Data Scientist” peut désigner des métiers très différents c’est parce que tous les Data Scientists ne vont pas travailler de la même façon.

Certains vont passer beaucoup de temps sur la collecte et le traitement des données, puis travailler sur des modèles de Machine Learning assez simples (régressions linéaires ou logistiques, arbre de décision, etc.). D’autres, au contraire, vont se concentrer sur la création de modèles très complexes : ces Data Scientists sont parfois appelés “Machine Learning Engineers”.

Les outils utilisés peuvent aussi fortement varier tout comme les produits livrés (un Data Scientist peut livrer des présentations, des algorithmes ou même des logiciels).

Quels sont les types de Data Scientist et comment varient leurs domaines d'expertise ?

Il est plutôt difficile de catégoriser des types de Data Scientist. Un Data Scientist peut travailler sur différentes missions au cours du temps et dans différents domaines d’expertise. Cependant, on peut dégager quelques tendances en fonction de savoir si le Data Scientist :

  • Travaille sur la collecte et le traitement des données ou sur la construction des modèles.

  • Construit des modèles plus ou moins complexes.

  • Se spécialise dans un certain type de modèle (NLP, Computer Vision³, Machine Learning classique, Séries Temporelles, etc.).

  • Cherche à mettre en production ou non son code. S’i c'est le cas, le role de Data Scientist peut se rapprocher de celui d’un Data Engineer. En revanche, s’il vise principalement à produire des résultats pour des présentations, le Data Scientist peut se confondre avec un Data Analyst.

Quels sont les langages de programmation et les technologies couramment utilisés par les Data Scientists, et est-ce que cela diffère en fonction du type de Data Scientist ?

Étant donné la vaste gamme d'expertise des Data Scientists, les outils utilisés peuvent vraiment varier. Certains Data Scientists travaillent exclusivement avec Excel et Power BI. Ceux qui sont chargés de mettre leur code en production peuvent utiliser une large palette d’outils similaires à ceux des Data Engineers (Kubernetes, Docker, Databricks, etc.).

Les Data Scientists/Data Analysts travaillent souvent avec des outils comme Tableau pour visualiser leurs résultats. D’autres Data Scientists ont une approche plus statistique et construisent leurs modèles en utilisant R.

Enfin, ceux qui manipulent des ensembles de données très volumineux utilisent des Libraries spécifiques telles que PySpark. Néanmoins, le langage de programmation Python est une constante dans le domaine de la Data Science. La plupart des Data Scientists l’utilisent dans leurs projets et en ont une maîtrise avancée.

Est-ce que tu as des bonnes pratiques à partager, des conseils à donner ou des ressources intéressantes aux personnes qui veulent se lancer en Data Science?

Je l’ai déjà mentionné à plusieurs reprises : le terme “Data Scientist” englobe un large éventail de métiers. Je pense qu’avant de se lancer dans le domaine de la Data Science, il est essentiel de comprendre clairement ce que ce terme signifie concrètement, puis de cibler les postes de Data Science qui correspondent à vos attentes. Il est crucial de vérifier que l’intitulé du poste auquel vous postulez correspond à votre vision de ce qu’est un Data Scientist.

En effet, entre un Data Scientist qui construit des modèles sur Excel et prépare des présentations PowerPoint, et un autre qui développe des modèles complexes de NLP ou de Computer Vision qu’il va mettre en production, les compétences développées ne sont pas du tout les mêmes, et les rôles sont très variés.

Un autre conseil : si vous êtes intéressés par la Data Science, ne perdez pas de temps et commencez dès maintenant à vous former. En effet, il existe énormément de ressources en ligne pour se former en Data Science, notamment parce que les technologies évoluent en permanence, et de nouvelles avancements sont regulièrement partagées sur différents forums, sous forme d’articles ou de MOOC.

Ce point m’amène à un autre point : n’ayez pas peur de vous lancer, même si vous n’avez pas suivi une formation dans ce domaine. Bien que posséder diplôme en Data Science soit toujours apprécié, la nature évolutive des technologies et l'ampleur des compétences requises en Data Science font que la plupart des programmes académiques ne couvrent qu'une partie des compétences nécessaires. Vous pouvez combler ce fossé et acquérir les compétences nécessaires, même sans un diplôme spécifique en Data Science.

Merci beaucoup pour votre lecture et à la semaine prochaine pour un nouvel article.

🚨 PS: Si tu aimes notre newsletter, n'hésite pas à la partager autour de toi et à nous suivre sur Linkedin pour ne rater aucune de nos aventures.