Ingénieur diplômé de l’École nationale de la statistique et de l'analyse de l'information du Groupe des écoles nationales d'économie et statistique
Niveau 7 — Master / Diplôme d'ingénieurEnregistrement de droitEnregistrée jusqu'au 31/08/2027
Diplôme d'ingénieur de niveau bac+5 délivré par l'ENSAE, école de référence en statistique et analyse de données. Cette formation prépare les étudiants à maîtriser les enjeux de la collecte, du traitement et de l'exploitation des données. Elle s'adresse à ceux souhaitant mener des études statistiques, piloter des projets data ou conseiller les organisations. Les diplômés acquièrent des compétences en ingénierie statistique, informatique décisionnelle et gestion de projet.
Débouchés concrets
Ingénieur statisticien en organisation publique ou privée
Conception d’un projet de collecte (répondant aux besoins d’un commanditaire) * Définition des données à collecter * Description et choix des méthodes de collecte * Réalisation d’enquêtes statistiques et de procédures automatisées de collecte des données. Mise en œuvre un système d’information DATA exploitable par les parties prenantes de l’organisation. * Création de l’environnement applicatif * Traitement des données brutes * Documentation de l’accès à l’application ainsi que les données * Mise à disposition des données auprès des parties prenantes Proposition d’un modèle mathématique, statistique et/ou économique permettant de représenter au mieux les relations et les structures dans les données. * Présentation de la variabilité d’un phénomène statistique * Mesure des effets de variables en vue d’expliquer un phénomène observé. Réalisation d’analyse prédictive * Ajustement des paramètres du modèle sur des données d'entraînement * Formalisation d’analyse statistique * Actions d’optimisation Production d’informations à l’intention des équipes métiers (y compris publics en situation de handicap) permettant l’évaluation, l’organisation, la prise de décision. Formalisation des éléments suivants : * Informations descriptives permettant de comprendre les tendances, identifier les patterns, ou évaluer les performances. * Les informations prédictives permettent de prévoir des événements futurs, pour prendre des décisions stratégiques, identifier les risques, ou optimiser les opérations. * Informations prescriptives indiquant les actions à entreprendre pour atteindre un objectif : améliorer les performances, optimiser les ressources, ou résoudre des problèmes. Ces informations peuvent prendre la forme d’indicateurs statistiques, de tableaux de bords, de graphiques, de bases de données, de nouvelles variables caractérisant les indicateurs étudiés. La forme est adaptée à l’interlocuteur notamment en cas de situation de handicap spécifique afin de veiller à l’égalité de traitement en matière d’information. * Restitution des résultats des modèles mis en œuvre Piloter des projets DATA * Promotion de l’usage de la donnée auprès des différents métiers de l’entreprise * Pilotage des projets Data en assurant le cadrage et en animant les différentes phases du projet * Garantie du bon usage de la data dans le respect du cadre légal, déontologique, éthique. Spécialisation de l’ingénieur en Datascience, activités visées selon les options : Option 1 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine du marketing * Développement des modèles d'analyse prédictive pour la segmentation des clients, la prévision des ventes ou l'optimisation des campagnes marketing * Développement des services de marketing digital (système de recommandation, qualification des leads, ciblage, chatbot, personnalisation des messages) Option 2 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la biostatistique * Analyse des données cliniques et populationnelles pour identifier des tendances et des associations dans le domaine de la santé * Analyse du volume de données caractérisées par un très grand nombre de variables et peu d’observations Option 3 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la gestion des risques * Analyse de données bancaires pour identifier des tendances et des associations * Développement de modèles d'analyse prédictive pour la gestion des risques de crédit et des risques de marché * Evaluation des prix de produits financiers complexes Option 4 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine des entreprises industrielles (filière génie statistique) * Résoudre des problèmes réels et proposer des solutions IA (maintenance prédictive, optimisation des process, création de produits…) Option 5 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la modélisation économique et santé * Aide à la décision et évaluation des politiques et des actions dans le secteur de la santé, de l’environnement, des territoires et des populations Option 6 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de l’ingénierie des données * Création d’un environnement applicatif (le cas échéant adapté au big data) en sélectionnant les plateformes et systèmes logiciels permettant l’accès aux données aux différentes parties prenantes de l’organisation * Création d’un pipeline de collecte et de traitement des données dans un cadre MLOps * Optimisation du stockage des données de façon sécurisée et efficiente. * Maintenir le système informatique de données massives.
Capacités attestées
L'ingénieur diplômé de l’École nationale de la statistique et de l'analyse de l'information du Groupe des écoles nationales d'économie et statistique pilote et met en œuvre des projets de collecte de données Il peut ainsi concevoir et mettre en œuvre des enquêtes statistiques ou un système de production de données statistiques à partir de sources diverses ( données des SI de l’entreprise, du web). Il conçoit et met en œuvre le prétraitement des données et leur mise à disposition en tenant compte de la finalité et des contraintes techniques, règlementaires et environnementales. L'ingénieur diplômé de l’École nationale de la statistique et de l'analyse de l'information du Groupe des écoles nationales d'économie et statistique met en œuvre des modélisations et des analyses prédictives sur données structurées ou non structurées en s'appuyant sur une démarche scientifique. Il maîtrise en particulier les différentes méthodes économétriques et d'apprentissage. L'ingénieur diplômé de l’École nationale de la statistique et de l'analyse de l'information du Groupe des écoles nationales d'économie et statistique met en forme les résultats, les interprète et leur donne du sens. Il communique aussi bien à l’écrit qu'à l’oral avec les parties prenantes de l’entreprise en s'adaptant au public visé. L'ingénieur diplômé de l’École nationale de la statistique et de l'analyse de l'information du Groupe des écoles nationales d'économie et statistique participe aux projets de l’entreprise en valorisant et optimisant l’apport des sciences de la donnée dans le respect des cadres déontologiques, éthiques et de développement durable. Il réalise une veille technologique et scientifique sur son domaine d'expertise. Liste détaillées des compétences attestées : * Cartographier les besoins data en mettant en oeuvre une démarche scientifique (ateliers d’expression des besoins, états des lieux du SI, enquête auprès des équipes métiers, …) pour répondre aux enjeux stratégiques et organisationnels du commanditaire et en prenant en compte les aspects légaux, éthiques et multiculturels * Modéliser l’application permettant l’accès aux données définies dans l’étape de cartographie des besoins afin de définir un projet de collecte adapté intégrant l’ensemble des sources de données (données internes, accessibles sur internet via webscrapping ou collectées) * Définir un plan d’échantillonnage, un mode de collecte et des procédures adaptées afin de se prémunir de tout biais ou erreurs pendant le processus de collecte (par enquêtes ou à l’aide de procédures automatisées) * Déployer la procédure de collecte et les programmes en réalisant des tests afin de rendre accessible l’accès aux données utiles aux parties prenantes de l’organisation * Définir des règles de gestion de nettoyage des bases de données (formatage, suppression des doublons…) afin de garantir la traçabilité et la reproductibilité de l’ensemble des opérations réalisées * Prétraiter les données d’enquêtes (analyse des non-répondants, repondération…) afin d’en établir des éléments statistiques utiles à la prise de décision * Organiser la base de données en s’appuyant sur des règles de gestion de structuration des différentes bases de données en vue de mettre à disposition les données * Communiquer les solutions concernant les accès, la documentation sur les données aux équipes métiers afin de faciliter leur compréhension et leurs usages potentiellement dans un contexte multiculturel et/ou international * Sélectionner les variables permettant de répondre à la problématique donnée en les catégorisant par type de variable (variable d’intérêt, variable explicative, modificateur d’effet, facteur de confusion, variable de contexte) afin de mettre en oeuvre le modèle pertinent. * Explorer des données non étiquetées de manière automatique en mettant en oeuvre des modèles ou algorithmes d’apprentissage non supervisé afin de réaliser la segmentation de données, la réduction de dimensionnalité, les détections d’anomalies, ou encore la génération de caractéristiques latentes. * Choisir la stratégie d‘imputation des valeurs manquantes à partir des caractéristiques des données en s’appuyant sur différentes méthodes afin de proposer les résultats le plus fiables possibles * Modéliser une variable à expliquer en mettant en oeuvre les modèles de régression y compris dans les cas complexes (grand nombre de variables, multi colinéarité) afin d’identifier les relations entre les variables et prédire des valeurs futures. * Estimer de manière causale l’hétérogénéité des effets d’un traitement (politique publique, campagne marketing…) en mettant en oeuvre les techniques économétriques adaptées (variables instrumentales, score de propension, double différence, machine learning) et en mobilisant les principaux concepts de l’économie (micro et macro-économie) afin de corriger l’endogénéité des variables explicatives * Modéliser une variable en utilisant les modèles supervisés non paramétriques et en s’appuyant sur les méthodes (arbres de décision, forêts aléatoires, méthodes à noyaux, machines à vecteur de support avec noyaux non linéaires) afin de prédire un comportement. * Réaliser une analyse prédictive en utilisant les réseaux de neurones profonds (deep learning) afin d’extraire les caractéristiques des données dans les situations complexes (données massives, analyse textuelles, traitement de l’image...) * Adapter le modèle aux données déséquilibrées pour améliorer la précision des prédictions, réduire le biais, améliorer la compréhension du modèle. * Évaluer les performances des algorithmes des modèles d’apprentissage selon différents critères (scores, temps d'entraînement GPU, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier. * Traiter les données textuelles avec les outils du NLP (traitement automatique du langage nature) afin de réaliser la classification de texte, l’extraction d’informations, et l’analyse de sentiments permettant la compréhension et la prise de décision. * Optimiser les temps de traitement en choisissant les solutions informatiques les plus adaptées à la volumétrie des données et à la complexité des données (traitement données massives, cloud computing, calcul distribué) afin de gagner en efficacité opérationnelle et réduire les coûts énergétiques. * Modéliser les évolutions d’une caractéristique, en fonction du temps et à partir de l’analyse des séries chronologiques (en mettant en oeuvre des modèles ARIMA, SARIMA, Holt-Winters, Réseaux de neurones récurrents) afin de faire des prévisions de valeurs futures et d’agir sur certains déterminants * Modéliser la probabilité de la survenue d’un événement en analysant des données de survie (durée) permettant la compréhension et la prise de décision. * Fournir les éléments qualitatifs et quantitatifs rendant les résultats des modèles intelligibles et interprétables afin d’améliorer la confiance et l’acceptabilité des modèles, et limiter le risque de biais et de discrimination en compte du contexte multiculturel et/ou international. * Réaliser des analyses descriptives et exploratoires en mettant en oeuvre les procédures statistiques (logiciels métier, langage informatique…) afin de décrire et qualifier les différentes données * Produire des indicateurs répondant aux problématiques métiers en précisant leurs propriétés métrologiques et leurs limites d’interprétation afin d’accompagner la prise de décisions et la prise en compte des contraintes environnementales et du développement durable. * Représenter visuellement les données de manière à les rendre plus compréhensibles et accessibles. * Construire avec les équipes métiers une maquette des informations qui seront produites et/ou des tableaux de bords afin d’accompagner la prise de décision * Réaliser des notes explicatives à l’attention des parties prenantes et lecteurs non data scientists permettant une prise de décision éclairée à partir d’une bonne compréhension des résultats et de leur limites (interprétabilité, intelligibilité) et tenant compte d’un contexte multiculturel et/ou international ou de la présence d’un éventuel profil en situation de handicap. * Réaliser la présentation orale d’une démarche de modélisation à un client interne/externe afin de partager les résultats et faciliter la prise de décision de l'interlocuteur et tenant compte d’un contexte multiculturel et/ou international * Rédiger une note méthodologique explicitant les algorithmes utilisés afin de convaincre de la justesse et de la fiabilité du travail engagé. * Participer aux ateliers d’expression des besoins internes ou aux réunions de services en s’appuyant sur sa capacité d’écoute active et de questionnement afin de collecter des éléments d’information pour nourrir sa mission et favoriser la stratégie d’utilisation de la data dans l’entreprise. * Traduire de manière analytique les problématiques métiers afin de proposer des solutions data adaptées éventuellement créatives ou innovantes dans l’organisation au service de l’intrepreneuriat ou l’entreprenariat ou de la recherche * Rédiger un cahier des charges adapté à la complexité des projets reprenant les éléments de la commande (objectifs et contraintes), les solutions proposées, les ressources, le planning, les livrables afin de formaliser clairement la demande et d’assurer le bon suivi du projet * Accompagner les projets « Data » en animant les différentes phases et en pilotant les actions de gestion de l’informations (informations techniques, ordre du jour, compte-rendu, synthèse) en s’appuyant sur les outils collaboratifs afin de communiquer sur les points d’avancement auprès des parties prenantes (groupes techniques, comité de pilotage, instances légitimes, …) * Déployer une stratégie de collecte, de stockage et de diffusion de la donnée qui respecte le cadre RGPD et qui s’appuie sur les recommandations internes de son DPO (délégué à la protection des données) afin de sécuriser la démarche * Identifier les biais des algorithmes engagés par sa propre action afin de les corriger et ainsi de prévenir l’automatisation (invisible) de la discrimination produite. * Réaliser une veille technologique et scientifique dans le domaine de la data science afin d’améliorer les solutions proposées pour l’entreprise et anticiper les risques juridiques, environnementaux et éthiques * Réaliser une veille technologique dans le domaine de la data science en s’appuyant notamment sur les outils I.A. afin d’améliorer les solutions proposées pour l’entreprise et gagner en performance dans son activité et inscrire son action dans l’amélioration continue * Diminuer l’impact carbone du traitement des données en sélectionnant les solutions de stockage et de traitement les moins énergivores, en choisissant les algorithmes et en diminuant la dimension des données sous contraintes d’une qualité satisfaisante des modèles. OPTION 1 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine du marketing : * Collecter les données de vente et de CRM (les données de comportement des clients), les données de réseaux sociaux, etc. en mobilisant les logiciels métiers et les outils du web scraping et web mining afin de les traiter et analyser pour les mettre à disposition des équipes marketin * Développer des modèles d'analyse prédictive pour la segmentation des clients s’appuyant notamment sur les techniques de scoring afin de permettre la prévision des ventes ou l'optimisation des campagnes marketing * Automatiser le traitement des flux d’informations à destination des prospects et clients en utilisant les outils du deep learning pour permettre à l’entreprise de mener des opérations de marketing digital * Produire les informations qualifiant les algorithmes de façon à pouvoir apprécier les aspects discriminatoires de ceux-ci et les réguler le cas échéant OPTION 2 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la biostatistique : * Collecter les données (cliniques, épidémiologiques, suivi de cohortes etc.) afin de les traiter et analyser pour les commanditaires du domaine de la santé (laboratoire pharmaceutique, laboratoire de recherche, institution de santé publique) * Réaliser des analyses d’association dans le champ de la santé en utilisant les outils statistiques afin de produire et d’interpréter des résultats ou des analyses permettant des analyses causales ou prédictives * identifier les facteurs de risques et estimer des fractions attribuables en population afin de quantifier les effets d’un traitement ou d’une exposition en population et déterminer des leviers d’actions sur le plan sanitaire * Gérer et analyser des données omiques (caractéristiques du génome) afin d’établir des associations entre un trait ou un phénotype et des caractéristiques génétiques OPTION 3 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la gestion des risques : * Analyser les données bancaires telles que les données de transactions, les données de crédit, les données de comportement des clients en mobilisant les outils de scoring ou de modélisation statistique afin de produire des éléments d’aide à la décision appuyant les équipes métiers dans leurs missions (ouverture de crédit, opérations frauduleuse, proposition commerciale d’autres produits bancaires…) * Participer à la réalisation d’une analyse de risque de l’ensemble du dispositif bancaire en utilisant des modèles statistiques définis par le législateur avec d’autres modèles d’intelligence artificielle afin de sécuriser le processus * Développer des modèles d’analyse s’appuyant sur les techniques de modélisation statistique, de machine Learning et d'intelligence artificielle spécifique à la gestion des risques bancaires afin de traiter des données volumineuses et complexes * Développer des modèles d’analyse utilisés en ingénierie financière et finance de marché permettant d’estimer le prix de produits financiers complexes OPTION 4 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine des entreprises industrielles (filière génie statistique) : * Concevoir un dispositif de suivi en temps réel de l’activité en implémentant une solution technique et/ou logicielle et en collectant les données provenant de capteurs et objets connectés afin de déployer un processus d’efficacité opérationnelle en optimisant les consommations énergétiques tout au long du processus de production. * Modéliser la fiabilité des systèmes au cours du temps de façon à organiser les opérations de maintenance * Concevoir et/ou analyser un système soumis à des évènements extrêmes de façon à s’en prévenir * Qualifier le niveau de performance des processus de production afin de mettre en place des actions correctives notamment à partir des constats de gaspillages et de pertes pendant le processus de production. OPTION 5 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de la modélisation économique et santé : * Collecter les données médico-administratives susceptibles de répondre la demande en termes descriptifs et de modélisation afin de mettre à disposition des éléments utile à la prise de décision * Analyser les données grâce aux outils du machine learning et du deep learning et aux méthodes et outils de l’économétrie afin de mesurer l’impact des actions engagées * Estimer les effets d’un programme afin d’identifier les leviers d’action des mesures de prévention sur le plan sanitaire et économique * Bâtir une estimation des coûts économiques et sociaux d’expositions environnementales, du recours ou du non-recours à des traitements en santé afin d’optimiser l’efficacité économique des programmes en santé OPTION 6 : spécialisation du data scientist dans un domaine d’activité, activités et compétences distinctives du domaine de l’ingénierie des données : * Concevoir et développer une application multi-tiers en Python (ou autre langage informatique) en utilisant plusieurs services externes. * Définir une stratégie Big Data en collaboration avec la direction SI de l’entreprise et en sélectionnant les plateformes et systèmes logiciels adaptés pour permettre la collecte et le traitement des données, en particulier les données massives et complexes permettant la mise en oeuvre de la stratégie de l’entreprise. * Structurer une architecture de stockage de données (data warehouse, data lake…) tout en respectant la politique de sécurité des données afin de répondre aux besoins data des équipes métiers * Automatiser des processus de déploiement, de tests et de maintenance curative et préventive afin de s'assurer de la fiabilité de la solution et de maintenir un haut niveau d’efficacité de la solution proposée
Secteurs d'activité
Le besoin de traitement de la donnée touche un nombre croissant d’entreprises dans tous les secteurs d’ activité. Les spécialistes du traitement de l’information et les data scientists sont recherchés tout autant dans des start-ups, dans des entreprises ayant digitalisé leurs activités que dans de grands groupes ou les administrations publiques et le service statistique publique pour lesquels l’exploitation de données est stratégique. Les diplômés de l’école sont principalement recrutés dans la banque, l'assurance, les sociétés de conseil, l'industrie pharmaceutique, l’industrie classique (EDF, SNCF, Automobile, …), le secteur de l’ énergie ou le commerce et la distribution. Depuis plusieurs années les demandes d’emplois se développent dans d’autres domaines très divers : la cybersécurité, le sport, les sciences de l’éducation, la génétique, les neurosciences.
Types d'emplois accessibles
* Ingénieur statisticien, statisticien, data scientist, biostatisticien, ingénieur R&D (Recherche et Développement) * Chargé d’études statistiques, économiques ou marketing * Analyste quantitatif en finance, Risk Manager * Consultant statisticien * Ingénieur en systèmes décisionnels (industrie, grande distribution, banque, finance…) * Responsable du contrôle qualité ou d’études de Fiabilité * Chef de projet base de données
Certificateurs
GROUPE DES ECOLES NATIONALES D ECONOMIE ET STATISTIQUE
SIRET 13001422800089
Actif
Codes NSF (Nomenclature des Spécialités de Formation)
122b — Modèles économétriques ; Méthodes d analyse économique
326m — Informatique, traitement de l'information
Source officielle : Répertoire National des Certifications Professionnelles (RNCP),
tenu à jour par France Compétences. Consulter la fiche officielle sur le portail public :
francecompetences.fr — fiche RNCP40694
ⓘ Les données affichées sont reproduites depuis l'export quotidien officiel. Elles peuvent légèrement différer
des mises à jour les plus récentes du portail France Compétences.