Concepteur manager des infrastructures de données massives
Niveau 7 — Master / Diplôme d'ingénieurEnregistrement sur demandeEnregistrée jusqu'au 19/07/2026
Cette formation de niveau bac+5 forme des professionnels capables de concevoir et piloter des architectures de données massives. Destinée à des informaticiens confirmés ou des ingénieurs, elle couvre la veille technologique, la spécification des besoins, le dimensionnement d'infrastructures et l'intégration de solutions ETL. Les participants acquièrent les compétences pour évaluer des outils complexes, architecturer des pipelines de données et assurer la gouvernance des systèmes d'information à large échelle.
* Veille scientifique, technologique et règlementaire, identification de l’état de l’art des outils et plateformes logiciels ETL * Spécification des besoins et dimensionnement des infrastructures de données massives dans une perspective pluriannuelle * Evaluation et sélection d’une solution ETL globale incluant des développements en propre, des plateformes logicielles et des API disponibles sur le marché * Développement d’une infrastructure et management des flux et des stocks de données dans le respect du RGAA et du RGPD * Identification et sélection des solutions data lake les plus performantes sur le marché * Déploiement d’outils d’extraction et de stockage de données brutes en interne ou dans le cloud * Management des opérations de traitement des données brutes avant stockage dans un data lake * Supervision de la rédaction des documents supports à l’utilisation des outils et plateformes logicielles * Management de la mise en place des bases de données internes et externes dans le respect du RGPD et des critères du RGAA * Evaluation et sélection d’une solution de traitement et d’entreposage des données * Déploiement des processus de traitement et de formatage des données brutes pour entreposage * Mise à disposition de données fiables et pertinentes pour les utilisateurs * Elaboration d’un guide d’utilisation des plateformes et des API déployées * Elaboration d’un cahier des charges technique et fonctionnel répondant aux besoins des scientistes et des analystes * Pilotage du développement d’API, de requêtes et de routines automatisées avec implication de l’ensemble des parties prenantes * Anticipation des besoins utilisateurs et amélioration continue des plateformes logicielles ETL * Mise en œuvre d’indicateurs de performance des projets sur l’ensemble de leur cycle de vie * Management des processus d’automatisation et de fiabilisation des infrastructures, des plateformes et des interfaces * Contribution à l’amélioration de la qualité des données mises à dispositions des utilisateurs * Conception et mise en œuvre de Tests d’intégration avant déploiement d’algorithmes d’IA, de nouvelles plateformes logicielles ou d’API
Capacités attestées
* Mettre en œuvre une veille scientifique, technologique et règlementaire concernant les outils et plateformes logiciels d’extraction de traitement et de stockage (ETL) de données massives; * Anticiper les besoins futurs pour concevoir et dimensionner une architecture compatible avec la montée en charge des cas d’usage notamment ceux liés à l’IA ; * Mobiliser des savoirs techniques hautement spécialisés en plateformes et outils logiciels pour évaluer différentes solutions ETL assurant la collecte, le nettoyage et l’entreposage de données massives internes ou externes structurées, semi-structurées et non structurées; * Recueillir les besoins des différents cas d’usage notamment ceux liés à l’intelligence artificielle pour développer une architecture de flux de données en établissant un cahier des charges fonctionnel et technique ; * Concevoir une infrastructure fonctionnelle et matérielle pour organiser les flux et les traitements de données depuis des sources multivariées internes et externes jusqu’à un utilisateur final (DG, Direction marketing, Data analystes, data scientistes …) ; * Mobiliser les principes de la RSE et le RGPD pour participer à l’établissement des règles de gouvernance et de conservation des données et garantir l’accessibilité des data selon les normes du RGAA; * Recenser et caractériser les outils d’extraction et de stockage de données brutes disponibles sur le marché pour sélectionner la solution la plus adaptée aux besoins de l’entreprise ; * Mobiliser des savoirs techniques approfondis en déploiement de bases de données pour évaluer les mérites et les limites d’un stockage en propre par rapport à une solution déportée sur le cloud; * Mettre en œuvre un processus complet d’extraction pour recueillir des données issues de sources multiples et les stocker dans une base de données brutes (lac) centralisée ; * Identifier et préparer toutes les données pertinentes afin de faciliter leur traitement et leur stockage ultérieurs dans un entrepôt de données ; * Documenter l’utilisation des bases de données externes et internes pour gérer et entretenir le lac de données en respectant le RGPD et en garantissant l’accessibilité des données selon les normes du RGAA; * Synthétiser les besoins des utilisateurs pour concevoir des modèles de données performants et résilients afin de faciliter les travaux de data science et de datavisualisation ; * Mobiliser des savoirs techniques avancés en gestion de bases de données pour sélectionner et mettre en œuvre les solutions de traitement et de stockage massifs adaptées au besoin de l’entreprise ; * Veiller à l’application des critères du RGAA dans la mise en œuvre des solutions pour garantir l’accessibilité des données aux PSH ; * Trier, nettoyer et structurer des données brutes pour fabriquer des données propres exploitables par les data scientistes et les data analystes ; * Organiser le stockage des données dans un entrepôt de manière à assurer la gestion de la data durant la totalité de son cycle de vie conformément aux directives RGPD ; * Mettre en place des solutions innovantes de types API pour améliorer le temps de mise à disposition de données fiables et exploitables par les data analystes; * Etablir un cahier des charges technique et fonctionnel pour répondre aux besoins évolutifs des data scientistes, data analystes, partenaires métiers et de la direction générale de l’entreprise ; * Piloter des projets en mobilisant des équipes pluridisciplinaires (data scientistes, responsable marketing, direction générale, …) pour développer des interfaces types API et des requêtes automatisées à destination de cas d’usage multivariés ; * Mobiliser des connaissances approfondies en programmation pour développer et superviser le développement des routines informatiques en mode DEV/OPS[1] et réduire le temps de mise à disposition de nouvelles fonctionnalités utiles à l’utilisateur des données; * Collaborer avec les chefs de produits, les responsables métiers et la direction générale afin d’anticiper les nouveaux usages de la data et élaborer des nouvelles fonctionnalités ; * Optimiser en continu les processus ETL pour proposer des solutions accessibles aux PSH et plus efficientes en termes de consommation d’énergie et de ressources ; * Mettre en place des indicateurs de performance projet pour assurer la production de livrables au niveau de qualité attendu, dans les délais et les budgets fixés par le cahier des charges; * Automatiser et fiabiliser les processus d’extraction et de traitement pour réduire le temps de mise à disposition de données fiables et pertinentes ; * Fiabiliser une infrastructure, des plateformes logicielles et des API, pour mettre des données fiables et pertinentes à disposition des utilisateurs en anticipant les opérations de maintenance et de mise à jour ; * Réaliser des tests d’intégration avant déploiement et organiser des retours sur expérience utilisateurs pour contribuer à l‘assurance qualité de l’architecture et de l’infrastructure des mouvements et stockages de données ; * Mobiliser des savoirs hautement spécialisés pour évaluer et anticiper les risques concernant la sécurité des données en lien avec le RSSI et la protection des données en lien avec le DPO; * Assurer la fourniture de données propres et pertinentes pour faciliter l’apprentissage machine et la science des données en collaboration avec les data scientistes ; * Déployer à grande échelle de nouveaux algorithmes conçus en laboratoire par les data scientistes pour mieux modéliser les relations entre les données ; * Prendre en compte les risques sur le plan de l’éthique et la RSE vis-à-vis des technologies d’intelligence artificielle pour définir les critères qualité d’une infrastructure data fiabilisée et industrialisée.
Secteurs d'activité
Initiée au milieu des années 2000 dans les grands groupes du secteur banque et assurances, l’exploitation de données massives à des fins prédictives et prescriptives se développe aujourd’hui au sein de plus petites structures de types ETI et PME dans des secteurs très variés : bancassurance, grande distribution, énergie, industries, transports, services… Le secteur de la data est également structuré à partir d’un écosystème comprenant des startups technologiques (TPE), des agences de conseil en data (TPE et PME), des Entreprises de Services Numériques (ESN) spécialisées en data (PME et ETI) et des éditeurs de plateformes logicielles (grands groupes informatiques internationaux et PME) spécifiques au secteur de la data.
Types d'emplois accessibles
Data Engineer - Data Architecte - Expert en infrastructure data - Ingénieur DEV / OPS Data - Ingénieur Big Data
Certificateurs
EXCELIA GROUP
SIRET 34876850800015
Actif
Codes NSF (Nomenclature des Spécialités de Formation)
326 — Informatique, traitement de l'information, réseaux de transmission
Source officielle : Répertoire National des Certifications Professionnelles (RNCP),
tenu à jour par France Compétences. Consulter la fiche officielle sur le portail public :
francecompetences.fr — fiche RNCP37750
ⓘ Les données affichées sont reproduites depuis l'export quotidien officiel. Elles peuvent légèrement différer
des mises à jour les plus récentes du portail France Compétences.