Cette formation RNCP de niveau bac+5 prépare des professionnels capables de concevoir et gérer des architectures de données massives. Destinée aux étudiants ayant des bases en informatique ou en ingénierie, elle couvre l'infrastructure cloud, les pipeline de données et les enjeux éthiques de l'IA. Elle forme des experts opérationnels, aptes à superviser des projets complexes en environnement big data et à anticiper les évolutions technologiques du secteur.
Capacités attestées
Mettre en place un processus de veilles technologique, éthique, environnementale, socio-économique et réglementaire (IA Act, ISO, sobriété numérique) en matière d’intelligence artificielle en s’appuyant sur des sources dédiées afin d’anticiper l’évolution des normes et règlements applicables à la certificabilité des systèmes intégrant des intelligences artificielles ou des traitements de données massives (UE/hors UE). Analyser les cas d'usage en data et en intelligence artificielle déjà implémentés, en s’appuyant sur la réalisation d’une cartographie des exigences normatives et règlementaires de l’entreprise, des contraintes opérationnelles pour les évaluer, les enrichir et en créer de nouveaux en capitalisant sur l’expérience acquise. Définir le projet de développement d’infrastructures de données massives à réaliser en interaction avec les parties prenantes, en procédant par itérations successives, en vue d’établir une liste exhaustive de ses attentes et prenant en compte les situations de handicap, les risques éthiques et environnementaux. Identifier les besoins métiers et les outils de data science applicables selon le contexte et les objectifs attendus en présentant des préconisations et en intégrant des outils inclusifs IA/Data science adaptés à la problématique métier ainsi qu’à la politique RSE de la structure afin de rédiger le cahier des charges. Evaluer toutes les compétences nécessaires à la réalisation du projet d’intelligence artificielle, à la conduite du changement, en s’appuyant sur la cartographie des profils nécessaires au projet et prenant en compte les situations de handicap, en vue de constituer une équipe inclusive de développement Intégrer les profils recrutés en favorisant l’inclusion des personnes en situation de handicap, en collaborant avec le référent handicap de l’entreprise et en identifiant les besoins en formation, d'assurer leur montée en compétences opérationnelle dans un délai de 12 mois. Superviser la rédaction du cahier des charges fonctionnels et techniques, en justifiant les choix opérés, et spécifier les livrables afin de déterminer les budgets et les ressources alloués pour la réalisation du projet. Définir la structure générale d’une architecture de données event-driven, flux temps réel en ayant recours à la méthodologie de conception et en respectant les cahiers des charges afin de mettre en place une solution d’intelligence artificielle. Vérifier la cohérence, la performance et la qualité de la base de données définie et des formats en s’appuyant sur la méthodologie de conception des bases de données (optimisation des pipelines de données) dans le but de les rendre exploitables par une solution d’intelligence artificielle et de minimiser l’empreinte carbone. Définir et mettre en place des indicateurs de mesure de la cohérence, de la performance et de la qualité des données sécurisées à partir opérations des tests et des processus de maintenance curative/préventive dans le but de monitorer le retour sur investissement des projets applicatifs et anticiper des difficultés. Gérer les données historiques en utilisant des indicateurs de performance afin de garantir la disponibilité, la qualité et l’amélioration continue de la fiabilité des données sécurisées et responsables. Etablir un plan d’investissement annuel et mobiliser les financements en se basant sur les plans d’évolution du système d’information afin de réaliser un plan global et de valorisation des données sécurisées. Mobiliser les techniques et outils de conduite de projets inclusifs en mobilisant la culture DevOps et mettant en place des indicateurs de suivi afin de produire les livrables du projet dans le temps imparti, au niveau de qualité attendu. Motiver et fédérer les équipes projet d’intelligence artificielle en les sensibilisant à la prévention en matière de santé et de sécurité au travail, aux principes de sécurité informatique, au processus d’amélioration continue afin de construire des objectifs individuels ou collectifs à travers le dialogue et le consensus prenant en compte les situations de handicap et le développement durable. Concevoir une stratégie d’ingestion des données massives et une architecture d’entrepôt de données massives responsable dans un environnement cloud, multi-cloud, edge et hybrides en mobilisant une expertise des solutions de manipulation des données (ETL/ELT) pour optimiser la rapidité (run-time), le stockage et la protection de données structurées ou non structurées provenant de sources multivariées. Communiquer la stratégie de mise en œuvre de l’architecture d’entrepôt de données massives (Data lineage, Data warehouse, Data Lake, Data Mesh, Data vault) et ses résultats aux parties prenantes en respectant le cahier des charges ainsi que la réglementation en matière de sécurité informatique afin de renforcer la valeur stratégique, compétitive et l’éco-responsabilité de l’entreprise. Coordonner les équipes mobilisées dans le déploiement des architectures Big Data, en planifiant les activités, en facilitant la circulation de l’information entre les parties prenantes techniques et métiers, et en arbitrant les choix opérationnels nécessaires afin de garantir l’intégration, la sécurisation, la valorisation et la conformité responsable des données traitées. Collecter des ensembles volumineux de données structurées et non structurées issues de sources internes et externes de l’entreprise à l’aide de solutions adaptées de manipulation de données afin d’en dégager des résultats visualisables sur des interfaces de visualisation et/ou modélisation. Développer les composants de l’intelligence artificielle en langage de programmation approprié en respectant les normes du domaine et les principes déontologiques établis afin de respecter la démarche d’assurance qualité du code produit dans une logique de ‘Green coding’. Développer des algorithmes tels que les forêts aléatoires, les arbres de décision, l’algorithme K-Nearest Neighbors, la régression linéaire, l’algorithme de Naïve Bayes, la machine à vecteurs de support (SVM), régression logistique et boosting de gradient, IA générative, NLP avancé, multimodalité et green algorithmes reposant sur des modèles statistiques en vue de mettre en œuvre les processus d’apprentissage automatique (« Machine learning ») et d’estimer le bilan carbone d’un calcul. Mettre en œuvre les technologies reposant sur les réseaux de neurones et prenant en compte les principes éthiques selon les normes en vigueur en vue d’automatiser le traitement de données non structurées. Evaluer différentes solutions de formatage et de stockage en se basant sur les solutions de chiffrements, de monitoring post-déploiement et de pare-feux ainsi qu’en prenant en compte les contraintes éthiques et légales en vue de favoriser leur traitement, leur centralisation, leur sécurisation et la réduction de leur empreinte carbonée. Créer ou identifier les différents algorithmes d’optimisation du traitement et de la visualisation des données (dont les green algorithmes) pour évaluer leur capacité à résoudre des problèmes spécifiques prendre des décisions plus “vertes”. Présenter les résultats d’analyses de données massives sous la forme d’infographies en mettant en la configuration des requêtes de manière à faciliter la prise de décision managériale ou opérationnelle. Etablir le schéma général des accès à l’application développée prenant en compte le référentiel d’accessibilité (RGAA), en vue d’assurer leur cohérence avec l’organisation de l’entreprise utilisatrice et les différentes parties prenantes. Auditer régulièrement la production de la solution d’intelligence artificielle en s’appuyant sur le retour d’expérience des utilisateurs en interne et en externe (logs, métriques) afin d’adapter les fonctionnalités et les caractéristiques techniques du projet d’intelligence artificielle. Assurer la pérennité de la solution informatique en surveillant l’évolution des données de travail afin d’éviter la dégradation des performances des modèles d’intelligence artificielle mis en production et assurer un niveau de sécurisation des données optimal défini par la DSI. Rédiger les protocoles de maintenance et les procédures techniques/technologiques d'exploitation à destination des entités utilisatrices, en configurant les éléments nécessaires garantissant la sécurisation des données (cybersécurité) et des systèmes afin de mener à bien tout projet de développement et anticiper les risques du système de gouvernance des données. Identifier le cycle de vie des cas d’usage de l’intelligence artificielle en monitorant le modèle en production afin d’assurer la maintenance de l’infrastructure et d’en anticiper les évolutions prenant en compte les enjeux environnementaux. Concevoir un ensemble de tests de surveillance des pipelines d’intégration continue et de déploiement continu (CI/CD) en se basant sur un traitement des données par flux et par lot afin de sécuriser les investissements IT sur 3 ans. Reproduire une chaîne de modélisation à partir du versionnage des différents types d’application (modèles prédictifs) afin de gérer le déploiement sur un serveur ou un cloud. Mesurer et détecter la dérive des données en se basant sur des indicateurs-clés afin d’appliquer des correctifs dans le cadre de la résolution de bugs techniques et/ou fonctionnels. Animer les équipes techniques (data, IT, sécurité, DevOps) impliquées dans la maintenance et l’évolution de l’architecture de données massives, en définissant les rôles, en planifiant les activités et en assurant la circulation fluide de l’information afin de garantir la performance, la sécurité, la conformité et la durabilité du système.
Secteurs d'activité
Selon la taille de projet, le Data engineer interviendra sur un ou plusieurs projets avec des équipes projet de différentes tailles. Il travaille en équipe selon la taille du projet et de l'équipe et est lié aux autres métiers de la Data. * Type et taille d'entreprise : En tant qu'indépendant, il intervient majoritairement sur des projets de plusieurs clients différents. Ses missions sont plus larges, son expertise est couplée avec les missions du Data Scientist et Data Analyst. Dans une PME / TPE, chez un éditeur de logiciel, il joue un rôle clé dans la définition et l'évolution du produit/système. La demande de compétences sera ici plus variée et les projets de taille inférieure, en règle générale. Il sera aussi amené à travailler avec des partenaires extérieurs et ainsi maîtriser les règles de fonctionnement de ce type de relation. Dans les petites et moyennes entreprises, le métier est couplé avec celui de Data Scientist et Data Analyst. Dans une grande Entreprise de Service Numérique, il apporte son expertise technique sur les infrastructures. Il sera ici focalisé sur son périmètre de projet et son expertise métier, souvent de plus grande taille et interne. Le besoin d'expertise métier y sera équivalent dans une structure moyenne ou grande et va intervenir sur des missions en interne et externe.