Data Engineer F/H

Organisme santé

Freelance | ASAP | NC | Paris | 75%

PySparkPythonSparkSQL

  L’entreprise

 

Cette entreprise met à disposition une plateforme qui permet d’accéder de manière facilitée, unifiée, transparente et sécurisée à un catalogue de
bases de données de santé françaises.

Comment ?
L’entreprise a mis en place une plateforme technologique ultra performante permettant aux porteurs de projets d’intérêt public de
– mobiliser des sources de données très volumineuses,
– les croiser entre elles,
– utiliser une puissance de calcul assez grande pour faire tourner des algorithmes de recherche complexes.

En résumé, avec cette entreprise, vous accompagnerez des porteurs de projets ambitieux qui contribuent à trouver les solutions de demain pour améliorer la santé de tous les citoyens.

 

Les responsabilités

Direction des données :

1) Définir des stratégies novatrices sur la gestion, l’exploitation et le partage de données de santé, permettant de réaliser la vision de l’entreprise;
2) Partager et mutualiser les outils et les connaissances nécessaires à l’analyse des données de santé, dans le cadre d’une démarche open source.
3) Gérer et mettre à disposition les données qui lui sont confiées aux porteurs de projet au sein de la plateforme technologique;
4) Soutenir les projets d’intérêt public que l’entreprise accompagne, aussi bien sur la compréhension des données de santé que sur leur exploitation via des experts des données de santé, des data scientists et des data engineers.

Pôle “Gestion des données” :

Pour répondre à la troisième mission qui lui a été conférée et définir une approche claire pour l’écosystème de la santé, la direction des données s’est dotée d’un pôle “Gestion des données”. Ce pôle est responsable de l’intégralité du cycle de vie des données, et se structure autour des chantiers suivants :
1) Traitement des données de santé massives et diverses transmises par les porteurs de projet à la plateforme technologique;
2) Gestion et mise en qualité des données de santé stockées dans la plateforme technologique ;
3) Application de librairies en Python ou R pour faciliter, automatiser et systématiser les traitements des données cités précédemment ;
4) Analyses exploratoires de nouvelles fonctionnalités et applications (e.g., cluster Spark, lecteur d’images spécifiques au secteur de la santé) à intégrer à la plateforme technologique.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique et présentent d’importants défis au regard du caractère hétérogène des données manipulées (e.g., données médico-administratives, imagerie médicale, comptes-rendus médicaux) et des efforts nécessaires pour les rendre utilisables.

Activités du poste :

Au sein du pôle “Gestion des données”, vous réaliserez en particulier les traitements nécessaires (1) pour l’ingestion des données dans la plateforme et (2) pour la bonne gestion et la mise en qualité des données présentes sur la plateforme technologique. A ce titre, les principales missions seront les suivantes :
○ Collaborer conjointement avec la Direction Projets et Services utilisateurs et prendre connaissance du protocole scientifique et des buts premiers de chacun des projets accompagnés. Cette phase s’accompagne d’une découverte du ou des jeu(x) de données complet(s) tant au niveau fonctionnel qu’au niveau technique, ainsi que de la rédaction d’une documentation de ce(s) dernier(s) afin (1) de s’assurer en amont du bon respect des règles de pseudonymisation et (2) effectuer des opérations de vérifications des données en aval de façon automatique ;
○ Vérifier le caractère anonymisé des demandes d’import et d’export des données ou codes sur la plateforme, en relation avec des acteurs externes (producteurs de données, porteurs de projets de recherche) ;
○ Travailler dans la plateforme technologique ;
■ Utiliser les librairies existantes et les compléter pour développer des scripts Python et PySpark permettant de manipuler des grande quantité de données (~To) sous différents formats (e.g., tabulaires, texte libre, images, JSON) reçues sur la plateforme technologique.
■ Vérifier l’intégrité, confidentialité et conformité à certains critères de qualité définis en amont ainsi que de de les préparer pour leur mise à disposition (e.g., reformatage, jointure, transformation parquet, etc.) ;
■ Remonter les besoins permettant l’évolution des librairies et outils existants afin d’améliorer la qualité et la rapidité des opérations,
■ Contribuer à la documentation des opérations,
○ Assurer un premier niveau de support technique aux utilisateurs externes pour l’utilisation de leurs projets par exemple avec des exemples de code
utilisant leurs données.

La tech stack (pile de technologies) utilisée pour ces missions sera principalement :
– Python comme langage de programmation généraliste :
– notebooks Jupyter pour accéder à la plateforme et organiser la documentation d’utilisation (tutoriels),
– pandas pour l’analyse des données CSV de petite taille et Spark / pyspark pour les données volumineuses,
– Gitlab et gitea pour l’utilisation et la synchronisation avec les librairies existantes,
– Microsoft Azure pour le stockage et le requêtage de données volumineuses,
– Suite Google pour la bureautique (Google Docs, Google Sheets, etc.)

 

Profil Recherché

Compétences indispensables

● Bonne maîtrise du langage Python
● Bonne maîtrise de SQL et de gestion de bases de données
● Bonne maîtrise des librairies de traitement de données (e.g., pandas, dplyr)
● Connaissance des outils en ligne de travail collaboratif type Git (GitHub ou GitLab)
● Capacités rédactionnelles
● Bon relationnel : capacité à interagir avec les partenaires externes (startups, institutions publiques, etc.)

Compétences additionnelles recherchées

● Maîtrise des frameworks de calcul distribué (Spark, Dask)
● Maîtrise de R
● Maîtrise d’environnements cloud (notamment Azure Blob Storage pour le stockage de données)
● Expérience avec des formats de données complexes (par exemple : images DICOM, SVS, JSON complexes, CSV de très grande taille etc.)

Maxime Broch

06 31 71 05 10