Data Engineer - Modeling & Standardization - Paris

Long term
Paris
Posted on 01-31-2022

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Read more

Avec ses 800 services hospitaliers couvrant 84 spécialités et avec plus de 4 000 projets de recherche en cours, l’AP-HP est une institution reconnue dans le monde médical pour la qualité et la compétence de ses professionnels de santé, exerçant dans nos 39 hôpitaux.
Travailler à l’AP-HP c’est poursuivre un intérêt général dans un grand service public et venir en appui nos 100 000 professionnels pour que soit assurée la meilleure prise en charge possible des 10 millions de patients par an qui sont accueillis dans nos hôpitaux.
L’AP-HP est le 1er Groupe Hospitalo-Universitaire européen et fait partie des 3 plus importants groupes hospitaliers mondiaux.
Nos équipes participent directement à l’effort de consolidation de ce haut niveau d’excellence médicale. Pour cela, chaque collaborateur de la Direction des Systèmes d’Information de l’AP-HP s’engage à :

  1. s’investir quotidiennement pour atteindre ses objectifs placer son intégrité et celle de l’institution au premier plan,
  2. travailler en équipe,
  3. fournir le meilleur service pour nos utilisateurs finaux qu’ils soient professionnel de santé ou patient,
  4. faire preuve de diplomatie en toute circonstance,
  5. respecter sans condition les règles de confidentialité inhérentes à nos activités.

La Direction des Systèmes d’Information :

  1. Intègre des logiciels/progiciels,
  2. Développe des applications,
  3. Teste et qualifie des produits,
  4. Développe des méthodes et outils de traitement de données massives,
  5. Construit des architectures et assure une urbanisation optimale des applications informatiques,
  6. Pilote des infrastructures complexes : serveurs, stockage, réseaux de haute performance.

Ce que vous ferez dans notre équipe contribuera directement au bon fonctionnement de l’AP-HP pour assurer notre Priorité N°1 : fournir le meilleur service à nos patients et nos professionnels !


La mission de votre équipe

Afin de permettre le développement de projets de recherche innovants, en particulier dans le domaine de l’intelligence artificielle, l’AP–HP a mis en place une plateforme Big Data, infrastructure informatique propre, intégrant des capacités de stockage et de calcul pour l’exploitation sécurisée et performante des données de santé dont elle est dépositaire. Cette plateforme héberge notamment l’entrepôt de données de santé (EDS) de l’AP-HP.

L’Entrepôt de Données de Santé (EDS) de l’AP-HP intègre des données administratives et médicales de plus de 8 millions de patients hospitalisés ou venus en consultation au sein des 39 établissements de l’AP-HP (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoires…). Cet entrepôt permet d’améliorer le pilotage de l’activité hospitalière et de faire avancer la recherche scientifique dans le domaine de la santé en favorisant la réalisation d’études sur données, la mise en place d’essais cliniques et le développement d’algorithmes d’aide à la décision.

La Plateforme Big Data de l’AP-HP compte actuellement +20 machines pour le cluster Hadoop (5To RAM, +850 Cores, 1.8Po d’espace disque), de machines GPU (56 Nvidia P40 et V100), de 20 machines dédiées aux environnements Jupyter pour l’analyse de données, et de nombreuses autres machines applicatives.

Votre équipe, le domaine « Plateforme Big Data », a pour mission l’intégration des données de santé massives et complexes (données structurés, textes, imagerie, voix, signaux physiologiques, etc.) et leur utilisation à grande échelle, de manière performante, ergonomique et sécurisée dans le respect des principes et règles de gouvernance des données définis par l’AP-HP.

Vos missions

Au sein de l’équipe en charge de la Plateforme Big Data de l’APHP, vous aurez pour missions de proposer et de développer des outils ou composants répondant aux attentes des médecins et chercheurs pour l’exploitation des données collectées dans le cadre de leurs projets de recherche. Ces développements s’inscrivent dans un contexte de standardisation des données selon le modèle de données commun OMOP et d’interopérabilité sur la base du standard d’échange HL7-FHIR.

En tant que data engineer - intégration de flux, sous la responsabilité du chef d’équipe développement big data, il s’agira de contribuer à la création d’outils d’intégration, de visualisation, d’exploration et d’enrichissement de données médicales pour la recherche, souvent en lien direct avec des personnels médicaux. Outre l’intégration technique des données cliniques, les développements relèvent globalement de la pseudonymisation des données pour assurer la confidentialité des dossiers médicaux, de la standardisation des modèles de données, de la mise en place de moteurs de recherche performant incluant des notions sémantiques et de l’analyse qualitative et statistique des données collectées. Selon la typologie des données (données structurés, imagerie, voix, signaux physiologiques, etc.) des outils plus spécifiques sont également mise en œuvre. Vos missions comportent typiquement des facettes suivantes :

  • Contribuez à la définition des besoins techniques et à l’accompagnement des datascientists, chercheurs, et médecins lors de la réalisation de projets de recherche impliquant de nouvelles sources de données
  • Analyserez les différents sources de données d’un point de vue technique (acquisition, stockage, transformation, exploitation, …)
  • Développerez, industrialiserez et maintiendrez des traitements de données (extraction, sélection, collecte et intégration) dans un contexte big data (développements en Spark/Scala)
  • Contribuerez à l’utilisation de ces nouvelles typologies de données (extraction, sélection, collecte et intégration) via des connecteurs spécifiques développés en java/scala, python ou d’autres langages
  • Aiderez à l’implémentation de standards et normes de mise à disposition des données (OMOP/FHIR)
  • Industrialiserez le code de génération du flux de données et assurer sa performance globale
  • Optimisation de la performance des outils dans un contexte big data (Hadoop / Spark)
  • Développerez des méthodologies standardisées pour l’intégration de nouvelles données
  • Mettrez en place des outils les processus de tests unitaires, de recette et de qualification des données
  • Travaillerez en collaboration avec des partenaires industriels dans le cadre des différents projets de recherche
Profile

Idéalement, vous..

  • Avez un diplôme d’ingénieur ou équivalent (bac+4/5, master2) en informatique ou sciences avec formation complémentaire en informatique
  • Avez une expérience de développement sous Linux, des langagage Java/Scala et si possible Python
  • Avez une expérience dans la manipulation de données avec le langage SQL
  • Connaissez les standards en informatique de santé (HL7 v2, DICOM, HL7-FHIR, OMOP, …)
  • Avez le goût de l’intégration de systèmes informatiques hétérogènes
  • Avez des connaissances des bonnes pratiques de sécurité informatique et de la réglementation informatique et libertés
  • Adhérez aux valeurs du service public et vous avez un intérêt prononcé pour le domaine de la santé
  • Avez un niveau d’anglais courant

Vous avez un savoir faire dans un de ces domaines :

  • Bonne maitrise des langages Java/Scala (Spark), Python et de bash
  • Bonnes connaissance des bases de données Oracle, Postgresql ou MySQL et langages associés (sql)
  • Bonne maitrise en méthode de conduite de projet (planification, reporting, analyse de risques, …)
  • Connaissance des outils ETL (Talend, …) et des méthodes de data warehouse (OLTP, RDBMS…)
  • Connaissance du traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
  • Connaissance en méthodes de développement logiciel (dont cycle en V, méthodes agile), méthodes d’analyse et de modélisation (Merise, UML …)
  • Connaissance en administration d’environnements Linux
  • Connaissance des méthodologies devops et des outils associés (Docker, Kubernetes, Jenkins…)

Et humainement ?

  • Capacité à appréhender des enjeux liés à la recherche, à l’analyse de données et aux technologies de machine learning/deep learning, notamment dans le domaine de la santé (santé publique, imagerie médicale, épidémiologie, …)
  • Esprit d’équipe et la volonté de prendre part à une aventure collective
  • Sens de l’écoute, du résultat et de la qualité
  • Des qualités d’autonomie, de flexibilité et de responsabilité
  • Curieux, dynamique et créatif, avec un réel envie de faire preuve d’innovation