Data Engineer - Plateforme Big Data - Paris

Long term
Paris
40000 - 60000€ (Annual)
Posted on 07-06-2021

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Read more

L’ Assistance Publique - Hôpitaux de Paris (AP - HP) est un établissement public de santé et le centre hospitalier universitaire - CHU - de la région Ile-de-France, reconnu mondialement pour sa recherche. Le département Web Innovation Données (WIND) s’inscrit au sein de sa Direction des Systèmes d’Information.

Sa mission ? 🎯Réaliser les projets numériques innovants au contact du monde hospitalier.

Ses projets phares ?

🚀 Construire le plus large entrepôt public de données de santé en Europe ! Le projet vise à valoriser les données produites à l’AP-HP pour la recherche, l’innovation et le pilotage des soins, tout en protégeant les données patient. L’Entrepôt de Données de Santé, c’est déjà +8 millions de patients dont les données sont structurées et référencées sur une plateforme Big Data dédiée.
Cette plateforme accueille par exemple actuellement une task force pluridisciplinaire de plus de 120 personnes pour répondre aux enjeux urgents de suivi et d’exploitation des données liées au COVID19.

🙋‍♀️🙋‍♂Faciliter le quotidien des patients! Le domaine gère notamment toutes les applications mobiles et tous les téléservices de l’AP-HP, dont par exemple le portail patient.

🔬Monter une plateforme Bio-Informatique centrale pour assister les pôles de biologie de l’ AP-HP dans leurs besoins informatiques (gestion du séquençage, déploiement de ressources de calcul).

🌼Développer et déployer au niveau national les outils de collecte et d’analyse épidémiologique des données relatives aux maladies rares.


La mission de votre équipe

Afin de permettre le développement de projets de recherche innovants, en particulier dans le domaine de l’intelligence artificielle, l’AP–HP a mis en place une plateforme Big Data, infrastructure informatique propre, intégrant des capacités de stockage et de calcul pour l’exploitation sécurisée et performante des données de santé dont elle est dépositaire. Cette plateforme héberge notamment l’entrepôt de données de santé (EDS) de l’AP-HP.

L’Entrepôt de Données de Santé (EDS) de l’AP-HP intègre des données administratives et médicales de plus de 8 millions de patients hospitalisés ou venus en consultation au sein des 39 établissements de l’AP-HP (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoires…). Cet entrepôt permet d’améliorer le pilotage de l’activité hospitalière et de faire avancer la recherche scientifique dans le domaine de la santé en favorisant la réalisation d’études sur données, la mise en place d’essais cliniques et le développement d’algorithmes d’aide à la décision.

La Plateforme Big Data de l’AP-HP compte actuellement +20 machines pour le cluster Hadoop (5To RAM, +850 Cores, 1.8Po d’espace disque), de machines GPU (24 Nvidia P40), de 10 machines dédiées aux environnements Jupyter pour l’analyse de données, et de nombreuses autres machines applicatives.

Votre équipe, le domaine « Plateforme Big Data », a pour mission l’intégration des données de santé massives et complexes (données structurés, textes, imagerie, voix, signaux physiologiques, etc.) et leur utilisation à grande échelle, de manière performante, ergonomique et sécurisée dans le respect des principes et règles de gouvernance des données définis par l’AP-HP.

Vos missions

Au sein de l’équipe en charge de la Plateforme Big Data de l’APHP, vous aurez pour missions de proposer et de développer des outils ou composants répondant aux attentes des médecins et chercheurs pour l’exploitation des données collectées dans le cadre de leurs projets de recherche. Ces développements s’inscrivent dans un contexte de standardisation des données selon le modèle de données commun OMOP et d’interopérabilité sur la base du standard d’échange HL7-FHIR. Votre rôle sera clé, car de l’existence de la grande volumétrie de données sur la plateforme, dépendront les avancées de la science et de la médecine personnalisée dans ce domaine.

En tant que data engineer, vous :

  • Développerez, industrialiserez et maintiendrez les flux d’intégration de données (extraction, sélection, collecte et intégration) avec l’utilisation de l’ETL Talend ou de connecteurs spécifiques
  • Assurerez l’intégration des données de manière performante
  • Industrialiserez le code de génération du flux de données et assurer sa performance globale
  • Aiderez à l’implémentation de standards et normes de mise à disposition des données
  • Développerez des méthodologies standardisées pour l’intégration de nouvelles données
  • Mettrez en place des outils permettant l’enrichissement des données (outils d’annotations, etc)

Idéalement, vous..

  • Avez un diplôme d’ingénieur ou équivalent (bac+5, master2) en informatique ou sciences (mathématique, physique, sciences de la vie) avec formation complémentaire en informatique
  • Adhérez aux valeurs du service public et vous avez un intérêt prononcé pour le domaine de la santé
  • Avez une expérience de développement sous Linux et des outils ETL (Talend ou autre)
  • Avez une expérience dans la manipulation de données avec le langage SQL
  • Connaissez les standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC…)
  • Avez des connaissances en administration d’environnements Linux
  • Avez des connaissances en statistiques et en droit des données informatiques
  • Avez des connaissances des bonnes pratiques de sécurité informatique et de la réglementation informatique et libertés
  • Avez un niveau d’anglais courant

Vous avez un savoir faire dans un de ces domaines :

  • Expertise en Programmation Informatique (Windows & UNIX)
  • Expertise en codage (Java et/ou Scala, Python)
  • Bonne maitrise des langages Python/R et de bash
  • Bonnes connaissance des bases de données Oracle, Postgresql ou MySQL et langages associés (sql)
  • Maîtrise des outils ETL (Talend, …), d’informatique décisionnelle et des méthodes de data warehouse (OLTP, RDBMS…)
  • Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC…)
  • Bonne connaissance du traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
  • Connaissance le moteur de recherche Apache Lucene et de sa mise en oeuvre
  • Connaissance approfondie en méthodes de développement logiciel (dont cycle en V, méthodes agile), méthodes d’analyse et de modélisation (Merise, UML …)
  • Connaissance des méthodologies devops et des outils associés (Docker, Kubernetes, Jenkins…)
  • Connaissances en méthode de conduite de projet (planification, reporting, analyse de risques, …)

Et humainement ?

  • Capacité à appréhender des enjeux liés à la recherche, à l’analyse de données et aux technologies de machine learning/deep learning, notamment dans le domaine de la santé (santé publique, génétique, épidémiologie…)
  • Des qualités d’autonomie, de flexibilité et de responsabilité
  • Curieux, dynamique et créatif, avec un réel envie de faire preuve d’innovation
  • Esprit d’équipe et la volonté de prendre part à une aventure collective
  • Sens de l’écoute, du résultat et de la qualité