Chef de Projet Intégration de Données - Plateforme Big Data de l’AP-HP - Paris

short term contract
Paris
Posted on 07-08-2021

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Read more

L’Assistance Publique - Hôpitaux de Paris (AP - HP) est un établissement public de santé, centre hospitalier universitaire (CHU) d’Île-De-France. Ses missions sont le soin, la recherche et l’enseignement. À dimension internationale, il est constitué de 39 hôpitaux, organisés en 12 groupes hospitaliers. Accueillant plus de 7 millions de patients par an, son budget annuel est près de 7,2 milliards d’euros.

La Direction des Systèmes d’Information (DSI) a pour mission d’assister le Directeur Général de l’Assistance publique - hôpitaux de Paris dans la conception, le pilotage et la mise en œuvre de la politique du système d’information de l’AP-HP. Elle est rattachée au secrétariat général de l’AP-HP. Le budget d’investissement géré est de près de 70 M€ et le budget d’exploitation est de 125 M€. Le nombre d’agents de la DSI centrale en équivalents temps pleins est de 370.

Le département WIND, organisé en quatre pôles, au sein de la DSI pilote les projets d’innovation et de structuration des données médicales.


Description de la plateforme Données Massives:
La Plateforme « Données Massives » ou Big Data de l’AP-HP héberge l’Entrepôt de Données de Santé de l’AP-HP ainsi que les outils permettant la mise à disposition et le traitement de données massives. Celle-ci est constituée aujourd’hui d’un cluster Hadoop (distribution Hortonworks avec les briques Hive, Spark2, Solr, Phoenix, Hbase, HDFS, Zookeper, Ambari…), une base de données PostGreSQL, et des outils d’exploitation de données Jupyter Lab, l’outil I2B2, Cognos…

L’infrastructure on-premise au sein des data-centers de l’AP-HP compte actuellement 22 machines pour le cluster Hadoop (4928Go RAM, 840 cores CPU, 1,8Po d’espace disque HDFS), 3 machines GPU (20 GPU Nvidia), et 10 machines CPU dédiées aux environnements Jupyter, et 1 machine NFS de 78To.
Un effort important est porté à l’intégration rapide des données cliniques (structurées et non structurées) produites dans les différents systèmes d’information hospitaliers (dossier patient informatisé ORBIS, logiciels historiques et de spécialité, données des moniteurs haute fréquence, données d’imagerie…) afin de pouvoir les mettre à disposition de tiers au travers d’outils spécifiques (logiciel I2B2, outil BI Cognos, outils propres de visualisation et de création de cohortes…) ou d’interfaces FHIR (API).
La plateforme contient aujourd’hui les données médicales de plus de 11 millions de patients (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoires…). Un travail important de standardisation des données a été engagé afin de s’aligner sur les standards internationaux et assurer une interopérabilité maximale des données (OMOP, FHIR et les terminologies médicales de référence LOINC, CIM…). La plateforme permet actuellement d’appuyer plus de 70 projets de recherche.

Mission générale

Vous participerez activement à des projets de recherche visant à améliorer de manière décisive la prise en charge des patients atteints de Covid 19 hospitalisés en réanimation.
Vous aurez pour mission générale d’assurer le développement de la plateforme informatique du projet de recherche RECORDS. Cette plateforme permettra la gestion des données d’études observationnelles et d’un essai clinique multicentrique multi-bras adaptatif. La solution devra permettre la collecte, l’exploitation et la sauvegarde des données de la recherche (données cliniques, biologiques et omiques (génomiques, métabolomiques) pendant la durée du projet.

Missions principales :

  • Développer, en lien avec l’équipe de recherche RECORDS en charge des analyses omiques et avec la plateforme données massives de l’APHP, une solution d’intégration des données génomiques (fichiers FastQ, BAM, …) dans un espace de stockage dédié.
  • Intégration des données analysées (fichier VCF) dans l’outil eCRF Cleanweb.
  • Exploiter les API des applications eCRF (REDCap et Cleanweb) pour l’intégration des données dans des bases de données de recherche.
  • Exploiter les API des applications eCRF (REDCap et Cleanweb) pour la mise à disposition des données via l’espace Jupyter de la Plateforme Données Massives de l’AP-HP.
  • Contribuer en mode agile au développement d’une plateforme d’intégration des outils de Recherche Clinique (PIORC).
  • Assurer la mise à disposition des données aux différents partenaires de projet RECORDS.
  • S’assurez du caractère générique de la solution développée qui tout en répondant aux exigences du projet RECORDS, permettra la réalisation de nouvelles études au sein du consortium et pourra être déployée dans le cadre d’autres projets de recherche
  • Contribuer, en collaboration avec l’équipe d’infrastructure de la plateforme, au déploiement, MCO et à l’évolution de la plateforme PIORC.
  • Veiller à respecter la cohérence technique de la plateforme PIORC par rapport aux méthodes et solutions définis au sein de la Plateforme Données Massives de l’AP-HP.
  • Apporter un support utilisateurs de niveau N2/N3 et traiter les demandes de correction ou d’évolution par rapport aux outils et données mis à disposition ;

Savoir-faire Requis :

• Maitrise des langages Python, Java, Scala (Spark) et de bash
• Maitrise en méthode de conduite de projet (planification, reporting, analyse de risques, …)
• Bonne connaissance des bases de données Oracle, Postgresql ou MySQL et langages associés (sql)
• Connaissance des outils ETL (Talend, …) et des méthodes de data warehouse (OLTP, RDBMS…)
• Connaissance du traitement des données massives et des technologies Big Data (Hadoop, Hive, Kafka, Spark, Elastic Search, NoSQL, etc.)
• Connaissance en méthodes de développement logiciel (dont cycle en V, méthodes agile), méthodes d’analyse et de modélisation (Merise, UML …)

Savoir-faire Apprécié :

• Connaissance des méthodologies devops et des outils associés (Docker, Kubernetes, jenkins…)
• Bonne connaissance et pratique des webservices (SOA, REST) et des technologies d’intégration à l’aide d’interfaces de programmation (API)
• Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC…)
• Connaissance de la réglementation informatique et libertés ;
• Maîtrise de la communication et de la négociation en situation complexe

Travail en équipe :

• Concevoir et évaluer un projet / un processus relevant de son domaine de compétence
• Identifier, analyser, prioriser et synthétiser les informations relevant de son domaine d’activité
• Animer / communiquer / motiver une ou plusieurs équipes
• Capacité à animer des réunions courtes, en imposant une préparation et un compte rendu
• Rédiger et mettre en forme des notes, documents et /ou rapports, relatifs à son domaine de compétence
• Concevoir et rédiger une documentation spécifique à son domaine de compétence
• S’exprimer en public
• Utiliser les logiciels métier

Connaissances Appréciées :

• Environnement des systèmes d’information hospitaliers
• Enjeux liés à la recherche, à l’analyse de données et aux technologies de machine learning/deep learning, notamment dans le domaine de la santé (santé publique, génétique, épidémiologie…)

Qualités requises

• Recueillir, analyser, formaliser et valider les besoins des utilisateurs ;
• Concevoir des modèles de données, appréhender les formats de données et les procédures d’échange ;
• Autonomie, rigueur, méthode ;
• Curiosité et capacité d’adaptation et d’anticipation
• Esprit d’analyse et de synthèse, bonne aptitude rédactionnelle
• Excellentes aptitudes relationnelles et à la communication, capacité d’écoute et de vulgarisation, capacité de formation
• Esprit d’équipe et fort sens du relationnel
• Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé