Data scientist - diabetology - Paris

short term contract
Paris
Posted on 11-09-2022

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Read more

Avec ses 800 services hospitaliers couvrant 84 spécialités et avec plus de 4 000 projets de recherche en cours, l’AP-HP est une institution reconnue dans le monde médical pour la qualité et la compétence de ses professionnels de santé, exerçant dans nos 39 hôpitaux.
Travailler à l’AP-HP c’est poursuivre un intérêt général dans un grand service public et venir en appui nos 100 000 professionnels pour que soit assurée la meilleure prise en charge possible des 10 millions de patients par an qui sont accueillis dans nos hôpitaux.
L’AP-HP est le 1er Groupe Hospitalo-Universitaire européen et fait partie des 3 plus importants groupes hospitaliers mondiaux.
Nos équipes participent directement à l’effort de consolidation de ce haut niveau d’excellence médicale. Pour cela, chaque collaborateur de la Direction des Systèmes d’Information de l’AP-HP s’engage à :

  1. s’investir quotidiennement pour atteindre ses objectifs placer son intégrité et celle de l’institution au premier plan,
  2. travailler en équipe,
  3. fournir le meilleur service pour nos utilisateurs finaux qu’ils soient professionnel de santé ou patient,
  4. faire preuve de diplomatie en toute circonstance,
  5. respecter sans condition les règles de confidentialité inhérentes à nos activités.

La Direction des Systèmes d’Information :

  1. Intègre des logiciels/progiciels,
  2. Développe des applications,
  3. Teste et qualifie des produits,
  4. Développe des méthodes et outils de traitement de données massives,
  5. Construit des architectures et assure une urbanisation optimale des applications informatiques,
  6. Pilote des infrastructures complexes : serveurs, stockage, réseaux de haute performance.

Ce que vous ferez dans notre équipe contribuera directement au bon fonctionnement de l’AP-HP pour assurer notre Priorité N°1 : fournir le meilleur service à nos patients et nos professionnels !


Les algorithmes de data science à l’Entrepôt des Données de Santé

Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (i.e. l’information est déduite à partir de nombreuses données) et non-structurée (i.e. sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les chercheurs. De nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS. La plupart de ces algorithmes sont ou seront open sourcés afin de faciliter leur diffusion dans la communauté de recherche ainsi que leur développement collaboratif (cf. par exemple la bibliothèque EDS-NLP : https://github.com/aphp/edsnlp).

Le projet de recherche

Le projet de recherche a pour objectif la construction d’une cohorte longitudinale de sujets atteints de diabète et suivis dans un des hôpitaux de l’AP-HP (Assistance publique – Hôpitaux de Paris). La cohorte comprendra plusieurs centaines de milliers de patients ainsi que des millions de comptes rendus cliniques, résultats de biologie, etc. Les parcours de soin (dates et lieux de prises en charge, diagnostics, traitements, etc.), les caractéristiques de patients (comorbidités, facteurs de risques, etc.) et leur devenir (survie, complications, etc.) seront dans un premier temps déduits des données massives de l’EDS à l’aide d’algorithmes dédiés. Dans un second temps, ces données seront exploitées afin de répondre à diverses questions scientifiques afin d’améliorer la compréhension de cette pathologie et de proposer des améliorations des prises en charge actuelles.

Les équipes

Le projet est collaboratif. Il inclut des médecins de l’AP-HP, des mathématiciens d’Inria, des chercheurs INSERM/Université, des pharmaco-épidémiologistes et statisticiens du centre de Pharmaco-Epidémiologie de l’AP-HP et des informaticiens/data scientists de la Direction des Services numériques de l’AP-HP.

Le poste de data scientist sera localisé à mi-temps au sein du Centre de Pharmaco-épidémiologie de l’AP-HP à l’hôpital La Pitié Salpêtrière et à mi-temps au sein de l’équipe Sciences des Données de la Direction des Services Numériques localisée à l’hôpital Rothschild.

Votre mission

Votre travail consistera à développer, valider et mettre en production des algorithmes de data science traitant les données massives de l’EDS (documents cliniques, données médico-administratives, résultats de biologie, etc.) afin d’extraire des variables épidémiologiques d’intérêt (classification de patients ou de parcours, détection d’antécédents ou de comorbidités, qualification des données manquantes ou des données aberrantes, etc.). Ces algorithmes permettront aux différents chercheurs et statisticiens de calculer des statistiques descriptives, tester des hypothèses ou entraîner des algorithmes prédictifs d’intérêt. Une partie importante de votre travail concernera le développement d’algorithmes de NLP.

Dans un premier temps, vous vous familiariserez avec les différentes données de santé qui sont collectées dans un hôpital, ainsi qu’avec les outils de data science permettant de les analyser (e.g. bibliothèques scientifiques dédiées, utilisation de la plateforme d’analyse de l’AP-HP). Vous développerez ensuite plusieurs lots d’algorithmes priorisés et spécifiés par les chercheurs. Enfin, vous partagerez ces algorithmes avec la communauté de chercheurs en contribuant à divers projets open sources.

Profile

Idéalement, vous…

  • Avez un diplôme d’ingénieur ou équivalent (bac+5, master 2) en data science ;
  • Adhérez aux valeurs du service public et vous êtes passionné.e par le domaine de la santé ;

…et vous avez un savoir-faire dans plusieurs de ces domaines

  • Expertise en développement Python ;
  • Expertise en statistiques ;
  • Expertise en analyse de bases de données, familiarité avec le framework Spark ;
  • Maitrise du langage R ;
  • Modèles de machine learning, en particulier pour l’analyse automatique de textes (NLP) ;
  • Données de santé ;