Data science internship - NLP large-scale textual research - Paris

Internship
Paris
No remote
Posted on 11-08-2022

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Impact study
Assistance Publique - Hôpitaux de Paris - DSI not measure the impact.
Read more

Avec ses 800 services hospitaliers couvrant 84 spécialités et avec plus de 4 000 projets de recherche en cours, l’AP-HP est une institution reconnue dans le monde médical pour la qualité et la compétence de ses professionnels de santé, exerçant dans nos 39 hôpitaux.
Travailler à l’AP-HP c’est poursuivre un intérêt général dans un grand service public et venir en appui nos 100 000 professionnels pour que soit assurée la meilleure prise en charge possible des 10 millions de patients par an qui sont accueillis dans nos hôpitaux.
L’AP-HP est le 1er Groupe Hospitalo-Universitaire européen et fait partie des 3 plus importants groupes hospitaliers mondiaux.
Nos équipes participent directement à l’effort de consolidation de ce haut niveau d’excellence médicale. Pour cela, chaque collaborateur de la Direction des Systèmes d’Information de l’AP-HP s’engage à :

  1. s’investir quotidiennement pour atteindre ses objectifs placer son intégrité et celle de l’institution au premier plan,
  2. travailler en équipe,
  3. fournir le meilleur service pour nos utilisateurs finaux qu’ils soient professionnel de santé ou patient,
  4. faire preuve de diplomatie en toute circonstance,
  5. respecter sans condition les règles de confidentialité inhérentes à nos activités.

La Direction des Systèmes d’Information :

  1. Intègre des logiciels/progiciels,
  2. Développe des applications,
  3. Teste et qualifie des produits,
  4. Développe des méthodes et outils de traitement de données massives,
  5. Construit des architectures et assure une urbanisation optimale des applications informatiques,
  6. Pilote des infrastructures complexes : serveurs, stockage, réseaux de haute performance.

Ce que vous ferez dans notre équipe contribuera directement au bon fonctionnement de l’AP-HP pour assurer notre Priorité N°1 : fournir le meilleur service à nos patients et nos professionnels !


Contexte

L’Entrepôt des Données de Santé (EDS) de l’AP-HP regroupe les données cliniques collectées à l’occasion de la prise en charge de plus de 10 millions de patients. Plus de 200 projets de recherche sont actuellement en cours sur cette base pour réaliser des études épidémiologiques, développer et valider des algorithmes d’IA pour le soin, etc. Parmi les données de l’EDS, les documents cliniques regroupent de nombreuses informations d’intérêt mentionnées par les cliniciens (antécédents, comorbidités, facteurs de risque, symptômes, prescriptions médicamenteuses, etc.). Des algorithmes de Natural Language Processing (NLP) sont développés pour extraire automatiquement ces données et les mettre à disposition des chercheurs.

Une approche régulièrement adoptée en NLP consiste à rechercher de manière systématiques des listes de termes préétablies (i.e. vocabulaires). Les fautes de frappe, courantes pour des documents rédigés dans l’urgence clinique, peuvent néanmoins impacter négativement l’exhaustivité des données ainsi retrouvées. Des algorithmes comme simstring permettent de retrouver certains termes dont l’orthographe a ainsi été modifiée, mais l’algorithme nécessite une optimisation pour être appliqué à large échelle sur les documents cliniques.

Objectifs du stage

  • Optimiser le temps d’exécution de l’algorithme simstring pour les vocabulaires d’entités médicales massifs
  • Étudier la proportion d’information pouvant être retrouvée à l’aide d’un algorithme tel que simstring en fonction du contexte de rédaction du compte rendu clinique (y a-t-il plus de fautes de frappes dans un compte rendu d’urgence que dans un compte rendu d’hospitalisation ?)

Si le temps le permet

  • Etudier l’intérêt d’algorithmes de correction orthographiques, appliqués en amont de la détection de vocabulaires
  • Implémenter un algorithme de correction orthographique en amont des traitements effectués sur les documents médicaux
  • Développer un module de visualisation pour analyser la distribution d’un corpus: TF-IDF, taille du vocabulaire, nuages de mots avec prise en compte des fautes d’orthographe, etc.

Modalités pratiques

Le stage se déroulera au sein de l’équipe Sciences de Données, du Pôle Innovation et Données de la Direction des Services Numériques de l’AP-HP. L’équipe, forte d’une dizaine de data scientists, développe, valide et maintient divers algorithmes facilitant la fouille et l’analyse des données massives contenues dans l’EDS. Elle a en particulier développé une expertise importante en NLP.

Profile
  • Ingénieur en fin d’études, spécialisé en informatique et avec des connaissances en data science.
  • Forte appétence pour le développement Python, connaissances en C ou Cython appréciées.
  • Intérêt fort pour le développement et l’optimisation d’algorithmes.
  • Expérience en NLP appréciée.