Stage data science: NLP-biologie - Paris

Internship
Paris
No remote
Posted on 12-20-2022

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Impact study
Assistance Publique - Hôpitaux de Paris - DSI not measure the impact.
Read more

Avec ses 800 services hospitaliers couvrant 84 spécialités et avec plus de 4 000 projets de recherche en cours, l’AP-HP est une institution reconnue dans le monde médical pour la qualité et la compétence de ses professionnels de santé, exerçant dans nos 39 hôpitaux.
Travailler à l’AP-HP c’est poursuivre un intérêt général dans un grand service public et venir en appui nos 100 000 professionnels pour que soit assurée la meilleure prise en charge possible des 10 millions de patients par an qui sont accueillis dans nos hôpitaux.
L’AP-HP est le 1er Groupe Hospitalo-Universitaire européen et fait partie des 3 plus importants groupes hospitaliers mondiaux.
Nos équipes participent directement à l’effort de consolidation de ce haut niveau d’excellence médicale. Pour cela, chaque collaborateur de la Direction des Systèmes d’Information de l’AP-HP s’engage à :

  1. s’investir quotidiennement pour atteindre ses objectifs placer son intégrité et celle de l’institution au premier plan,
  2. travailler en équipe,
  3. fournir le meilleur service pour nos utilisateurs finaux qu’ils soient professionnel de santé ou patient,
  4. faire preuve de diplomatie en toute circonstance,
  5. respecter sans condition les règles de confidentialité inhérentes à nos activités.

La Direction des Systèmes d’Information :

  1. Intègre des logiciels/progiciels,
  2. Développe des applications,
  3. Teste et qualifie des produits,
  4. Développe des méthodes et outils de traitement de données massives,
  5. Construit des architectures et assure une urbanisation optimale des applications informatiques,
  6. Pilote des infrastructures complexes : serveurs, stockage, réseaux de haute performance.

Ce que vous ferez dans notre équipe contribuera directement au bon fonctionnement de l’AP-HP pour assurer notre Priorité N°1 : fournir le meilleur service à nos patients et nos professionnels !


Contexte

Les données de biologie sont essentielles pour assurer la prise en charge clinique. En effet, le suivi d’un grand nombre de pathologies se fait à l’aide de marqueurs biologiques qui reflètent leur sévérité (l’hémoglobine glyquée HbA1c pour le diabète, le taux de lymphocytes CD4 pour le VIH, la positivité de certains anticorps, le dosage PSA pour le cancer de la prostate, etc.). Les données de biologie reflètent aussi en situation aiguë la gravité du patient (taux d’hémoglobine pour l’anémie, créatininémie pour la sévérité de l’insuffisance rénale, etc.).
Depuis le début des années 2010, un dossier patient informatisé commun est déployé dans les 38 hôpitaux de l’Assistance Publique-Hôpitaux de Paris (AP-HP). Les données de biologie relatives aux patients pris en charge y sont généralement collectées sous un format structuré (code de prélèvement biologique associé à une valeur numérique et une unité). Grâce à l’entrepôt des données de santé (EDS) ces données sont également mises à disposition des projets de recherche pour réaliser diverses études. Néanmoins, de nombreuses informations biologiques ne sont pas disponibles sous un format structuré, et sont uniquement mentionnées sous la forme de texte libre dans les comptes rendus cliniques (e.g. les prélèvements réalisés à l’extérieur de l’hôpital comme c’est le cas au moment des consultations ou des hospitalisations de jour, les prélèvements plus anciens comme ceux présents au moment du diagnostic). Il est donc souvent nécessaire d’analyser également les documents cliniques, en plus des données structurées, pour obtenir suffisamment d’informations biologiques afin de réaliser les études demandées.
L’extraction automatisée de diverses informations depuis les comptes rendus cliniques est déjà opérationnelle grâce à de nombreux algorithmes de traitement automatisé du langage (TAL) tels que les réseaux de neurones profonds comme les Transformers [Vaswani2017, Delvin2019], dont un des plus utilisé en français est CamemBERT [Martin2020]. Pour la biologie, une fois l’extraction des données d’un test biologique réalisée à l’aide d’un tel algorithme, une étape de standardisation, ou mapping vers son code unique LOINC (classification internationale notamment pour les tests biologiques), est nécessaire ainsi que l’extraction de la valeur numérique et de son unité, ou encore des milieux considérés (prélèvements sanguins, urine, moelle osseuse, etc.).
Les données de biologie présentes dans l’EDS sont donc issues de données structurées collectées dans les laboratoires et des données textuelles mentionnées par les cliniciens. L’étude des similitudes et différences entre ces sources de données est cruciale pour que les chercheurs les utilisent efficacement. Il est par exemple souhaitable d’estimer de manière fiable l’exhaustivité des données issues des comptes rendus médicaux remplis par les cliniciens ainsi que la qualité de la base de données structurée (chaînage correcte du patient et du séjour, importation exhaustive des données depuis les laboratoires de biologie médicale, codage standardisé des résultats, etc.). La mise à disposition de ces indicateurs de qualité sont un prérequis à la réalisation d’études non biaisées sur les données massives de l’EDS.

References

[Vaswani2017] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).

[Devlin2018] Delvin J., Changm. W., Leek. & Toutanovak (2019). BERT : Pre-training of deep bidirectional transformers for language understanding. NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics : Human LanguageTechnologies - Proceedings of the Conference,1, 4171–4186.

[Martin2020] Martin L, Muller B, Suárez PJ, Dupont Y, Romary L, de La Clergerie ÉV, Seddah D, Sagot B. CamemBERT: a tasty French language model. arXiv preprint arXiv:1911.03894. 2019 Nov 10.

[Neuraz2020] Neuraz A, Lerner I, Digan W, Paris N, Tsopra R, Rogier A, Baudoin D, Cohen KB, Burgun A, Garcelon N, Rance B, AP-HP/Universities/INSERM COVID-19 Research Collaboration; AP-HP COVID CDR Initiative Natural Language Processing for Rapid Response to Emergent Diseases: Case Study of Calcium Channel Blockers and Hypertension in the COVID-19 Pandemic
J Med Internet Res 2020;22(8):e20773

[Jouffroy2021] Jouffroy J, Feldman SF, Lerner I, Rance B, Burgun A, Neuraz A
Hybrid Deep Learning for Medication-Related Information Extraction From Clinical Texts in French: MedExt Algorithm Development Study
JMIR Med Inform 2021;9(3):e17934

[Wajsbürt2021] Wajsbürt, Perceval, Arnaud Sarfati, and Xavier Tannier. “Medical concept normalization in French using multilingual terminologies and contextual embeddings.” Journal of Biomedical Informatics 114 (2021): 103684.

Objectifs du stage

Au cours de ce travail, nous souhaitons aborder la question de l’apport des comptes rendus textuels pour le phénotypage des patients par les données de biologie. La partie traitement automatisé du langage et normalisation seront réalisés par des algorithmes dédiés [CODER2020, Wajsbürt2021] avec une vérification manuelle par un clinicien. L’étudiant devra participer à l’extraction complète des données de biologie à l’aide notamment d’expressions régulières, extraction des tableaux dans les textes, et en mettant ensuite en parallèle cette extraction d’une part par rapport à un gold standard annoté par le clinicien, d’autres part par rapport aux données structurées de biologie. La valeur numérique extraite par traitement automatique du langage sera aussi évaluée par rapport à sa distribution dans la population générale.

Profile

Stage de fin d’étude d’une école d’ingénieur ou d’un master spécialisé en analyse de données massives.

Connaissances requises

  • Expérience en programmation Python
  • Connaissances en requêtage de bases de données SQL
  • Connaissance des principales bibliothèques Python de data science

Connaissances appréciées

  • Expérience en Natural Language Processing (NLP)
  • Connaissance du monde hospitalier
  • Connaissances en biologie