Data Engineer - CDI - Scala & Spark - Paris

Long term
Paris
40000 - 60000€ (Annual)
Posted on 10-14-2022

Assistance Publique - Hôpitaux de Paris - DSI

Réaliser les projets digitaux innovants au sein de l’hôpital.

More informations
  • Website
  • Unknown
  • Between 50 and 250 employees
  • Others
Read more

Avec ses 800 services hospitaliers couvrant 84 spécialités et avec plus de 4 000 projets de recherche en cours, l’AP-HP est une institution reconnue dans le monde médical pour la qualité et la compétence de ses professionnels de santé, exerçant dans nos 39 hôpitaux.
Travailler à l’AP-HP c’est poursuivre un intérêt général dans un grand service public et venir en appui nos 100 000 professionnels pour que soit assurée la meilleure prise en charge possible des 10 millions de patients par an qui sont accueillis dans nos hôpitaux.
L’AP-HP est le 1er Groupe Hospitalo-Universitaire européen et fait partie des 3 plus importants groupes hospitaliers mondiaux.
Nos équipes participent directement à l’effort de consolidation de ce haut niveau d’excellence médicale. Pour cela, chaque collaborateur de la Direction des Systèmes d’Information de l’AP-HP s’engage à :

  1. s’investir quotidiennement pour atteindre ses objectifs placer son intégrité et celle de l’institution au premier plan,
  2. travailler en équipe,
  3. fournir le meilleur service pour nos utilisateurs finaux qu’ils soient professionnel de santé ou patient,
  4. faire preuve de diplomatie en toute circonstance,
  5. respecter sans condition les règles de confidentialité inhérentes à nos activités.

La Direction des Systèmes d’Information :

  1. Intègre des logiciels/progiciels,
  2. Développe des applications,
  3. Teste et qualifie des produits,
  4. Développe des méthodes et outils de traitement de données massives,
  5. Construit des architectures et assure une urbanisation optimale des applications informatiques,
  6. Pilote des infrastructures complexes : serveurs, stockage, réseaux de haute performance.

Ce que vous ferez dans notre équipe contribuera directement au bon fonctionnement de l’AP-HP pour assurer notre Priorité N°1 : fournir le meilleur service à nos patients et nos professionnels !


En tant que Data Engineer, vous serez intégré au sein de l’équipe Big Data de l’Entrepôt de Données de Santé (EDS) de l’AP-HP. Cette équipe est composée d’une dizaine de Data Engineer travaillant à la conception et au développement de la base de données standardisée et centralisée de l’EDS. Cette base contient des données aggrégées provenant de divers applicatifs de l’AP-HP avec des typologies très différentes (données structurées, non-structurées, imagerie, voix, signaux physiologiques, etc.) qui nécessitera la mise en oeuvre d’outils spécifiques à leur intégration et leurs traitements.

  • Contribuer à la définition des besoins techniques et à l’accompagnement des Datas Scientists, chercheurs, et médecins lors de la réalisation de projets de recherche impliquant de nouvelles sources de données
  • Analyser les différents sources de données d’un point de vue technique (acquisition, stockage, transformation, exploitation, …)
  • Développer, industrialiserez et maintiendrez des traitements de données (extraction, sélection, collecte, intégration et aggrégation) dans un contexte Big Data (développements en Spark/Scala/Python)
  • Intégration d’algorithmes spécifiques (ML, NLP, etc.) co-développés avec l’équipe Data Science de l’EDS
  • Contribuer à l’utilisation de ces nouvelles typologies de données (extraction, sélection, collecte et intégration) via des connecteurs spécifiques développés en Java/Scala & Python
  • Aider à l’implémentation de standards et normes de mise à disposition des données (OMOP/FHIR)
  • Industrialiser le code de génération du flux de données et assurer sa performance globale
  • Optimiser la performance des outils dans un contexte Big Data (Hadoop / Spark)
  • Développer des méthodologies standardisées pour l’intégration de nouvelles données
  • Metter en place des outils les processus de tests unitaires, de recette et de qualification des données
  • Développer des solutions permettant la mise à disposition des données dans les espaces des projets de recherche
  • Développer des solutions pour monitorer les différents processus en production ainsi que la qualité des données
  • Travailler en collaboration avec des partenaires industriels dans le cadre des différents projets de recherche

Vous serez force de proposition pour améliorer la qualité des développements, notamment en réalisant une veille continue sur les outils et technologies, en proposant des algorithmes pouvant resoudre des problématiques fonctionnelles et techniques.

Avantages

Technique :

  • un cluster Hadoop de +30 serveurs
  • une infrastructure Kubernetisée conséquente (+100 serveurs) opérée par une équipe voisine
  • un ordinateur portable i7/32Go

Quotidien :

  • Cantine
  • Télétravail (max 3 jours par semaine)
  • 25 Congés payés et environ 22 RTT
  • Salaire de cadre dans la fonction publique (40 000,00€ à 60 000,00€ par an) imposé à 15% contre 25% dans le privé

N’hésitez pas à vous envoyer votre CV pour un premier entretien pour en découvrir + sur le poste, et peut-être par la suite venir nous rencontrer dans le 12e arrondissement !

Profile
  • Bac+5/Master
  • 3 ans d’expériences en tant que Data Engineer

Technologies et compétences requises :

  • Environnement UNIX (ou Windows selon préférence)
  • Scala / Java & Python
  • Traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
  • Bases de données SQL (Postgres, Apache Hive, LevelDB, etc.)
  • DevOps (CI/CD, Docker, scripting, bash, etc.)
  • Qualité de code (Tests, veille, code reviews, etc.)
  • Excellent relationnel et expression personnelle

Au moins un des points suivants :

  • Industrialisation d’application ou de flux de traitement de données massives de manière distribuée
  • Administration de cluster Hadoop
  • Pipelines CI/CD | Kubernetes / Helm charts
  • Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC, etc.)