Spark en mode cluster et mode local

Le premier webinaire sur le format de fichier parquet et l’outil d’analytics DuckDB a eu lieu le 4 février dernier et a rassemblé 305 participants.

Pour ceux qui ne pouvaient participer, nous vous joignons le lien vers le replay ainsi que le lien vers les documents supports.

Le prochain webinaire concernera spark en mode local et en mode cluster et aura lieu le 30 avril de 11h00 à 12h30.
Nous enverrons le lien pour s’inscrire dans notre prochaine newsletter.

A titre d’exemple d’application de Spark, le CASD a mis en place, dans le cadre d’un projet MIDAS de la DARES, un cluster SPARK/HDFS, permettant de distribuer les calculs au plus près des données réparties sur 15 serveurs, et qui rassemblent :
• 150 vCPU,
• 2,8 To de RAM,
• 30 To de disque brut