spark-submit
semble nécessiter une communication bidirectionnelle avec un cluster Spark distant afin d'exécuter des travaux.
Cette configuration est facile à réaliser entre machines (10.x.x.x à 10.x.x.x et retour) mais devient confuse lorsque Docker ajoute une couche supplémentaire de mise en réseau (172.x.x.x par 10.x.x.x à 10.x.x.x et retour à 172.x.x.x par 10.x.x.x en quelque sorte).
Spark ajoute une couche supplémentaire de complexité avec ses SPARK_LOCAL_IP
y SPARK_LOCAL_HOSTNAME
paramètres de configuration pour le client.
Comment le réseau Docker doit-il être configuré pour permettre cela ?
0 votes
Qu'avez-vous essayé ?
0 votes
En supposant que vous disposez d'enregistrements DNS et que l'hôte Docker se trouve sur le même réseau que le cluster Spark, SPARK_LOCAL_HOSTNAME doit être défini sur le nom de domaine entièrement qualifié de l'hôte Docker et les ports de conteneur pertinents doivent être exposés sur l'hôte.