Cluster Centos warewulf avec openmpi

Question

Cluster Centos warewulf avec openmpi

Demandé el 29 de Janvier, 2016: Quand la question a-t-elle été
1867 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

J'ai configuré un cluster warewulf sur centos 7 et j'ai installé openmpi-x86_64-1.10.0-10.el7, en plus j'ai aussi installé mpich. Lorsque j'exécute mpirun avec openmpi il en résulte l'erreur ci-dessous, la même chose avec mpich fonctionne parfaitement. Changer le n0000 pour le cluster master fonctionne également, mais il ne tourne pas dans le nœud.

mpirun -n 1 -host n0000 echo $HOSTNAME
[n0000.cluster:01719] [[24772,0],1] tcp_peer_send_blocking: send() to socket 9 failed: Broken pipe (32)
--------------------------------------------------------------------------
ORTE was unable to reliably start one or more daemons.
This usually is caused by:

* not finding the required libraries and/or binaries on
  one or more nodes. Please check your PATH and LD_LIBRARY_PATH
  settings, or configure OMPI with --enable-orterun-prefix-by-default

* lack of authority to execute on one or more specified nodes.
  Please verify your allocation and authorities.

* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
  Please check with your sys admin to determine the correct location to use.

*  compilation of the orted with dynamic libraries when static are required
  (e.g., on Cray). Please check your configure cmd line and consider using
  one of the contrib/platform definitions for your system type.

* an inability to create a connection back to mpirun due to a
  lack of common network interfaces and/or no route found between
  them. Please check network connectivity (including firewalls
  and network routing requirements).
--------------------------------------------------------------------------

Vous trouverez ci-dessous les sorties des adresses IP des clusters et des serveurs. J'ai également jeté un coup d'oeil à https://www.open-mpi.org/community/lists/users/2015/09/27643.php où un problème similaire est décrit, mais je ne pense pas avoir d'interfaces dans le même sous-réseau.

Server:
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: enp0s3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
    link/ether 08:00:27:2e:ee:c2 brd ff:ff:ff:ff:ff:ff
    inet 10.0.2.15/24 brd 10.0.2.255 scope global dynamic enp0s3
       valid_lft 85746sec preferred_lft 85746sec
    inet6 fe80::a00:27ff:fe2e:eec2/64 scope link
       valid_lft forever preferred_lft forever
3: enp0s8: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
    link/ether 08:00:27:76:b9:e7 brd ff:ff:ff:ff:ff:ff
    inet 10.1.1.1/24 brd 10.1.1.255 scope global enp0s8
       valid_lft forever preferred_lft forever
    inet6 fe80::a00:27ff:fe76:b9e7/64 scope link
       valid_lft forever preferred_ft forever

Node:
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/24 scope host lo
       valid_lft forever preferred_lft forever
    inet 127.0.0.1/8 brd 127.255.255.255 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
    link/ether 08:00:27:57:46:ce brd ff:ff:ff:ff:ff:ff
    inet 10.1.1.10/24 brd 10.1.1.255 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::a00:27ff:fe57:46ce/64 scope link
       valid_lft forever preferred_lft forever

Des idées ?

Demandé el 29 de Janvier, 2016 par SwatchPuppy

0 votes

D'après l'erreur, ça ressemble à un problème de pare-feu. Avez-vous essayé de désactiver le pare-feu et/ou êtes-vous sûr que le bon service est exécuté sur la machine distante ?

Commenté el 29 de Janvier, 2016 par Vince

0 votes

J'ai une installation minimale de centos, je ne pense pas qu'elle ait un pare-feu. iptables n'est pas installé et les pare-feu non plus.

Commenté el 29 de Janvier, 2016 par SwatchPuppy

0 votes

Quel support utilisez-vous pour interconnecter les nœuds (Ethernet, fibre, etc.) ? Combien de nœuds avez-vous au total ? Quel type de dispositif utilisez-vous pour terminer toutes vos connexions ?

Commenté el 29 de Janvier, 2016 par Richie086

Afficher 7 autres commentaires

Answer 1

1 Réponses

Answer 2

0voto

himchancho Points 1

Où avez-vous installé OpenFOAM ?

L'avez-vous installé sur /opt/ ou /home/username/OpenFOAM ?

Si vous avez fait le premier, le nœud de calcul ne peut pas trouver votre emplacement principal (/opt/).

Répondu el 10 de Juillet, 2019 par himchancho (1 Points )

0 votes

Je me demande juste si le passage des messages dépend vraiment de la bibliothèque de dynamique des fluides ? Il me semble que chaque nœud est chargé de simplement echo $HOSTNAME ?

Commenté el 11 de Juillet, 2019 par rjt

Cluster Centos warewulf avec openmpi

Réponse

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Cluster Centos warewulf avec openmpi

Réponse

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: