不同主机间的docker互相通信
迪丽瓦拉
2024-06-01 01:45:12
0

pytorch分布式训练ddp,4台机器,每台8个卡。每台机器中配置了一个docker,具体方法参考:https://blog.csdn.net/weixin_41012399/article/details/128645840?spm=1001.2014.3001.5502
方法一:
每个主机的docker 容器配置一个独有ip,不同主机之间的容器相互连通。docker默认的内网网段为172.17.0.0/16,不同主机的容器ip有可能冲突,所以要先改ip。
参考方法:
https://blog.csdn.net/lihongbao80/article/details/122583848
https://www.shuzhiduo.com/A/8Bz8e3AVJx/
按照上边的教程改完ip以后容器内连不上网,应该是少配置了网关或者路由。请教了一个公司的运维同时。正确配置方法是在主机上先新添加一个网桥,这个网桥配置新的网段,启动容器的时候选择该网卡的配置项。
添加完一个name叫做gpu的网桥

root@k8s-10-17-70-2-node:~# docker network ls
NETWORK ID     NAME      DRIVER    SCOPE
3bdc4b513df3   bridge    bridge    local
07d397c6a9e2   gpu       bridge    local
a14b41570df6   host      

相关内容