[Question]: 多机部署支持 #10727

suzewei · 2025-06-12T06:32:28Z

请提出你的问题

目前的PaddleNLP是否支持多机部署，并允许用户自定义划分 DP/PP/TP ？

gongel · 2025-06-16T07:38:01Z

训练是支持的，请问具体是哪个模型和需求呢？

suzewei · 2025-06-16T07:54:18Z

训练是支持的，请问具体是哪个模型和需求呢？

想使用两台P800机器16卡，跑满血版deepseek V3，启动命令：

python -m paddle.distributed.launch --devices=0,1,2,3,4,5,6,7 --master=192.168.0.16:8090 --nnodes 2 --nproc_per_node 8 --rank 0 deepseek_V3.py
python -m paddle.distributed.launch --devices=0,1,2,3,4,5,6,7 --master=192.168.0.16:8090 --nnodes 2 --nproc_per_node 8 --rank 1 deepseek_V3.py

但是运行后不知道为什么还是会爆显存溢出问题，明明两机16卡空间应该是够的，单卡98G的显存

deepseek_V3.py 代码：
from paddlenlp.transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3") model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-V3", dtype="float16") input_features = tokenizer("你好！请自我介绍一下。", return_tensors="pd") outputs = model.generate(**input_features, max_new_tokens=128) print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))

suzewei · 2025-06-17T07:53:55Z

训练是支持的，请问具体是哪个模型和需求呢？

辛苦看下启动命令是否有问题，还是两机16卡的P800本身跑不了满血版的deepseek V3吗

suzewei added the question Further information is requested label Jun 12, 2025

paddle-bot bot assigned gongel Jun 12, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Question]: 多机部署支持 #10727

[Question]: 多机部署支持 #10727

suzewei commented Jun 12, 2025

gongel commented Jun 16, 2025

Uh oh!

suzewei commented Jun 16, 2025 •

edited

Loading

Uh oh!

suzewei commented Jun 17, 2025

Uh oh!

[Question]: 多机部署支持 #10727

[Question]: 多机部署支持 #10727

Comments

suzewei commented Jun 12, 2025

请提出你的问题

gongel commented Jun 16, 2025

Uh oh!

suzewei commented Jun 16, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

suzewei commented Jun 17, 2025

Uh oh!

suzewei commented Jun 16, 2025 •

edited

Loading