Actions
分布式相关¶
从softmax到context parallell
针对超长上下文模型训练的序列并行方案简介
deepspeed-zero3 分享
Updated by jun chen 16 days ago · 3 revisions
Wiki »
从softmax到context parallell
针对超长上下文模型训练的序列并行方案简介
deepspeed-zero3 分享
Updated by jun chen 16 days ago · 3 revisions