什么是TRIO

TRIO 让你专注于 LLM 后训练中真正重要的部分 —— 你的数据和算法 —— 而将分布式训练的复杂工作交给我们来处理。

你只需编写一个简单的脚本,在仅使用 CPU 的机器上运行,其中包括数据、环境以及损失函数。我们会负责将训练扩展到大量 GPU 上,高效地执行你指定的计算。如果你想更换使用的模型,只需在代码中修改一个字符串即可。

TRIO 让你完全掌控训练循环以及所有算法细节。它并不是一个让微调“变简单”的黑盒,而是一个干净的抽象层:在保留你控制权的同时,将分布式训练的复杂性屏蔽起来。

“糟糕的 Infra 和海量 Dirty Work 是创新研究的敌人,TRIO 希望使研究者专注于算法本身。”

功能

当前 TRIO 服务支持:

  • 支持对开源权重模型进行微调(目前开放使用的是40亿参数),包括稠密模型(Dense)和专家混合(MoE)架构。
  • 实现的是低秩适配(LoRA)微调,而非全量微调。不过我们认为,对于许多重要场景(尤其是强化学习),LoRA 可以达到与全量微调相同的效果。
  • 你可以下载训练后的模型权重,在 TRIO 之外使用,例如接入你选择的推理服务。

概览

TRIO 的核心功能集中在几个关键函数中:

  • forward_backward:输入数据和损失函数,我们会为你计算并累积梯度
  • optim_step:使用累积的梯度更新模型
  • sample:从训练后的模型中生成输出
  • 其他函数:用于保存和加载模型权重以及优化器状态

社区

On this page