什么是TRIO 快速开始

训练推理保存权重与继续训练下载权重损失函数异步

什么是TRIO

TRIO 让你专注于 LLM 后训练中真正重要的部分 —— 你的数据和算法 —— 而将分布式训练的复杂工作交给我们来处理。

你只需编写一个简单的脚本，在仅使用 CPU 的机器上运行，其中包括数据、环境以及损失函数。我们会负责将训练扩展到大量 GPU 上，高效地执行你指定的计算。如果你想更换使用的模型，只需在代码中修改一个字符串即可。

TRIO 让你完全掌控训练循环以及所有算法细节。它并不是一个让微调“变简单”的黑盒，而是一个干净的抽象层：在保留你控制权的同时，将分布式训练的复杂性屏蔽起来。

“糟糕的 Infra 和海量 Dirty Work 是创新研究的敌人，TRIO 希望使研究者专注于算法本身。”

功能

当前 TRIO 服务支持：

支持对开源权重模型进行微调（目前开放使用的是40亿参数），包括稠密模型（Dense）和专家混合（MoE）架构。
实现的是低秩适配（LoRA）微调，而非全量微调。不过我们认为，对于许多重要场景（尤其是强化学习），LoRA 可以达到与全量微调相同的效果。
你可以下载训练后的模型权重，在 TRIO 之外使用，例如接入你选择的推理服务。

概览

TRIO 的核心功能集中在几个关键函数中：

forward_backward：输入数据和损失函数，我们会为你计算并累积梯度
optim_step：使用累积的梯度更新模型
sample：从训练后的模型中生成输出
其他函数：用于保存和加载模型权重以及优化器状态

社区

建议反馈：链接
合作/联系我们：contact@swanlab.cn

快速开始

快速体验TRIO

On this page