低显存原精度推理

KTransformers 通过 CPU/GPU 异构计算,利用 CPU 的存储与计算能力,
仅需一张 5090(32GB 显存)即可在本地部署千亿参数顶尖大模型。

低显存全参数微调

在消费级显卡上对千亿参数大模型进行全参数微调,无需昂贵的多卡集群。

为什么选择 KTransformers?

为希望在消费级硬件上运行大模型且不牺牲性能的开发者打造。

异构计算
同时利用 CPU、GPU 和其他加速器优化推理。在消费级硬件上运行大模型。
原精度推理
无需量化压缩,保持模型原始精度,确保推理质量不打折扣。
推理微调全栈
从推理到微调,提供完整的大模型本地部署工具链,一站式满足开发需求。
多模型支持
支持 DeepSeek、Kimi、GLM、Qwen、MiniMax 等主流大模型,覆盖多种使用场景。
SGLang
携手 SGLang
GPU 推理部分由 SGLang 提供支持,强强联合带来卓越的推理性能。
活跃社区
加入数千名用户,分享测试结果、配置和最佳实践。

性能亮点

MiniMax-M2.1 FP8 原精度,单卡实测数据(32K tokens 输入)

2,540
预填充速度(tokens/s)

1x RTX 5090 (32GB) + 2x AMD EPYC 9355

27.6
解码速度(tokens/s)

1x RTX 5090 (32GB) + 2x AMD EPYC 9355

4.5x
预填充加速比

相比 llama.cpp(Q8_0 量化)

微调性能亮点

低显存全参数微调实测数据

--
训练吞吐量(tokens/s)

数据即将公布

--
显存占用

数据即将公布

--
相比全卡训练

数据即将公布

准备好了吗?

加入社区,立即在您的硬件上运行大模型。