为什么选择 KTransformers?
为希望在消费级硬件上运行大模型且不牺牲性能的开发者打造。
异构计算
同时利用 CPU、GPU 和其他加速器优化推理。在消费级硬件上运行大模型。
原精度推理
无需量化压缩,保持模型原始精度,确保推理质量不打折扣。
推理微调全栈
从推理到微调,提供完整的大模型本地部署工具链,一站式满足开发需求。
多模型支持
支持 DeepSeek、Kimi、GLM、Qwen、MiniMax 等主流大模型,覆盖多种使用场景。
携手 SGLang
GPU 推理部分由 SGLang 提供支持,强强联合带来卓越的推理性能。
活跃社区
加入数千名用户,分享测试结果、配置和最佳实践。
性能亮点
MiniMax-M2.1 FP8 原精度,单卡实测数据(32K tokens 输入)
2,540
预填充速度(tokens/s)
1x RTX 5090 (32GB) + 2x AMD EPYC 9355
27.6
解码速度(tokens/s)
1x RTX 5090 (32GB) + 2x AMD EPYC 9355
4.5x
预填充加速比
相比 llama.cpp(Q8_0 量化)
微调性能亮点
低显存全参数微调实测数据
--
训练吞吐量(tokens/s)
数据即将公布
--
显存占用
数据即将公布
--
相比全卡训练
数据即将公布