KTransformers

快速入门

本指南将帮助您在几分钟内启动并运行 KTransformers。

前置要求

在开始之前,请确保您已具备:

  • Python 3.9 或更高版本
  • CUDA 11.8+(用于 GPU 加速)
  • 至少 16GB 内存(大模型推荐 256GB+)

安装

pip install ktransformers

您的第一个模型

让我们运行一个简单的推理:

from ktransformers import AutoModel

# 加载模型
model = AutoModel.from_pretrained(
    "deepseek-ai/DeepSeek-R1-671B",
    device_map="auto",
    ktransformers_config="./config.yaml"
)

# 生成文本
response = model.generate(
    "用简单的语言解释量子计算",
    max_new_tokens=512
)

print(response)

配置

创建 config.yaml 文件来自定义推理:

backend: torch
quantization: Q4_K_M
offload:
  enabled: true
  ratio: 0.8

下一步