快速入门
本指南将帮助您在几分钟内启动并运行 KTransformers。
前置要求
在开始之前,请确保您已具备:
- Python 3.9 或更高版本
- CUDA 11.8+(用于 GPU 加速)
- 至少 16GB 内存(大模型推荐 256GB+)
安装
pip install ktransformers
您的第一个模型
让我们运行一个简单的推理:
from ktransformers import AutoModel
# 加载模型
model = AutoModel.from_pretrained(
"deepseek-ai/DeepSeek-R1-671B",
device_map="auto",
ktransformers_config="./config.yaml"
)
# 生成文本
response = model.generate(
"用简单的语言解释量子计算",
max_new_tokens=512
)
print(response)
配置
创建 config.yaml 文件来自定义推理:
backend: torch
quantization: Q4_K_M
offload:
enabled: true
ratio: 0.8