配置说明
KTransformers 使用 YAML 配置文件来自定义推理行为。
基本配置
# config.yaml
backend: torch
device: cuda:0
model:
name: deepseek-ai/DeepSeek-R1-671B
quantization: Q4_K_M
inference:
max_tokens: 2048
temperature: 0.7
top_p: 0.9
卸载配置
为大模型启用 MoE 卸载:
offload:
enabled: true
ratio: 0.8 # 80% 的专家在 CPU 上
device: cpu
内存优化
memory:
kv_cache_dtype: float16
attention_backend: flash_attention_2
gradient_checkpointing: false
多 GPU
distributed:
enabled: true
devices: [0, 1, 2, 3]
strategy: tensor_parallel
环境变量
| 变量 | 描述 | 默认值 |
|---|---|---|
KT_CACHE_DIR | 模型缓存目录 | ~/.cache/ktransformers |
KT_LOG_LEVEL | 日志级别 | INFO |
KT_NUM_THREADS | CPU 线程数 | 自动 |