配置说明

KTransformers 使用 YAML 配置文件来自定义推理行为。

基本配置

# config.yaml
backend: torch
device: cuda:0

model:
  name: deepseek-ai/DeepSeek-R1-671B
  quantization: Q4_K_M

inference:
  max_tokens: 2048
  temperature: 0.7
  top_p: 0.9

卸载配置

为大模型启用 MoE 卸载：

offload:
  enabled: true
  ratio: 0.8  # 80% 的专家在 CPU 上
  device: cpu

内存优化

memory:
  kv_cache_dtype: float16
  attention_backend: flash_attention_2
  gradient_checkpointing: false

多 GPU

distributed:
  enabled: true
  devices: [0, 1, 2, 3]
  strategy: tensor_parallel

环境变量

变量	描述	默认值
`KT_CACHE_DIR`	模型缓存目录	`~/.cache/ktransformers`
`KT_LOG_LEVEL`	日志级别	`INFO`
`KT_NUM_THREADS`	CPU 线程数	自动