KTransformers

配置说明

KTransformers 使用 YAML 配置文件来自定义推理行为。

基本配置

# config.yaml
backend: torch
device: cuda:0

model:
  name: deepseek-ai/DeepSeek-R1-671B
  quantization: Q4_K_M

inference:
  max_tokens: 2048
  temperature: 0.7
  top_p: 0.9

卸载配置

为大模型启用 MoE 卸载:

offload:
  enabled: true
  ratio: 0.8  # 80% 的专家在 CPU 上
  device: cpu

内存优化

memory:
  kv_cache_dtype: float16
  attention_backend: flash_attention_2
  gradient_checkpointing: false

多 GPU

distributed:
  enabled: true
  devices: [0, 1, 2, 3]
  strategy: tensor_parallel

环境变量

变量描述默认值
KT_CACHE_DIR模型缓存目录~/.cache/ktransformers
KT_LOG_LEVEL日志级别INFO
KT_NUM_THREADSCPU 线程数自动