欢迎了解 Lightllm!
一个轻量级、高性能的大语言模型服务框架
Star3,148
Watch
Fork
Lightllm 是一个纯python开发的大语言模型推理和服务框架,具有轻量级设计、易扩展以及高性能等特点。 Lightllm 整合了众多的开源方案的优点,包括但不限于 FasterTransformer、TGI、vLLM 和 FlashAttention。
重要特性:
-
多进程协同:分词、语言模型推理、视觉模型推理、分词等工作异步进行,大幅提高GPU利用率。
-
零填充:提供对跨多个模型的 nopad-Attention 计算的支持,以有效处理长度差异较大的请求。
-
动态批处理:能够对请求进行动态的批处理调度。
-
F