xinference配置说明

本文共有222个字,关键词:

问题:如何使用xinference运行大模型,解决xinference无法使用GPU运行模型的问题

解决:

xinference版本2.9.0
1、gguf格式的模型只能使用llama.cpp引擎运行
2、xinference使用llama.cpp引擎时调用的是xllamacpp而不是llama-cpp-python
3、使用transformer引擎运行pytorch格式模型

版权声明:本文为作者原创,如需转载须联系作者本人同意,未经作者本人同意不得擅自转载。
添加新评论
暂无评论