分类 "Ai" 下的文章

问题:如何使用xinference运行大模型,解决xinference无法使用GPU运行模型的问题

解决:

xinference版本2.9.0
1、gguf格式的模型只能使用llama.cpp引擎运行
2、xinference使用llama.cpp引擎时调用的是xllamacpp而不是llama-cpp-python
3、使用transformer引擎运行pytorch格式模型

在深度学习项目中,训练一个高性能的模型只是第一步。真正让模型产生价值的关键在于将其高效、稳定地部署到生产环境中。本文以 Ultralytics YOLO11 为例,详细介绍如何将 .pt 模型文件一步步转换为 TensorRT 引擎(.engine),并使用 FastAPI 构建高性能 RESTful 接口,实现低延迟、高吞吐的缺陷检测服务。

一、环境与版本说明

本方案基于以下软硬件环境和依赖版本,确保兼容性和稳定性:

硬件环境

使用autodl的线上服务器

  • CPU:16 vCPU Intel(R) Xeon(R) Platinum 8481C
  • 内存:80GB
  • 硬盘:系统盘 30GB,数据盘 50G
  • GPU: RTX 4090D(24GB)
  • CUDA:12.8

阅读全文

问题:在windows上如何远程访问autodl服务器上部分的应用?

解决:使用ssh进行端口代理,将实例中的8000端口代理到本地的8000端口

方法:

ssh.exe -L 8000:127.0.0.1:8000 -p 47418 root@connect.cqa1.seetacloud.com

问题:大语言模型是如何训练出来的?

解答:
大语言模型(LLM)的训练过程与图像分类模型有相似之处,但核心差异在于处理的对象和目标。我们可以用图像分类的思维类比理解大语言模型的训练和推理逻辑:


1. 训练阶段:从“特征提取”到“下一个词预测”

  • 图像分类模型
    输入一张图片,模型通过卷积层提取特征(如边缘、纹理等),最后通过全连接层将特征映射到类别概率(如“猫”“狗”)。训练时,模型通过交叉熵损失函数比较预测类别和真实标签的差异,调整参数以最小化误差。
  • 大语言模型
    输入一段文本(如“我爱吃”),模型通过Transformer层提取上下文特征(类似图像中的“边缘”),但目标不是直接分类,而是预测下一个词的概率分布(如“饭”“面”)。训练时,模型同样使用交叉熵损失函数,但计算的是“预测的下一个词”与“真实的下一个词”的差异。例如:

    • 输入:“我爱吃” → 模型应输出“饭”(标签为“饭”),损失函数衡量模型对“饭”的预测概率与真实标签的差距。
    • 关键操作:模型需要对输入序列和标签进行移位(shift),确保每个位置的预测仅依赖前面的词(类似图像分类中局部感受野的概念)。

阅读全文

方法核心原理优点缺点典型使用场景
全参数微调调整预训练模型的所有参数,完全适配下游任务。1. 性能最优,充分挖掘模型潜力
2. 适用性广,不受任务复杂度限制
1. 显存和计算资源消耗大(如70B模型需数百GB显存)
2. 训练时间长,易过拟合
资源充足的高精度任务(如专业领域生成、复杂推理)
LoRA冻结原模型权重,注入可训练的低秩矩阵(A、B)模拟参数增量,仅更新0.01%-1%参数1. 显存需求低(7B模型仅需14GB)
2. 无推理延迟,权重可合并
3. 支持多任务模块化切换
1. 低秩近似可能损失性能(复杂任务)
2. 需手动调整秩(r)和缩放系数(α)
资源受限的多任务适配(如对话生成、分类任务)
QLoRA在LoRA基础上引入4-bit量化,反量化计算梯度,进一步降低显存1. 显存较LoRA再降33%(如21GB→14GB)
2. 保留LoRA灵活性的同时突破显存限制
1. 训练时间增加约39%
2. 量化可能引入精度损失(极端低bit时)
超大规模模型微调(如千亿参数)或消费级GPU(如单卡12GB)

阅读全文