Ai技术分享 - HJQO DevDiary IT技术博客

xinference配置说明

问题：如何使用xinference运行大模型，解决xinference无法使用GPU运行模型的问题

解决：

xinference版本2.9.0
1、gguf格式的模型只能使用llama.cpp引擎运行
2、xinference使用llama.cpp引擎时调用的是xllamacpp而不是llama-cpp-python
3、使用transformer引擎运行pytorch格式模型

Ai
2026-05-27
评论
18 次浏览

如何将 YOLO 模型部署到生产环境

在深度学习项目中，训练一个高性能的模型只是第一步。真正让模型产生价值的关键在于将其高效、稳定地部署到生产环境中。本文以 Ultralytics YOLO11 为例，详细介绍如何将 .pt 模型文件一步步转换为 TensorRT 引擎（.engine），并使用 FastAPI 构建高性能 RESTful 接口，实现低延迟、高吞吐的缺陷检测服务。

一、环境与版本说明

本方案基于以下软硬件环境和依赖版本，确保兼容性和稳定性：

硬件环境

使用autodl的线上服务器

CPU：16 vCPU Intel(R) Xeon(R) Platinum 8481C
内存：80GB
硬盘：系统盘 30GB，数据盘 50G
GPU: RTX 4090D(24GB)
CUDA：12.8

阅读全文

Ai
2025-10-23
评论
189 次浏览

windows如何访问autodl上部署的应用

问题：在windows上如何远程访问autodl服务器上部分的应用？

解决：使用ssh进行端口代理，将实例中的8000端口代理到本地的8000端口

方法：

ssh.exe -L 8000:127.0.0.1:8000 -p 47418 root@connect.cqa1.seetacloud.com

Server,Linux,Ai
2025-10-23
评论
184 次浏览

大语言模型是如何训练出来的？

问题：大语言模型是如何训练出来的？

解答：
大语言模型（LLM）的训练过程与图像分类模型有相似之处，但核心差异在于处理的对象和目标。我们可以用图像分类的思维类比理解大语言模型的训练和推理逻辑：

1. 训练阶段：从“特征提取”到“下一个词预测”

图像分类模型：
输入一张图片，模型通过卷积层提取特征（如边缘、纹理等），最后通过全连接层将特征映射到类别概率（如“猫”“狗”）。训练时，模型通过交叉熵损失函数比较预测类别和真实标签的差异，调整参数以最小化误差。
大语言模型：
输入一段文本（如“我爱吃”），模型通过Transformer层提取上下文特征（类似图像中的“边缘”），但目标不是直接分类，而是预测下一个词的概率分布（如“饭”“面”）。训练时，模型同样使用交叉熵损失函数，但计算的是“预测的下一个词”与“真实的下一个词”的差异。例如：
- 输入：“我爱吃” → 模型应输出“饭”（标签为“饭”），损失函数衡量模型对“饭”的预测概率与真实标签的差距。
- 关键操作：模型需要对输入序列和标签进行移位（shift），确保每个位置的预测仅依赖前面的词（类似图像分类中局部感受野的概念）。

阅读全文

Ai
2025-05-19
评论
634 次浏览

全参数微调、LoRA、QLoRA优缺点、使用场景

方法	核心原理	优点	缺点	典型使用场景
全参数微调	调整预训练模型的所有参数，完全适配下游任务。	1. 性能最优，充分挖掘模型潜力 2. 适用性广，不受任务复杂度限制	1. 显存和计算资源消耗大（如70B模型需数百GB显存） 2. 训练时间长，易过拟合	资源充足的高精度任务（如专业领域生成、复杂推理）
LoRA	冻结原模型权重，注入可训练的低秩矩阵（A、B）模拟参数增量，仅更新0.01%-1%参数	1. 显存需求低（7B模型仅需14GB） 2. 无推理延迟，权重可合并 3. 支持多任务模块化切换	1. 低秩近似可能损失性能（复杂任务） 2. 需手动调整秩（r）和缩放系数（α）	资源受限的多任务适配（如对话生成、分类任务）
QLoRA	在LoRA基础上引入4-bit量化，反量化计算梯度，进一步降低显存	1. 显存较LoRA再降33%（如21GB→14GB） 2. 保留LoRA灵活性的同时突破显存限制	1. 训练时间增加约39% 2. 量化可能引入精度损失（极端低bit时）	超大规模模型微调（如千亿参数）或消费级GPU（如单卡12GB）

阅读全文

Ai
2025-04-18
评论
649 次浏览

分类 "Ai" 下的文章

xinference配置说明

如何将 YOLO 模型部署到生产环境

一、环境与版本说明

硬件环境

windows如何访问autodl上部署的应用

大语言模型是如何训练出来的？

1. 训练阶段：从“特征提取”到“下一个词预测”

全参数微调、LoRA、QLoRA优缺点、使用场景

最受欢迎的文章

最近回复

友情链接