2026

Claude Code安装使用及Agent相关架构问题分析

Windows端Claude Code支持桌面端、终端两种安装路径,终端安装可通过CMD或PowerShell执行官方命令完成,遇网络连接报错可切换美国VPN节点、开启全局代理或虚拟网卡模式解决,安装完成后需配置系统环境变量,可搭配rtk工具优化token消耗。终端输入cl...

2026-05-17agentagentclaude code

🔥[更新中]🔥Pytorch使用-3:常见的分布式训练及其实现

大模型多卡微调场景下主流分布式训练分为四类方案。数据并行中DP采用集中分发机制,存在数据冗余、GPU利用率不均问题,DDP采用独立运行机制,通过DistributedSampler加载无重叠数据,梯度经all-reduce后全局同步更新,无需重复拷贝模型。张量并行针对超大规...

2026-04-20pytorchpytorch分布式训练计算图

🔥Pytorch使用-1:Pytorch计算图等概念

PyTorch动态计算图为有向无环结构,节点对应张量或运算,边代表数据流,forward时即时构建,backward时按拓扑顺序反向传播累加梯度,执行后默认释放,可通过retain_graph=True保留中间变量与梯度信息。torch.compile基于三阶段流程实现提速...

2026-04-10pytorchpytorchtorch.compile计算图

🔥Pytorch使用-2:dataloader处理过程及模型训练性能分析

PyTorch训练推理场景性能瓶颈分为CPU、GPU计算、I/O、多卡通信、框架开销五类,对应不同判别特征:GPU利用率波动跳变对应CPU瓶颈,训练起步慢后续提速对应I/O瓶颈,NCCL AllReduce耗时占比超30%对应多卡通信瓶颈。宏观可通过bpytop、nvidi...

2026-03-31pytorch模型训练Pytorh学习

强化学习算法-3:GSPO、SAPO及KL散度改进

针对GRPO存在的token级重要性采样与序列级奖励不匹配、路由阶段不一致易导致专家训练崩溃问题,Qwen团队提出GSPO算法,取消token平均改为序列级重要性计算,在TRL中可通过GRPOConfig设置importance_sampling_level为sequenc...

2026-03-26强化学习GRPODAPOGSPO强化学习

残差连接————Kimi注意力残差/字节混合注意力

传统残差连接通过跳跃连接缓解深度模型梯度消失与退化问题,但存在各层贡献权重一致、浅层信息随层数叠加逐渐被稀释的缺陷,过往门控、加权类改进效果有限。针对该痛点,Kimi提出注意力残差连接,对前序所有block输出计算softmax注意力权重做加权融合,分别在单block计算后...

2026-03-21paper论文kimi

模型推理框架vllm-3——KVCache管理器

基于vllm 0.17.1版本,详解KV缓存块管理器实现逻辑。默认block_size为16,单块可存储16个token,显存按设备显存固定比率预分配,block数量由可用显存、单块单层字节数、模型层数计算得到,每层预分配形状为[2,num_blocks,block_siz...

2026-03-15推理部署框架vllm模型推理模型部署vllm

开源模型技术总结-3————FireRed(小红书)开源模型

FireRED OCR基于Qwen3-vl微调,数据构建环节采用聚类去重保留长尾数据、多维度分类保证分布均衡、多工具联动清洗修复三类处理,训练分三阶段推进:先预训练强化目标检测、特定区域识别、页面转Markdown三类文档识别能力,再用高质量数据做监督微调,最后通过GRPO...

2026-03-09多模态生成模型diffusion model开源模型

强化学习算法-1:GRPO、DPO与PPO解析

大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截...

2026-02-26强化学习GRPODPOPPOLLM

深入浅出了解生成模型-10:Flow Matching基本原理

Latent Consistency Model(LCM)通过将随机微分SDE转化为常微分ODE实现生成加速,仅需3-5步生成图像。Flow Matching算法则通过学习连续的确定性向量场(velocity field),构造从噪声到数据的最优概率路径加速生成。传统扩散模...

2026-02-23生成模型生成模型diffusion modelFlow Matching

模型训练分析-1:Loss以及Grad Norm分析

训练Qwen2.5VL-3B模型时出现Loss下降但Grad Norm先降后升的现象。模型采用AdamW优化器、cosine学习率warm up策略及交叉熵损失函数,通过tensorboard记录训练指标。Loss反映模型拟合效果,Grad Norm为所有参数梯度向量拼接后...

2026-02-20深度学习基础理论lossgrad norm

深入浅出了解生成模型-10:模型蒸馏与剪枝

大模型推理优化除量化、多attention方案、cache策略外,可通过模型蒸馏、模型剪枝两类方案实现参数优化。模型蒸馏核心是让小体量学生模型学习预训练大模型的行为逻辑,主流方案包括叠加双损失的KD知识蒸馏、带温度参数的DKD解耦知识蒸馏、基于双损失约束的DMD分配匹配蒸馏...

2026-02-15生成模型生成模型diffusion model模型蒸馏

2025

深入浅出了解生成模型-8:生成加速策略概述

扩散模型生成加速策略主要包括加速框架、Cache策略和量化技术。加速框架通过优化计算后端(如flash_attn)、torch.compile编译、torch.channels_last内存访问优化及xFormers加速attention计算,结合CPU卸载和设备分配等显存...

2025-12-29生成模型生成模型diffusion model量化技术生成加速策略

模型推理框架vllm-1——整体框架及使用

Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题...

2025-12-27推理部署框架vllm模型推理模型部署

Stable Diffusion WebUI和Comfui基础使用

Stable Diffusion WebUI基础使用指南:包含Linux环境安装流程,如克隆仓库、修改patches.py避免本地存储、配置webui.sh虚拟环境路径,运行脚本完成部署;详解模型安装方法,可下载dreamshaperXL等权重至指定目录;介绍插件安装,包括...

2025-12-12AIGC工具使用AIGC工具

模型量化操作————GPTQ和AWQ量化

模型量化技术是将高精度(如FP16/FP32)模型权重转化为低比特(如INT8、INT4)的压缩方法,分量化感知训练(QAT)和后量化(PTQ)两大类,核心是数值精度校准与转化。GPTQ作为LLM后量化技术,通过“量化-补偿-量化-补偿”迭代流程,分块拆分权重矩阵,逐列量化...

2025-10-11量化部署模型量化

🔥[长期更新]开源模型技术总结-1————Qwen系列模型

通义千问多模态系列QwenVL迭代脉络清晰,初代采用ViT-bigG视觉编码器、单层交叉注意力模块配合可学习查询,将视觉特征压缩为256长度输入7B基座大模型。QwenVL2支持动态分辨率,引入2×2相邻token拼接、多模态旋转位置编码M-RoPE,新增时间维度对齐视频处...

2025-08-28多模态cv-backbone多模态llmmultimodal

图像消除论文-2:RORem、ObjectClear

本文介绍RORem和ObjectClear两种图像擦除论文模型。RORem基于SDXL基座,通过视频帧前后变化物体构建mask数据集并结合开源数据,经人工筛选后训练判别器实现自动化数据筛选(判别器基于SDXL-Inpainting下采样和中间层,Lora微调,得分>0.9为...

2025-07-25图像消除diffusion model图像消除

🔥[更新中]深入浅出了解生成模型-7:调度器(scheduler)原理

本文介绍了SDE(随机微分方程)与ODE(常微分方程)在扩散模型中的应用差异,因调度器不同其实现方式有所区别,并重点解析了DDPM与DDIM两种扩散模型调度器。DDPM将加去噪视为马尔科夫链过程,需多步(通常1000步)生成图像导致速度较慢;DDIM则通过“跳步”优化,提升...

2025-07-06生成模型生成模型diffusion modelscheduler

CV中常用Backbone-4:目标检查算法原理以及代码操作

本文介绍常用目标检测算法,包括R-CNN、Fast RCNN、Faster RCNN及Yolo等。R-CNN通过区域候选框生成器(如Selective Search)产生候选框,经CNN特征提取和非极大值抑制剔除重叠框;Fast RCNN采用ROI pooling实现单图一...

2025-06-28Backbonecv-backbone目标检测multimodal

图像消除论文-2:SmartEraser、Erase Diffusion、OmniEraser

图像消除是图像生成模型的重要应用领域,本文围绕Erase Diffusion、SmartEraser及OmniEraser等模型,阐述其核心技术与数据集构建方法。Erase Diffusion通过动态图像组合(输入与目标图像随解噪过程动态调整)、改进预测过程(计算“图像链”...

2025-06-26图像消除diffusion model图像消除