Claude Code安装使用及Agent相关架构问题分析
Windows端Claude Code支持桌面端、终端两种安装路径,终端安装可通过CMD或PowerShell执行官方命令完成,遇网络连接报错可切换美国VPN节点、开启全局代理或虚拟网卡模式解决,安装完成后需配置系统环境变量,可搭配rtk工具优化token消耗。终端输入cl...
Windows端Claude Code支持桌面端、终端两种安装路径,终端安装可通过CMD或PowerShell执行官方命令完成,遇网络连接报错可切换美国VPN节点、开启全局代理或虚拟网卡模式解决,安装完成后需配置系统环境变量,可搭配rtk工具优化token消耗。终端输入cl...
大模型多卡微调场景下主流分布式训练分为四类方案。数据并行中DP采用集中分发机制,存在数据冗余、GPU利用率不均问题,DDP采用独立运行机制,通过DistributedSampler加载无重叠数据,梯度经all-reduce后全局同步更新,无需重复拷贝模型。张量并行针对超大规...
PyTorch动态计算图为有向无环结构,节点对应张量或运算,边代表数据流,forward时即时构建,backward时按拓扑顺序反向传播累加梯度,执行后默认释放,可通过retain_graph=True保留中间变量与梯度信息。torch.compile基于三阶段流程实现提速...
PyTorch训练推理场景性能瓶颈分为CPU、GPU计算、I/O、多卡通信、框架开销五类,对应不同判别特征:GPU利用率波动跳变对应CPU瓶颈,训练起步慢后续提速对应I/O瓶颈,NCCL AllReduce耗时占比超30%对应多卡通信瓶颈。宏观可通过bpytop、nvidi...
针对GRPO存在的token级重要性采样与序列级奖励不匹配、路由阶段不一致易导致专家训练崩溃问题,Qwen团队提出GSPO算法,取消token平均改为序列级重要性计算,在TRL中可通过GRPOConfig设置importance_sampling_level为sequenc...
传统残差连接通过跳跃连接缓解深度模型梯度消失与退化问题,但存在各层贡献权重一致、浅层信息随层数叠加逐渐被稀释的缺陷,过往门控、加权类改进效果有限。针对该痛点,Kimi提出注意力残差连接,对前序所有block输出计算softmax注意力权重做加权融合,分别在单block计算后...
基于vllm 0.17.1版本,详解KV缓存块管理器实现逻辑。默认block_size为16,单块可存储16个token,显存按设备显存固定比率预分配,block数量由可用显存、单块单层字节数、模型层数计算得到,每层预分配形状为[2,num_blocks,block_siz...
基于vllm 0.17.1,介绍其推理中generate过程及调度器运行。generate时,prompt经处理进入_add_request,编码并关联采样参数;后进入_run_engine,涉及模型输出。调度器含waiting与running队列,waiting队列中取出...
FireRED OCR基于Qwen3-vl微调,数据构建环节采用聚类去重保留长尾数据、多维度分类保证分布均衡、多工具联动清洗修复三类处理,训练分三阶段推进:先预训练强化目标检测、特定区域识别、页面转Markdown三类文档识别能力,再用高质量数据做监督微调,最后通过GRPO...
梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正,训练初期策略熵快速趋近于0,模型失去探索性,效果陷入瓶颈,可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策...
大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截...
Latent Consistency Model(LCM)通过将随机微分SDE转化为常微分ODE实现生成加速,仅需3-5步生成图像。Flow Matching算法则通过学习连续的确定性向量场(velocity field),构造从噪声到数据的最优概率路径加速生成。传统扩散模...
训练Qwen2.5VL-3B模型时出现Loss下降但Grad Norm先降后升的现象。模型采用AdamW优化器、cosine学习率warm up策略及交叉熵损失函数,通过tensorboard记录训练指标。Loss反映模型拟合效果,Grad Norm为所有参数梯度向量拼接后...
大模型推理优化除量化、多attention方案、cache策略外,可通过模型蒸馏、模型剪枝两类方案实现参数优化。模型蒸馏核心是让小体量学生模型学习预训练大模型的行为逻辑,主流方案包括叠加双损失的KD知识蒸馏、带温度参数的DKD解耦知识蒸馏、基于双损失约束的DMD分配匹配蒸馏...
Ai-toolkit框架用于扩散模型微调,需在autodl服务器(VGPU-32G、CUDA 13.0)安装,配置hf token后上传数据集(图像为.jpg/.jpeg/.png,文本为txt且一一对应,路径xxx/ai-toolkit/datasets)。训练界面参数建...
扩散模型生成加速策略主要包括加速框架、Cache策略和量化技术。加速框架通过优化计算后端(如flash_attn)、torch.compile编译、torch.channels_last内存访问优化及xFormers加速attention计算,结合CPU卸载和设备分配等显存...
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题...
Stable Diffusion WebUI基础使用指南:包含Linux环境安装流程,如克隆仓库、修改patches.py避免本地存储、配置webui.sh虚拟环境路径,运行脚本完成部署;详解模型安装方法,可下载dreamshaperXL等权重至指定目录;介绍插件安装,包括...
模型量化技术是将高精度(如FP16/FP32)模型权重转化为低比特(如INT8、INT4)的压缩方法,分量化感知训练(QAT)和后量化(PTQ)两大类,核心是数值精度校准与转化。GPTQ作为LLM后量化技术,通过“量化-补偿-量化-补偿”迭代流程,分块拆分权重矩阵,逐列量化...
本文详细解析QwenVL2.5模型的处理流程及微调方法,包括模板化输入(通过processor.apply_chat_template处理对话messages,含等标记模拟用户/assistant对话)、编码输入(图像处理采用smart_resize动态调整分辨率确保可被p...
通义千问多模态系列QwenVL迭代脉络清晰,初代采用ViT-bigG视觉编码器、单层交叉注意力模块配合可学习查询,将视觉特征压缩为256长度输入7B基座大模型。QwenVL2支持动态分辨率,引入2×2相邻token拼接、多模态旋转位置编码M-RoPE,新增时间维度对齐视频处...
DeepSeek v3采用混合专家模型,新增辅助损失平衡专家不均衡,结构创新包括低秩优化KV-cache(降维升维减少显存)和混合专家机制(Routed Expert直接传入隐藏层,Shared Expert经门控筛选),集成Multi-Token Prediction技术...
本文汇总各类LLM模型核心技术,涵盖GPT、DeepSeek、LLama系列及BERT等。GPT系列中,GPT v1首创无监督预训练与监督微调两阶段模式,采用Transformer decoder架构;GPT v2调整layer-norm位置至残差连接块内,优化模型训练稳定...
本文介绍RORem和ObjectClear两种图像擦除论文模型。RORem基于SDXL基座,通过视频帧前后变化物体构建mask数据集并结合开源数据,经人工筛选后训练判别器实现自动化数据筛选(判别器基于SDXL-Inpainting下采样和中间层,Lora微调,得分>0.9为...
本文介绍了SDE(随机微分方程)与ODE(常微分方程)在扩散模型中的应用差异,因调度器不同其实现方式有所区别,并重点解析了DDPM与DDIM两种扩散模型调度器。DDPM将加去噪视为马尔科夫链过程,需多步(通常1000步)生成图像导致速度较慢;DDIM则通过“跳步”优化,提升...
本文主要介绍基于Unet和Dit框架的基座扩散模型,重点对比SD1.5与SDXL的核心差异,包括CLIP编码器(SDXL采用双编码器拼接提升文本理解能力)、图像输出维度(SDXL默认1024x1024优于SD1.5的512x512)及技术优化策略。还涵盖Imagen的多阶段...
本文介绍常用目标检测算法,包括R-CNN、Fast RCNN、Faster RCNN及Yolo等。R-CNN通过区域候选框生成器(如Selective Search)产生候选框,经CNN特征提取和非极大值抑制剔除重叠框;Fast RCNN采用ROI pooling实现单图一...
图像消除是图像生成模型的重要应用领域,本文围绕Erase Diffusion、SmartEraser及OmniEraser等模型,阐述其核心技术与数据集构建方法。Erase Diffusion通过动态图像组合(输入与目标图像随解噪过程动态调整)、改进预测过程(计算“图像链”...
本文介绍生成模型开发常用的Python库Diffusers与Accelerate,助力开发者高效实践。Accelerate提供快速分布式训练方案,无需手动编写torch代码,支持梯度累计、混合精度训练等加速方法,可结合tensorboard/wandb记录训练过程,适配wa...