2026

Claude Code安装使用及Agent相关架构问题分析

在Windows上通过WSL安装Claude Code是推荐方式,支持桌面端和终端安装,需配置环境变量并处理VPN节点或全局代理以解决安装报错。Skills分为项目目录和根目录,可自动触发(基于description字段)或手动触发(/命令联想),安装他人Skills可通过...

2026-05-17agentagentclaude code

🔥Pytorch使用-1:Pytorch计算图等概念

PyTorch计算图是有向无环图,节点代表操作,边代表数据流,动态图在每次前向传播时即时构建并默认释放,支持灵活调试。反向传播时框架沿图计算梯度并累加到叶子张量。静态图则提前构建完整计算图以优化执行。torch.compile引入三个核心组件:TorchDynamo通过捕获...

2026-04-10pytorchpytorchtorch.compile计算图

残差连接————Kimi注意力残差/字节混合注意力

传统残差连接通过跳跃连接缓解深度模型梯度消失与退化问题,但存在各层贡献权重一致、浅层信息随层数叠加逐渐被稀释的缺陷,过往门控、加权类改进效果有限。针对该痛点,Kimi提出注意力残差连接,对前序所有block输出计算softmax注意力权重做加权融合,分别在单block计算后...

2026-03-21paper论文kimi

强化学习算法-1:GRPO、DPO与PPO解析

大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截...

2026-02-26强化学习GRPODPOPPOLLM