Rs' Log

AI Coding & 网页设计

$\textcolor{yellow}{\text{[update 2025-10-03]}}$: 新增对codex/claude-code/gemini-cli使用体验写在前面用AI用久了，发现想打几行真情实感的文字好像变得比较困难，比如说这篇博客的开头，左思右想了半天，也不知道写些什么，想不如让AI帮写一下吧，给它一个prompt，好像什么都可以生成出来。现在我坐在LOTTA，喝着dirty，耳机里放的是方大同，手机摆在前面放的是香港公开赛梁王打黑塔，电脑屏幕是这个markdown文档，其实就是想简单写写这段时间以来，对AI Coding以及AI相关的体验、感想。先申明：笔者也并不是什么深度AI Coding用户，技术不强，只会简单调戏AI，反复循环而已。 ...

大模型post-training方法——强化学习篇

PPO PPO（Proximal Policy Optimization）算法出自Schulman et al.，在微调大模型中，该算法通过最大化以下目标函数来优化模型参数： ...

GRPO From Scratch

简介本篇博客基于Andriy Burkov的grpo开源代码，简单跑通GRPO的完整流程。使用的GPU资源为1张3090（24G）。原作者代码见：GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注：原作者使用8张80G A100完成实验。 ...

DeepSeek-V3技术报告解读

1. 摘要 DeepSeek-V3，是一个Mixture-of-Experts（MoE）结构的大语言模型，参数量671B，其中每个token激活的参数量为37B。DeepSeek-V3主要采用Multi-head Latent Attention（MLA）和DeepSeekMoE结构，此外为了expert负载均衡引入了auxiliary-loss-free策略，为了更强的模型性能采用了multi-token prediction（MTP）训练策略。DeepSeek-V3预训练预料一共14.8T个token，并采用SFT和RL进一步对齐增强模型性能。DeepSeek-V3完整的训练一共仅需要2.788M H800 GPU hours。项目链接：DeepSeek-V3 ...

DeepSeek-R1技术报告解读

1. 摘要本次更新开源了DeepSeek-R1-Zero和DeepSeek-R1两个新旗舰reasoning模型，主要使用large-scale reinforcement learning且不需要SFT即完成训练，为开源社区给出了一个完全新颖且行之有效的reasoning LLM训练方案。其中DeepSeek-R1在reasoning任务上和OpenAI-o1-1217性能相当。除此之外，团队还开源了不同size的稠密模型（1.5B,7B,8B,14B,32B,70B），这些小模型是基于Qwen和Llama开源模型通过蒸馏DeepSeek-R1得到。 ...

RAG路线

Retrieval-Augmented Generation for Large Language Models: A Survey 1. Overview of RAG 典型的RAG模型如图1所示图1: 经典RAG模型 1.1 Naive RAG Naive RAG为传统的RAG方法，主要流程包括：索引，检索，生成。 ...

强化学习笔记

1. 基本概念，公式策略$\pi$，状态$s\in\mathcal S$，动作$a\in\mathcal A$，奖励$r\in\mathcal R$ 转移函数$P$给出当采取行动$a$从状态$s$转移到$s^\prime$，同时获得奖励$r$的概率 ...

Deepspeed多机多卡训练&代码细节

本次使用的是多台8卡1080Ti服务器进行deepSpeed多机多卡实验。 Supervised finetuning 首先在主节点克隆deepspeed-chat仓库。使用的主要环境： 1 2 3 4 5 6 7 8 9 pip install torch==1.13.0 pip install datasets pip install sentencepiece pip install protobuf==3.20.3 pip install accelerate pip install deepspeed==0.10.0 pip install transformers==4.44.2 pip install tensorboard pip install numpy==1.26.4 deepspeed安装需要有nvcc，开始这些1080Ti服务器没有nvcc，所以先装了这个： ...

大模型post-training方法

1. DPO Rafailov et al. (2023)基于RLHF中PPO的优化式推导出最优奖励函数表达式：$r(x, y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}+\beta logZ(x)$，将该奖励函数表达式带入BT-model得到DPO的损失函数表达式： ...

Welcome to Rs' Log