Yoyo_Lee 的博客

我为什么最喜欢晴雯——一个被误读的"任性"丫鬟

2026-04-29T14:00:00.000Z

晴雯临死前，把两根指甲咬下来给了宝玉。

两根葱管似的指甲，养了好几年，有三寸长。她那时已经"四五日水米不曾沾牙"，被王夫人从炕上拖出来撵走，躺在表哥家一张破炕上等死。宝玉偷偷跑来见她最后一面，她把指甲铰下来塞在他手里，又把自己贴身的红绫袄脱了递过去。

“我死也不甘心。我没有勾引你，他们偏要说我勾引你。”

每次读到这一段，都觉得心里被什么东西堵住了。

但事实是，身边的人对晴雯的感受多是较为负面的，“任性”、“张狂”、”封建礼教的替死鬼“，不绝于耳。这些的确都是她的特质。但她若是懂事了，或许就不是原来那个风流灵巧的人了

几个场景

晴雯的来历很特别。贾府丫鬟大多有根有底——袭人是老太太屋里拨过来的，麝月是家生子儿，碧痕、秋纹各归各的来路。晴雯呢？赖大家买来的小丫头，贾母看着喜欢，当礼物送给了宝玉。说白了，是"转手"过来的。

没有家世，没有根基。站在大观园最底层，长了一张最出色的脸，配了一双最巧的手，却偏偏有着一副最不肯低头的脾气。

病补雀金裘。 宝玉的雀金裘烧了一个洞，外面织补匠人"都不认得这是什么，都不敢揽"。晴雯正在病中，头重身轻，满眼金星乱迸。她怕宝玉着急，硬撑着熬了一夜，一针一线补到天亮。补完之后"力尽神危"，直接倒下了。病成如此模样还在替宝玉操心，放在医疗水平落后的那个年代，其实就是愿意为了宝玉豁出性命。

撕扇子。 晴雯跌断了扇子，宝玉说了她两句。换作别人，低头认个错就过去了。她偏当场顶回去。后来宝玉过来哄，讲了一番话，大意是：东西不过是借给人用的，你喜欢这样，我喜欢那样，各自性情不同。扇子原是扇风的，你想撕着玩，也可以。晴雯就真的拿了扇子撕起来。很多人看到这里觉得她恃宠而骄。但在晴雯看来，宝玉不同于贾府中其他的主子，他允许丫鬟们按照自己的方式活着。正巧袭人在此之前凭着与宝玉的云雨之情而把自己当作是个通房姨娘似的摆谱，为了找回面子，也为了向袭人示威:你晴雯不是与宝玉有云雨之情吗？但是，宝玉对我也是不错的。这才有了撕扇子一事。

被撵。 抄检大观园，王夫人亲自来清理门户，说晴雯"长得像林妹妹"，是"狐狸精"，会把宝玉"勾引坏了"。撵晴雯那天她正病得起不来床，两个女人把她从炕上拖出去架走。连一句辩解都不给。没几天，便死在表哥家的破炕上。

《又副册》之首的背后

红楼第五回中，宝玉梦游太虚幻境，在"薄命司"里翻看册子。"又副册"第一页，就是晴雯的判词：

霁月难逢，彩云易散。
心比天高，身为下贱。
风流灵巧招人怨。
寿夭多因毁谤生，多情公子空牵念。

“霁月”“彩云”——雨后的月亮，绚烂的云霞——"晴雯"两个字就藏在这两个意象里头。曹公用自然界里最亮、最"高"的东西，却拿来写一个地位最低的丫鬟。

“心比天高，身为下贱”

这便是晴雯悲惨命运原因的最好总结。“心高"和"身贱”，直接造就了她所面临的困境。出身低但认命顺从，像袭人一般，可以活得很好。出身高又心高气傲，像黛玉一般，反倒会受到众人的关注和宠爱。唯独晴雯身在最底层，而心在最上面。没有任何资本来支撑那份骄傲，但死也不肯放弃这种禀赋。

“风流灵巧招人怨”。怨，是因为你太好了，好到那些不如你的人感到不安。君子无罪、怀璧其罪。王善保家的跟王夫人告状那段话完美的描述了旁人眼中的晴雯：“仗着他生的模样儿比别人标致些，又生了一张巧嘴，天天打扮的像个西施的样子，在人跟前能说惯道，掐尖要强。”

芙蓉花神

宝玉对每个丫鬟的态度不太一样。

对袭人，是依赖。对麝月，是习惯。对芳官，是玩伴。对晴雯——是尊重。

晴雯死后。宝玉为她写了《芙蓉女儿诔》，整部《红楼梦》里最长的一篇韵文，超过一千二百字。他把晴雯比作芙蓉花神，用的语言连黛玉都没有得到过：

其为质则金玉不足喻其贵，其为性则冰雪不足喻其洁，其为神则星日不足喻其精，其为貌则花月不足喻其色。

金玉。冰雪。星日。花月。他把最纯粹的东西全堆在她身上了。一个丫鬟。这篇祭文比任何一个主子的葬礼都隆重。

写诔文的时候，黛玉在暗处听着。听到"茜纱窗下，我本无缘；黄土垄中，卿何薄命"，她"忡然变色"。黛玉在那个瞬间意识到——这篇诔文表面是哭晴雯，骨子里也在哭她。

晴为黛影。曹公在各个层面暗示了这一点。她们都心比天高，都不会讨好人，都因病早逝，都被自己没法选的身份困住了。王夫人讨厌晴雯的第一条理由就是"长得像林妹妹"。晴雯的命运，是黛玉的预演。

但晴雯和黛玉之间差了一个最关键的东西：身份。黛玉再痛苦，终究是主子，是"林姑娘"。晴雯连这个资格都没有。一模一样的骄傲，一模一样的才华，一模一样的不合时宜——放黛玉身上叫"清高"，放晴雯身上就成了"张狂"。同一套品质，身份不同，道德标签完全相反。整件事里最不公平的地方就在这里。

宝玉显然读懂了这一点。诔文里有一句："毁谤之口，岂独无因？"那些人的嘴，是没来由的吗？

他明知故问。原因就是因为晴雯活得率真，而这一品质在那个社会的规训下，是不被允许的。

几句后话

我有时候想，曹公为什么偏偏把晴雯放到"又副册"的第一页？

《红楼梦》里比她美的不是没有。比她聪明的也有的是。比她命苦的更多。或许正是晴雯的真实，使曹公愿意把她列为所有丫鬟中的首位。

在一个到处是面具的地方——主子戴主子的面具，丫鬟戴丫鬟的面具——晴雯一辈子没戴过。生气就顶嘴，委屈就哭，高兴就撕扇子，不服就当众把箱子翻给你看。

她只活了不到十七年。不够聪明，不够圆滑，不够"懂事"。用一生坚持着自己不卑不亢的品质。

真实不做作，读红楼的次数越多，越珍惜她这一点。

你感觉现在的电影和音乐不如以前了，这不是错觉，但原因不是你想的那样

2026-04-28T18:00:00.000Z

最近我一直在思考一个很久以前就产生的问题——我们这代人的青春背景音乐，好像还是周杰伦、陶喆、王菲、陈奕迅那批千禧一代。二十年过去了，新的"全民级"音乐人似乎再也没有出现过。喜剧类节目也同样让我明显感受到娱乐降级。小时候看的综艺节目似乎多少能够产生一些“高级”的笑点，而现如今打开的多数喜剧类节目似乎都被网络热梗以及十分低智的段子所充斥。春晚更是将大众的这一心理体现的淋漓尽致。以前的春晚小品是全国人民等一年的段子源头，赵本山和宋丹丹的《昨天今天明天》、陈佩斯和朱时茂的《吃面条》、沈腾玛丽的《扶不扶》——放到今天看，剧本结构和表演水平依然是顶级。现在的小品核心矛盾大概是"年轻人不想结婚"或者"老年人需要陪伴"。结尾必然是煽情 + 大团圆 + 一句正能量总结。“人型机器人”专场更是让我疑惑这真的是国家一年一度最高的艺术水平了吗？

“经济大环境不好，各行各业都在走下坡路，***越来越不如以前了”。这是一个几乎所有人都有的感觉。

这个结论没错，经济下行确实会拖累各行各业的磅礴发展，但今天我希望从数据上，分析一下。是否还有其它原因呢？

“这一届创作者不行了”

2023 至 2024 年，美国院线发行量为 500 到 600 部 (MPA THEME Reports, 2024)，但打开任何社交平台，你都会看到一种统一的叙事。好莱坞只拍续集和超级英雄，华语乐坛再没出现周杰伦级别的现象级新人，春晚小品从赵本山时代之后再无全民名场面。推论很直接：创作者不行了，资本只看流量，短视频毁了一切。

诚然，豆瓣top250里的前十的电影，光1994年就有三部。《肖申克的救赎》《阿甘正传》《这个杀手不太冷》《低俗小说》《狮子王》等等。

2000 年代的周杰伦的《七里香》、陶喆的《黑色柳丁》、王菲的《寓言》、陈奕迅的《U87》二十年后还在被反复播放。

好莱坞：IP 的胜利，故事的失败

先说电影。好莱坞现在的商业模式可以用一句话概括：如果有现成的观众认知，就不要冒险创造新的。漫威第四阶段之后一共上了多少部电影我说实话已经数不清了，但能记住的剧情不超过两部。迪士尼的真人翻拍更是离谱——《小美人鱼》《白雪公主》《狮子王》“真兽版”，一部比一部让人觉得"原版动画挺好的，你为什么要重拍一遍？"

这里面当然有经济逻辑。一部中等成本原创电影的制作成本大概在 5000 万到 1 亿美元之间，营销成本通常是制作成本的 50%。也就是说，一部原创电影要回本，全球票房大概得冲到 2-3 亿美元。而续集/IP 电影有导致了即使你拍的再烂，也总会有一批"保底观众"，使得首周的票房不会太难看。从资本的角度看，选 IP 不是 creative decision，是 risk management。

但问题在于，这套逻辑正在消灭"中等体量"的电影。流媒体不会为它们开绿灯，院线不愿意给排片。曾经好莱坞的生态是“大片赚钱，养活一批中等成本的类型片（剧情片、喜剧、惊悚片），这些小体量的片子偶尔会冒出一个爆款，孵化出新的 IP”。而现在呢？大片越来越大（一部《阿凡达 3》的预算顶 50 部独立电影），中等体量急剧减少。

《星球大战》《侏罗纪公园》《黑客帝国》这些电影都是原创 IP 赌出来的——赌赢了，才变成经典。现在大家大多愿意在已经是经典的东西上继续下注，少数人愿意赌下一个经典。

华语乐坛：为什么 2000 年代成了回不去的孤例

现在这个年代，基本每隔一段时间都会有爆款单曲，短视频平台上的热歌换个不停。但仔细想来，这些歌的"生命周期"大概就是三个月——火一阵，然后被下一首替代，很少有人会在潮流过去后还翻出来听。而十几年前甚至几十年前的老歌似乎被越来越多的年轻人反复播放。

为什么会这样？我觉得几个因素叠在一起了。

一是制作逻辑的根本性变化。以前的专辑是有"整体性"的——曲序是设计过的，十首歌之间有情结起承转合，听完一整张的体验和单曲循环完全是两回事。现在是单曲时代，大多数人听歌的场景是算法推荐 + 15 秒副歌判断是否滑走。

二是注意力分配的结构性偏移。2000 年代没有算法推荐，没有短视频。一帮人坐在一起听一张 CD 整晚是真实的社交场景。大家对音乐的注意力是"沉浸式"的。而现在，音乐更多是背景音——写作业、通勤、刷手机间隙。当一个文化产品不再是注意力的中心，它被认真对待的程度自然会下降。

三是搜索空间爆炸导致信噪比崩塌。信噪比，顾名思义就是信号强度和噪声强度之比，通常是指信号与噪声的功率之比。而1990 年代一个听众年接触新歌不超 500 首，好歌率 1% 意味每年 5 首值得记住的歌，每首都高度可见。而截至今天，仅声破天平台（Spotify）日上传的歌曲就高达 12 万首，搜索空间直接扩大了三个数量级！分子——好作品的产出，是线性增长的。好剧本需要时间打磨，好旋律需要灵感，这个速度不会因为技术变快而变快。分母爆炸，分子缓慢增长，信噪比自然就崩了。

搜索空间每扩大一个数量级，信噪比就以同样比例下降。噪音的增长远超信号的传播速度。在体育馆里找针和在客厅里找针，难度完全不同。

你拿来对比的，本身就不是一个公平的样本

现在我们需要诚实地面对一个问题：你对"过去更好"的判断，到底有多可靠？

你觉得 1994 年是电影的黄金年代。但 1994 年不只有《肖申克的救赎》，还有海量你叫不出名字的烂片。你之所以不知道它们的存在，是因为时间已经帮你把它们过滤掉了。

你觉得 2000 年代的华语乐坛是神仙打架。但那个年代也不只有周杰伦和林俊杰，还有海量的网络口水歌。你能说出十首 2003 年的烂歌吗？不能。因为它们没能活到你的面前。

这是一个经典的幸存者偏差。

从统计学的角度看，"经典"就是长尾分布里的极端 outlier。一个时代能穿越周期的作品，永远是个位数。 2000 年代经典好歌多，实际上可能是十年里你记住了二十首，平均每年也就两首。

而最近两年，大概率每年也有一两首好歌——只是它们还没有经过"时间"这一步的筛选，还混在每年几千万首的噪音里，你看不到它们。

你觉得过去"全是经典"，是因为那些不经典的东西在接触到之前就被淘汰了。你用被三十年过滤过的精选集，对比还没被打扫过的全量数据，这两个数据集根本不在同一个统计分布里。

那么问题又来了：如果仅仅是时间还没筛选，是不是说明再过十年，现在的好东西就会自动浮现了？

不完全是。

有些东西确实在变差

算法对多样性的挤压是真实存在的。当推荐系统的目标函数是最大化停留时长，能被你看到的内容种类确实在收窄。

不管你喜不喜欢，你大概率会被推向那些已经被验证过能留住人的内容。而这些东西往往是公式化的——一个你熟悉的 IP，一个验证过的叙事结构，一个安全的和弦进行。

20% 到 30% 的 Netflix 用户浏览到一半直接放弃，什么都不看就关掉了 (Nielsen / Deloitte, 2022-2023)。这是因为现在的内容太太太多了。多到你的决策成本超过了任何一部具体电影对你的吸引力。

与此同时，每天还有约 75000 首 AI 生成的曲目被上传到 Deezer，占日上传量的 10% (Music Business Worldwide, 2025)。AI 正在把内容生产的成本推向零，信噪比会进一步恶化。

所以电影、音乐、小品之所以不如以前了一部分是由于真实的统计偏差（幸存者偏差 + 信噪比崩塌），另一部分是真实的结构性退化。

这两件事互相放大，让你产生了一个比实际情况更糟糕的主观体验。

我们能做什么

我们改变不了推荐系统的目标函数。但我们可以改变获取内容的方式。

第一，减少被动推荐，增加主动搜索。每周花十分钟翻翻非算法来源——朋友推荐的歌单、电影节的获奖名单、独立书店的推荐书架。

第二，降低你的期待阈值。不是每部电影都必须是《肖申克的救赎》。有时候一部 7 分的电影，在合适的心情下比一部 9 分的电影更有价值。

你现在站在一座前所未有的数据垃圾山里，试图用肉眼挑出金子。而1994 年的观众也站在一座垃圾山里，只不过那座山只有今天的千分之一。三十年后，自然会有人帮我们把今天的山筛一遍。

但在那之前，你得自己动手翻。

不要再刷推荐页了。去翻下一块石头。

Claude Code 架构深度解析：Tool Use Loop、Context Management 与 Multi-Agent 机制

2026-04-26T19:00:00.000Z

本文是我对 Claude Code 源码架构的阅读笔记，重点剖析三个让我印象最深的核心设计：Tool Use Loop、Context Management 和 Multi-Agent Management。

引言

Claude Code 是 Anthropic 推出的 AI 编程助手 CLI 工具。与其他 AI 编程工具（如 Cursor、GitHub Copilot）不同，Claude Code 采用了一种"模型自主决策 + 无限工具调用循环"的架构范式。

1. Tool Use Loop：无限循环内的流式工具调用

1.1 整体流程

Claude Code 的核心是一个无限循环内的异步生成器。在 query.ts 的 queryLoop() 函数中，用一个 while(true) 包裹了所有逻辑。只有当模型不再输出 tool_use、达到预算上限、或被用户中断时才会退出。

整体流程可以简化为：

用户输入 → 预处理（context 裁剪/压缩）→ 调用模型 API（流式输出）→ {    如果模型输出文本（无 tool_use）：        → 执行 stop hooks → 返回最终结果，退出    如果模型输出 tool_use：        → 执行工具 → 收集 tool_result → 拼回对话 → 进入下一轮迭代}

每轮迭代之前，系统会做一轮 snip（裁剪过时消息）、microcompact（编辑缓存键）、collapse（折叠旧消息），以及必要时触发 auto compact（自动摘要压缩）。这些机制保证了即使在多轮工具调用后，context 也不会无限膨胀。

模型不只是回答问题，而是在一个受控的沙盒中不断思考、行动、观察反馈、再思考，直到完成任务。和 ReAct 论文里的思路有异曲同工之妙。

1.2 流式工具执行

Claude Code 的 StreamingToolExecutor 做到了在模型 streaming 输出期间就并行执行工具调用。

整体流程大致可以简化为：

模型开始 streaming →  content_block_start (思考文本)   → 实时显示给用户  content_block_start (tool_use_1) → 立即开始执行工具1  content_block_start (tool_use_2) → 立即开始执行工具2 ← 如果工具1和工具2都是只读的，二者并发  content_block_start (tool_use_3) → 排队等待（因为工具3是写操作）  message_stop

工具执行期间，已完成的结果会通过 yield 立即发送给 UI，用户可以看到工具一个接一个地产出结果，这带来了显著的延迟收益。如果模型要调用 3 个工具，每个平均耗时 2 秒，传统串行做法需要等 6 秒，而这套方案可以压缩到约 2 秒。

1.3 并发控制

工具调度的核心在 toolOrchestration.ts 的 partitionToolCalls()：

只读工具（如读文件、搜索代码）：标记为 isConcurrencySafe=true，可以并发执行，最大并发数由环境变量 CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY 控制（默认 10）
写入工具（如编辑文件、运行 Bash 命令）：标记为 isConcurrencySafe=false，必须串行执行
混合场景：工具被 partition 成连续的 batch，batch 内并发，batch 间串行

同时，Bash 支持错误级联取消。如果并行运行的多个 Bash 命令中有一个失败了，siblingAbortController.abort('sibling_error') 会取消所有其他正在运行的 Bash 子进程。这是因为 Bash 命令之间通常有隐式依赖（比如 mkdir 失败后，后面的 cp 就无意义了），但读文件和网络请求这类独立操作不受影响。

1.4 Tool Result 如何反馈回 Context

在 query loop 中，每一轮迭代结束时，有三种消息被拼回对话数组：

const next: State = {  messages: [    ...messagesForQuery,      // 当前已有的对话    ...assistantMessages,     // 模型本轮输出的 tool_use 块    ...toolResults,           // 工具执行结果 → 以 user 消息类型拼入  ],}

tool_result 以 user 消息类型拼入 dialogue，符合 Anthropic Messages API 的规范（tool_use 和 tool_result 必须交替出现）。这意味着下一轮 API 调用时，模型将工具执行的结果以 user 消息类型拼入context中。

1.5 QueryEngine：多轮对话的封装

QueryEngine（QueryEngine.ts）是对单次 query loop 的高层封装。每次 submitMessage() 触发一个完整的 tool use loop，内部可以产生多轮 tool call。它维护 mutableMessages 累积对话、管理 maxTurns/maxBudgetUsd 终止条件、处理 structured output 的重试逻辑，以及在 token 预算接近上限时自动注入 "继续"或"结束"的提示。

2. Context Management：多层分级上下文管理

2.1 六层 Context 管理机制

Claude Code 有六层 context 管理机制，按激进程度从低到高排列：

机制	触发时机	原理	激进程度
Snip	每轮 query 前	删除过时的 tool message，基于规则	保守
Microcompact	每轮 query 前	编辑 API cache key，删除未使用的 tool schema	保守
Context Collapse	每轮 query 前	将旧消息块"折叠"成摘要行（可在 UI 展开）	中等
Auto Compact	token 超过阈值	将历史发送给 fork agent 做摘要压缩	激进
Reactive Compact	API 返回 413 错误	收到 prompt-too-long 后的紧急压缩	激进
Manual Compact	用户手动触发 `/compact`	同 auto compact	激进

2.2 Auto Compact：自动摘要压缩

触发条件：当 token 用量超过 effectiveContextWindow - 13000（窗口快要爆了），且 auto compact 未被禁用时触发。同时有 circuit breaker 保护，使得连续失败 3 次后自动停止尝试，防止无限重试。

执行流程亮点：

优先尝试 Session Memory Compaction
Fork Agent 生成摘要：启动一个 fork 子 agent 来做摘要，子 agent 共享主 agent 的 system prompt 和 tool pool，因此可以复用 API 的 prompt cache，节省成本
如果 fork 失败，fallback 到 regular streaming
Post-compact 恢复：压缩完成后，恢复最近编辑过的文件（最多 5 个，限制 50K tokens）、恢复被调用的 skills、恢复 plan 文件、重新注入 tool 描述等

2.3 Snip 和 Context Collapse

Snip（snipCompact.ts）是最温和的清理方式：删除已完成的、不再需要 context 的工具调用，删除过时的进度消息，压缩重复的文件读取结果。它通过 feature('HISTORY_SNIP') 控制。

Context Collapse 介于 Snip 和 Auto Compact 之间，把大段对话折叠成一行摘要，在 UI 上仍然可以展开查看。如果 collapse 启用，auto compact 就不会触发。在遇到 413 错误时，已经 staged 的 collapse 也可以被 drain 掉来释放空间。

2.4 Token Budget 管理

feature('TOKEN_BUDGET')（query/tokenBudget.ts）追踪每次 API 调用的 input/output token。当接近预算时提示模型"你可以继续，也可以结束"。它还能检测边际效应递减，当模型在后续轮次中产出越来越少时，提前结束而不是继续消耗 token。

2.5 消息存储与恢复

Claude Code 的 transcript 存储也设计得很仔细：

每个 conversation turn 写入 ~/.claude/history.jsonl
支持 --resume 恢复历史会话
Session 持久化 + compact_boundary 机制支持跨 compact 的对话恢复
每个 subagent 有独立的 sidechain transcript（通过 agentId 区分）

3. Multi-Agent Management：多代理协作体系

3.1 Agent 类型全景

TaskType:  - local_agent           → 本地 agent（AgentTool 调用）  - local_bash            → 本地 shell 命令  - remote_agent          → 远程 agent  - in_process_teammate   → 进程内 teammate（TeamCreateTool）  - local_workflow        → 本地 workflow  - monitor_mcp           → MCP 监控  - dream                 → 后台沉思

值得注意的设计点：

in_process_teammate 和 local_agent 不同——teammate 在同一个进程内运行，通过 SendMessageTool 进行 agent 间通信，而 local_agent 通过 runForkedAgent 创建
dream 类型暗示了后台异步思考的能力——agent 可以在后台持续工作，不阻塞主 agent
remote_agent 为分布式部署预留了扩展空间

3.2 Agent 创建

Subagent 的创建由 createSubagentContext()（forkedAgent.ts）完成，它是 context 隔离的枢纽：

// Sync agent: 共享 setAppState、abortController// Async agent: 完全隔离的 contextconst agentToolUseContext = createSubagentContext(parentContext, {  options: agentOptions,  agentId,  messages: initialMessages,       // 独立的消息历史  readFileState: cloneOrFresh,     // 独立的文件缓存  abortController: agentAbortController,  shareSetAppState: !isAsync,      // async 不共享状态})

关键的设计决策：

Sync agents 共享 parent 的 abort signal：用户按 Ctrl+C 会同时取消 parent 和 sync subagent
Async agents 有独立的 abortController：可以后台运行，完成后再通知 parent
权限隔离：subagent 的 allowedTools 独立于 parent，通过 resolveAgentTools() 解析
MCP 服务器隔离：subagent 可以有自己的 MCP 服务器配置

既保证了安全性和可控性（工具权限、MCP 连接独立），又保留了灵活性（sync/async 两种模式）。

3.3 Coordinator Mode

feature('COORDINATOR_MODE')（coordinator/coordinatorMode.ts）引入了一个非常有趣的概念：主 agent 不再直接操作文件，而是成为 “coordinator”，通过异步 workers 完成所有实际工作。

Worker 的调度模型如下：

Coordinator (主 agent)  ├─ AgentTool(worker) → task_id: "agent-x7q"  ├─ AgentTool(worker) → task_id: "agent-y3k"  │  ├─ worker "agent-x7q" 完成 →  → coordinator 继续指挥它  │   SendMessage({ to: "agent-x7q", message: "fix the bug in ..." })  │  └─ worker "agent-y3k" 失败 → coordinator 重新生成一个新 worker      AgentTool({ prompt: "new approach ..." })

这样使得coordinator 的 context 不会被具体实现细节污染，可以保持全局视角；同时 workers 可以并行工作，互不干扰。当一个 worker 失败时，coordinator 可以基于它学到的信息重新生成一个新的 worker，而不是从头再来。

这其实就是软件工程里"任务分解 + 委派"的模式应用到了 LLM agent 上。

3.4 Fork Subagent

Fork subagent（forkSubagent.ts）是一个精巧的 cache 优化设计。它的核心思路是，当你 fork 一个子 agent 时，子 agent 的 context 与父 agent 几乎相同，因此 prompt cache 可以完全命中。

具体做法是：

所有 tool_result 使用相同的 placeholder 文本
只有最后的 DIRECTIVE（任务指令）不同
子 agent 继承 parent 的完整 context（system prompt + conversation + tool pool）

Parent: ... conversation ... assistant(all_tool_uses)Child:  ... conversation ... assistant(all_tool_uses) → user(placeholder_results..., DIRECTIVE)                                                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^                                           所有 fork 子 agent 的这一段都相同 → cache hit                                           只有最后的 DIRECTIVE 不同

这个设计把 cache hit rate 推到了极致。在大量使用 subagent 的场景下（比如 Coordinator Mode），这个优化省下的 token 成本是非常可观的。

额外还有递归 fork 保护——通过检测 tag 判断是否已经在 fork 中，避免无限嵌套。

3.5 Team Agent

TeamCreateTool / TeamDeleteTool（feature('AGENT_SWARMS')）实现了进程内 teammate 的创建和销毁。与 fork subagent 不同，teammate 在同一个进程中运行，但有自己的独立 context。通过 SendMessageTool 进行 agent 间通信，通过 UDS（Unix Domain Socket）进行跨进程状态同步。

3.6 Agent 生命周期管理

每个 subagent 都经过了严格的生命周期管理：

创建:  runAgent()  → initializeAgentMcpServers()    // 连接 agent 专属 MCP  → executeSubagentStartHooks()    // 执行启动钩子  → registerFrontmatterHooks()     // 注册 agent 的钩子  → skill preloading               // 预加载 skills  → query() loop                   // 进入核心循环结束 (finally 块):  → cleanup MCP servers  → clear session hooks  → cleanup prompt cache tracking  → clear read file state cache  → kill background bash tasks  → kill monitor MCP tasks  → release todo entry  → unregister from Perfetto tracing

4. 全局数据流：把一切串起来

用户输入  ↓processUserInput()        ← 解析 slash commands、注入 skills、处理 attachments  ↓QueryEngine.submitMessage()  ↓queryLoop()               ← 核心 while(true) 循环  ├─ snip                 ← 清理过时消息  ├─ microcompact         ← 编辑 API cache key  ├─ collapse             ← 折叠旧消息  ├─ autocompact          ← token 超阈值时压缩  ├─ callModel (stream)   ← 调用 LLM API  │   ├─ StreamingToolExecutor ← streaming 期间并行执行工具  │   │   ├─ 并发执行只读工具  │   │   ├─ 串行执行写入工具  │   │   └─ Bash 错误级联取消  │   └─ yield tool_result (以 user 消息类型)  ├─ tool execution       ← 非 streaming 路径下的工具执行  ├─ attachments          ← 文件变化 / memory / skill / queue  ├─ stop hooks           ← post-response 钩子  └─ messages = [...messages + assistant + toolResults]      ↓ (循环到下一轮迭代)  Terminal (完成 / 达到限制 / 被中断)

5. 一点感受

从 fork subagent 的 placeholder 到 compact 的 runForkedAgent，cache 友好的思想渗透进了架构的每个细节。这种设计思维值得在任何需要长 conversation 的 LLM 应用中借鉴。

如果你也在做 AI agent 相关的工程，希望这篇笔记能给你一些启发。

研究周报 · 2026.04.19–04.25 · DAPO/GiGPO/MAPPA/Dr.MAS 精读与 sub2api 实践

2026-04-25T14:00:00.000Z

本周继续围绕 multi-agent credit assignment 精读 baseline：DAPO、GiGPO、MAPPA、Dr.MAS。
另外做了一个 sub2api 令牌分发工具，并补了一轮经典 agent 框架开发实践。

本周清单

阅读 DAPO / GiGPO / MAPPA / Dr.MAS
开发 sub2api，用来将 Coding Plan 分发为 API 令牌
学习经典 agent 框架开发实践
to-do

一、阅读论文

上周读了Pignatelli的survey、SHARP、LangMARL，这周继续精读baseline和相关工作，挑了四篇——DAPO（token-level loss那一套trick）、GiGPO（step-level的nested group decomposition）、MAPPA（process reward + 外部coach）、Dr.MAS（per-agent normalization的零开销baseline）。基本思路还是先搞清楚每篇的核心idea和关键公式，然后看能不能借鉴。

1.1 DAPO: An Open-Source LLM Reinforcement Learning System at Scale (arXiv:2503.14476)

ByteDance去年的工作，主要解决long-CoT RL训练里的entropy collapse和token-level credit dilution。DAPO本身不是multi-agent的工作，但我感觉里面提的几个trick对GRPO本体的改造有一些启发，就放进来了。

核心idea： 在GRPO的基础上加了四个工程上的改造：

(a) Clip-Higher —— 把PPO/GRPO里的clip ratio从对称的 $[1-\epsilon, 1+\epsilon]$ 拆成上下不对称的 $[1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}}]$ ，把上界放宽，给低概率token更多被rollout选中的机会。直觉上就是不希望policy在已经偏好的token上继续过拟合，从而压住entropy collapse。

(b) Dynamic Sampling —— 把那些一整组rollout全对（accuracy=1）或者全错（accuracy=0）的batch直接丢掉。原因是这种batch里 $A^{\text{GRPO}} = (r_i - \mu_G)/\sigma_G$ 的分子整体是0，对应的policy gradient也是0，喂进去纯属浪费一次forward。

L^{\text{sample-mean}} = \frac{1}{N} \sum_{i=1}^N \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \ell_t^{(i)}

这种聚合方式下，长trajectory里每个token的权重会被 $1/|\tau_i|$ 稀释掉。DAPO直接改成token级求和、batch级平均：

L^{\text{token-mean}} = \frac{1}{\sum_i |\tau_i|} \sum_{i=1}^N \sum_{t=1}^{|\tau_i|} \ell_t^{(i)}

这样每个token的权重就一致了，长sequence不会被吃掉。

(d) Overlong Reward Shaping —— 对超长被截断的sample用一个soft penalty（length-aware的reward降权）而不是直接置零，避免gradient突然变成噪声。

最终在Qwen2.5-32B上做到了AIME 50分，号称SOTA。

启发：

multi-agent场景下，sample-mean聚合的稀释问题不是只发生在长sequence上，更严重的是agent间相互稀释——agent 1输出100 token，agent 2输出500 token，按sample-mean聚合的话agent 2的credit信号会被压得很低。如果把CAD-GRPO的per-agent advantage $\hat{A}_i$ 按token-level loss聚合（而不是先per-agent取平均再加起来），可能会让信号更干净一些。但这里有个细节我还没想清楚：CAD-GRPO的 $\hat{A}_i$ 本来就是per-agent的，token-level的展开应该是直接展到 $\sum_t \nabla \log \pi_i(a_t^{(i)}) \cdot \hat{A}_i$ 这一项里就完事了，不太会和DAPO的token-mean冲突。可能DAPO的trick在CAD-GRPO场景下更像是一个orthogonal的改进，能叠就叠上。

(a)的Clip-Higher其实在multi-agent场景下也值得想一下。如果某个agent本身contribution $\beta_i$ 就比较小，它的policy gradient天然就弱，然后再被对称clip一刀，可能更难探索新行为，懒惰agent现象会更明显。所以clip-higher在multi-agent里大概率是有正面作用的。

1.2 GiGPO: Group-in-Group Policy Optimization for LLM Agent Training (arXiv:2505.10978)

GiGPO解决的是long-horizon agent training（ALFWorld、WebShop这种）的credit assignment——standard GRPO的advantage是trajectory-level的（一条 $\tau$ 一个 $A(\tau)$ ），但agent task里很多关键决策发生在中间step上，trajectory-level的分辨率不够。

核心idea： 在外层的trajectory-level group下嵌套一个内层的step-level group。具体做法是：把一个batch里所有trajectory的step按"重复出现的anchor state"聚合（比如不同trajectory里都进入了"打开冰箱"这个state），然后在同一个anchor state下不同action之间算relative advantage作为step-level信号。最终的step-level advantage是trajectory-level和同state下相对advantage的加权和：

A^{\text{step}}(s_t, a_t) = A^{\text{traj}}(\tau) + \alpha \cdot \frac{r(s_t, a_t) - \mu_s}{\sigma_s}

其中 $\mu_s, \sigma_s$ 是所有trajectory里在state $s$ 下采样到的rollout的均值和标准差。

启发：

理论上可以把两者串联起来：agent-level (CAD-GRPO) → step-level (GiGPO) → token-level (DAPO)，构成一个完整的credit分解链。这个想法挺naive但其实可能有意思。如果final advantage可以同时考虑per-agent的边际贡献、per-step的局部贡献、per-token的细粒度梯度，那理论上信号会比单一粒度的GRPO干净很多。当然这是后话，目前先把CAD-GRPO本体跑通再说，否则一上来就把三个改造叠在一起debug肯定崩。

GiGPO另一个比较关键的细节是它的"anchor state聚合"假设——假定不同trajectory真的会经过同一个state。这个在ALFWorld这种离散state space里成立，但LLM agent的state本身就是一段history text，state空间几乎是连续的，要做grouping需要先做state representation的clustering。这块如果以后真要做扩展，应该也是一个比较重的工程项目。

1.3 MAPPA: Scaling Multiagent Systems with Process Rewards (arXiv:2601.23228)

申报书引用文献里[17]那篇。MAPPA(Multi-Agent Process-aware Policy Allocation)。

核心idea： 多智能体LLM RL里team reward只在最后才给，per-action的credit没有信号。MAPPA的解决方案是用一个外部AI coach（一般是更强的模型，比如GPT-4）做per-action的process reward打分，再加一个root-cause analysis的步骤——把错误归因到具体哪个agent的哪个action上。在AMC上做到+7.8~17.2pp，AIME上+5.0~17.5pp。

形式化下大概长这样：对一条轨迹 $\tau = \{a_1^{(1)}, a_2^{(2)}, \ldots, a_T^{(N)}\}$ （其中 $a_t^{(i)}$ 表示agent $i$ 在时刻 $t$ 的action），coach LLM对每个action单独打一个process reward $\rho_t$ ：

\rho_t = \text{Coach}(a_t^{(i)} \mid \text{context}_t, R_{\text{team}}(\tau))

然后把这些per-action的 $\rho_t$ 加权聚合到对应agent的policy gradient里。

启发：

MAPPA的优势在于可以做per-action粒度（process reward）

但是这里我想到一个比较有意思的结合点：MAPPA的per-action process reward可以作为CAD-GRPO的质量指标 $q_i$ 。具体来说，把coach对agent $i$ 所有action的打分聚合成一个标量（比如取平均或加权和），作为 $q_i^{(b,k)}$ 喂进CAD-GRPO的回归里：

R(\tau) \approx \mu + \alpha_b + \sum_{i=1}^N \beta_i \cdot q_i^{\text{MAPPA}}(\tau) + \epsilon

这样的话，CAD-GRPO把语言空间的per-action signal聚合成了per-agent的边际贡献，两者的优势就能拼起来：MAPPA提供细粒度的quality proxy，CAD-GRPO负责把这个proxy映射成统计意义上的"边际贡献"。

不过MAPPA的coach开销不低，每条trajectory里每个action都要额外的LLM call。如果把它嵌进CAD-GRPO作为 $q_i$ ，CAD-GRPO就会变成"非零开销"了，与申报书里"零开销"的核心claim矛盾。所以可以考虑在复杂场景如数学推理、AMC/AIME这类里给一个质量更高的 $q_i$ ，让CAD-GRPO的回归更有解释力，但standalone版本仍然只用cheap可验证指标保证零开销。

1.4 Dr.MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems via Per-Agent Advantage Normalization (arXiv:2602.08847)

核心idea： standard multi-agent GRPO直接共享team-level的 $(\mu_G, \sigma_G)$ 来归一化所有agent的advantage：

A^{\text{naive}}_k(\tau) = \frac{R(\tau) - \mu_G}{\sigma_G}

问题在于不同agent的reward分布可能差异很大（角色异构、role-specific的reward shape），用一个共享 $\sigma_G$ 归一化会导致某些agent的advantage scale完全不对，部分agent的gradient要么过大要么趋近于0，结果就是出现lazy agent现象。

Dr.MAS的方案是per-agent的 $(\mu_k, \sigma_k)$ 归一化，每个agent用自己的reward分布做归一化：

A_k(\tau) = \frac{R_k(\tau) - \mu_k}{\sigma_k}, \quad \mu_k = \frac{1}{|G|}\sum_{\tau \in G} R_k(\tau), \ \sigma_k = \text{std}(\{R_k(\tau)\}_{\tau \in G})

零额外开销，因为 $\mu_k, \sigma_k$ 都是从已有batch里直接算出来的。

启发（也是我做申报书的时候反复想的关键点）：

Dr.MAS只归一化不分解。具体来说，Dr.MAS里的 $R_k(\tau)$ 依然是team reward本身（或者某种per-agent的proxy），它没有把"agent $i$ 对 $R$ 的边际贡献"和"其他agent的影响"分开。 $R_k$ 里依然包含其他agent行为带来的混淆，只是用agent-specific的scale做归一化让数值看起来稳定一点而已。信用混淆的根源没有被真正解决。

CAD-GRPO的核心区别在于通过岭回归显式地把 $R$ 分解成 $\sum_i \beta_i q_i$ ，估计的 $\hat{\beta}_i$ 是真正的per-agent边际贡献系数（在线性可加性假设下）。归一化和分解是两码事。

我觉得在合成实验里，应该能看到比较明显的对比——当agent间贡献差异显著时（比如"强弱配对"，一个strong agent + 一个weak agent），CAD-GRPO对 $\beta_i$ 的估计精度应该严格优于Dr.MAS。Dr.MAS给的是 $(R - \mu_k)/\sigma_k$ ，本质上还是把team信号原样传给每个agent；CAD-GRPO能识别出"strong agent的 $\beta_1$ >> weak agent的 $\beta_2$ "，从而在policy update里给两个agent传递正确scale的梯度信号。

不过Dr.MAS的优势是没有任何质量指标 $q_i$ 的依赖，用的是team reward本身，不需要额外的可验证proxy。这一点也警示了如果CAD-GRPO中 $q_i$ 的选择本身就很糟糕、对 $R$ 的解释力不足（ $R^2 < 0.3$ ），CAD-GRPO的 $\hat{\beta}_i$ 就会失真，不如Dr.MAS稳。

二、开发 sub2api 软件

基于new-api项目，搭建了一个一个极致轻量的静态网站，用来把我的的 Coding Plan 抽象成可分发给其他用户使用的 API 令牌账本。

motivation其实就是因为目前用的中转感觉总是被掺过水的，于是我打算和我的朋友直接自己拼Claude的max 20x Coding Plan。但是两个人用肯定怎么用都用不完。身边有一些朋友也有自己的项目要蹬，但是直接把账号给别人显然是不行的（节点不同的话，整个车队就都废了，同时也不方便管理，因为毕竟还是希望大家可以把token额度AA，这样最promising），所以就想着自己搓个中转，把额度抽象成一个一个的令牌（token），每个令牌独立计费、可吊销、有自己的limit，分给谁都不会动到我自己的账号本体。

同时我自己已经和几十个中转商家打过交道了，其中有好几个商家都是自己魔改的new-api这一个框架来分发令牌。所以我也打算做一个类似的，就只需要实现最轻量化的功能即可。new-api本身是一个LLM API中转网关，能把不同上游服务（OpenAI、Anthropic、各种国内厂商）的接口统一成OpenAI格式对外暴露，同时支持多用户、多令牌、独立计费。所以本质上我没干啥重活，把后端起起来、把上游配成我的Anthropic Claude账号，然后前端套一个静态分发页面就可以了。整个东西部署在一个2C2G的小VPS上。

实现上几个比较关键的点：

分发可控：每个令牌独立limit、独立有效期、可以一键吊销。我作为admin能看每个令牌实时的消耗情况。
加密：账号本体的cookie/api key只存在我自己的服务器上，分发出去的只是hash过的虚拟令牌（new-api自己的格式），从协议层面上避免了账号本身泄露。
轻量：前端就是一个纯静态的Vue页面（连构建都不需要，HTML+CDN直接拉Vue 3），后端只有一个new-api容器。整个repo拢共没几个文件。
OpenAI兼容：因为new-api统一成了OpenAI格式，我朋友拿到令牌之后可以直接当OpenAI兼容的API用，套现有的SDK（openai-python、langchain）零修改。

全过程cc代理解放大脑（不过我感觉我现在用的某鱼拼车的套餐又双叒叕被掺水了，一个小需求花了我12刀，搞笑呢吧…），当然在manual update的时候发现Claude Code的官方SDK对于API endpoint的鉴权方式好像比较挑剔，需要在中转层手动处理一下Anthropic-Beta header才能对上，导致我又多进行了几个turn才调好hhh。整体来说工作量不大，关键收获是顺便看了一遍new-api的代码，对一个生产级LLM gateway是怎么做token管理、流式转发、计费的有了大致的概念，对后续如果要做multi-agent训练框架（需要管rollout、agent间通信、reward聚合）多少有点参考价值。

三、学习经典框架开发实践

这周还发现了一个不错的博客，hello-agents教程第六章框架开发实践。这个教程主要是教如何从零开始构建agent，第六章把当前主流的几个agent框架——AutoGen、AgentScope、CAMEL、LangGraph挨个过了一遍，每个都给出了完整的hands-on case。我之前都听说过这些框架，这次又看了一便中文教程查漏补缺一下。

3.1 LangGraph——把agent看成状态机

第六章里花了最多篇幅讲的是LangGraph。核心思想是把agent的执行过程建模成一个有向图，节点是具体的计算步骤（LLM调用、tool执行），边是节点间的跳转逻辑。

这个设计最关键的一点是它原生支持循环。standard LangChain的Chain是DAG，没法表达"当条件不满足就回到上一步重新生成"这种reflection或者self-correction的pattern。LangGraph通过显式的状态机模型把loop抬到了极高的高度：

State → Node A (LLM call) → Edge (condition) → Node B (tool exec)                                           ↘ Node A (loop back if needed)

实际写起来就是定义一个全局State（一般是一个dict或者TypedDict），每个node接收State、修改State、返回新State。Edge要么是unconditional（直接接到下一个node），要么是conditional（根据State的某个字段决定下一步）。

和RL里policy的rollout循环非常像，一个policy network不停产生action，环境根据某个condition决定终止，整个过程可以画成一个state-action图。从credit assignment的角度看，LangGraph的图模型其实给了一个很直观的方式去定位"哪一步贡献了reward"，因为每个node都是显式标注的。

3.2 AutoGen / AgentScope / CAMEL——multi-agent的不同抽象

AutoGen和AgentScope主要是面向multi-agent协作的框架，但抽象层次不太一样。AutoGen的核心抽象是ConversableAgent——每个agent是一个能"对话"的实体，agent间通信走的是消息队列，整个系统的逻辑由对话历史驱动。AgentScope则更"工程化"一点，明确区分了agent、message、pipeline三个层次，pipeline是显式的执行流。

CAMEL的novelty是它的role-playing抽象——agent不是一个泛化的"消息处理器"，而是被绑定到一个具体的角色（user、assistant、critic、tester）上，role本身决定了它的行为模式。我感觉和StrongerMAS、SHARP里的"agent role assignment"是同一回事——都是把agent的"角色"作为一个首要概念，然后在这个role基础上做reward、做group化。

3.3 启发

貌似我目前读过且有印象的agent框架基本都把per-agent contribution当成黑盒。CAD-GRPO的batch-level岭回归如果要在真实framework里跑起来，需要框架本身能暴露出每个agent的quality proxy（比如code agent的compile success、test pass rate）。这些framework的接口设计能不能容纳 $q_i$ ，是工程上要考虑的。
下周的Claude Code harness——这次过完几个开源框架其实是给下周读Claude Code源码做铺垫。Claude Code本身可以看成一个非常成熟的"single-LLM agent + tool use loop"系统，它的tool use循环、context management、multi-step reasoning和上面这些open-source framework一定有共同的核心抽象（state machine + tool dispatch）。先把开源框架的设计哲学过一遍，再去看Claude Code的实现，应该能更快定位到关键设计选择。

四、to-do

4.1 复现Claude Code的harness

这个是上周就立的flag，本周因为出于兴趣原因刷了太多GitHub项目因此暂时没动。下周打算正式开工。

(1) 理解架构：tool use loop（Claude怎么决定何时调用tool、tool result怎么feedback回context）、context management（长对话下怎么管理history、有没有summarization机制）、multi-agent管理（subagent怎么调度、agent间状态怎么同步）。

(2) 写一个最简化版本：在理解架构的基础上，自己用Python实现一个最小版（可能就是single-agent的tool use loop + simple context summarization），自己手写过一个简化版之后再看现有框架（比如veRL或AutoGen）会更有针对性。

4.2 继续读Multi-Agent Credit Assignment方向paper

本周读完4篇之后，下周的reading list计划如下：

CCPO (arXiv:2603.21563) ——也是对标的baseline之一，本周计划但没读完，下周补。重点关注它的反事实轨迹生成机制（怎么定义"消融某个agent"，是直接mask还是replay）以及它的开销分析（claim是~2x，要verify一下）。
C3 (arXiv:2603.06859) ——leave-one-out credit assignment，思路是"留一法"——对每个agent单独跑一次去除它的轨迹。和CCPO思路相近但做的是step-level。读完之后让Claude做一个CCPO/C3/SHARP的横向对比表。
StrongerMAS / AT-GRPO (arXiv:2510.11062) ——之前已经看过一遍，但当时主要看的是motivation部分。下周再过一遍，重点关注实现细节，特别是它怎么实现"agent-turn grouping"——这个是申报书第三部分（实验）里要复现的baseline，得把代码层面也搞清楚。

时间允许的话再加一篇Stratified GRPO (2510.06214)或者MASPRM (2510.24803)，这两篇都涉及"分层处理异构性"的思路，和CAD-GRPO的batch-level回归在某种意义上是互补的。

春日随笔 - 一段关于专注的记忆

2026-04-24T12:00:00.000Z

四月的光很软，落在阳台的绿萝叶子上，像融化的奶油。

最近在读 Cal Newport 的《Deep Work》。他说注意力就像肌肉，需要刻意训练。我坐下来写这段文字的时候，手机放在另一间屋的抽屉里——是个很小的实验。

一些观察

专注不是"不走神"，而是走神之后能快速回来
小块时间容易被拖入浅层工作，大块时间才能进入 flow
环境设计比意志力靠谱得多

本周做的事

项目	进度
博客搭建	✅
读完 Deep Work	70%
实验代码重构	40%
跑步	3/7

周末打算去郊外走走。希望下一篇能是带照片的游记。

Hello World - 博客开张

2026-04-24T10:00:00.000Z

欢迎来到 Yoyo_Lee 的博客。这里会记录 AI / 研究进展，以及日常随笔。

为什么开这个博客

研究笔记散落在 Obsidian、Notion、GitHub Gist 四处，想做一个统一的公开记录点。Hexo + Butterfly 是目前对中文写作最友好的组合之一：写作用 Markdown，部署走 GitHub Pages，零服务器成本。

功能点验证

行内公式与块公式

爱因斯坦质能方程： $E=mc^2$

交叉熵损失：

\mathcal{L}_{\text{CE}} = -\sum_{i=1}^{N} y_i \log \hat{y}_i

注意力机制的 Scaled Dot-Product：

\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V

代码块（高亮 + 行号 + 复制按钮）

import torchimport torch.nn.functional as Fdef scaled_dot_product_attention(q, k, v, mask=None):    d_k = q.size(-1)    scores = torch.matmul(q, k.transpose(-2, -1)) / (d_k ** 0.5)    if mask is not None:        scores = scores.masked_fill(mask == 0, -1e9)    attn = F.softmax(scores, dim=-1)    return torch.matmul(attn, v), attn

引用与列表

研究的本质是提出更好的问题，而不是找更好的答案。

计划要写的系列：

LLM 训练栈（数据、tokenizer、attention、RLHF）
多智能体强化学习笔记
论文阅读精选

写在开头

这个博客会两条腿走路：
🧪 研究：严肃的技术记录，可公式、可代码、可数据
🌿 生活：阅读、观影、散步路上的随手记

希望都能长期坚持下来。

研究周报 · 2026.04.12–04.18 · Credit Assignment Survey、SHARP 精读与 Q&A

2026-04-18T14:00:00.000Z

本周聚焦 credit assignment——Pignatelli survey、SHARP、LangMARL 对比；
把上周周报被追问的几个点补清楚（GRPO vs PPO / CAD-GRPO 岭回归 / RLHF reward model）；
顺手把 policy gradient 方法的演进时间线梳了一遍。

本周清单

阅读信用分解的 survey
上周周报内容的 Q&A
一些概念的理解
to-do

1. 阅读 survey

让 claude code 推荐了几篇围绕 credit assignment / credit decomposition 的论文进行精读。因为最近申报书定的方向就是 CAD-GRPO，所以这周读的论文基本都是围绕"多智能体场景下如何把 team reward 拆回给每个 agent"这个问题展开的。

主要挑了三篇：一篇是之前 3.15-3.21 读过的 Pignatelli 的 survey，一篇是 SHARP（用 Shapley 值做 marginal credit，是 CAD-GRPO 关键竞品之一），还有一篇是上周已经精读过的 LangMARL（这里主要是把它和 SHARP 放在一起做一个对比）。

1.1 Pignatelli et al., A Survey of Temporal Credit Assignment in Deep Reinforcement Learning (TMLR 2024)

专门讲 credit assignment 的数学本质的 survey。temporal CA 在 single-agent 里面的三个挑战：

Depth（延迟效应，reward 离 action 越远越难归因）
Density（稀疏奖励，trajectory 里几乎没有中间信号）
Breadth（credit 稀释，joint action space 里每个 action 的贡献都被"平均"掉了）

还把 credit assignment 形式化成了一个赋值函数：

K: \mathcal{C} \times \mathcal{A} \times \mathcal{G} \to \mathcal{Y}

其中 $\mathcal{C}$ 是 context， $\mathcal{A}$ 是 action， $\mathcal{G}$ 是 goal/outcome， $\mathcal{Y}$ 是分配给该 (context, action) 的 credit 值。

对我现在做 CAD-GRPO 的启发：

Breadth challenge 就是 MARL 场景下 credit contamination 的另一个说法。
CAD-GRPO 用观察性因果推断去解决 breadth 这个问题，从 survey 的分类来看确实是一个没被系统讨论过的新路径。

1.2 SHARP: Who Deserves the Reward? Shapley Credit-based Optimization for Multi-Agent System

这篇是 CAD-GRPO 申报书里直接对标的 baseline，所以这次精读主要是想搞清楚它到底怎么做的信用分解的，以及开销到底有多大。

核心 idea： 把 Shapley 值从合作博弈搬到 multi-agent LLM RL 里，用反事实 mask来近似每个 agent 的 marginal contribution。具体来说，给定一条轨迹 $\tau_i$ 和 worker agent $m$ ：

\text{credit}_{i,m} \triangleq R_{\text{acc}}(\tau_i) - R_{\text{acc}}(\tau_i^{\setminus m})

其中 $\tau_i^{\setminus m}$ 是把 agent $m$ "mask 掉"之后重新跑出来的 trajectory。对 planner agent，它用所有正向贡献的 worker credit 取平均作为 planner 的 credit：

R_{i,0}^{\text{mc}} \triangleq \lambda \cdot \frac{1}{|\mathcal{M}_i|} \sum_{m \in \mathcal{M}_i} \max(\text{credit}_{i,m}, 0)

最后把这个 marginal credit 和 broadcast accuracy reward、tool process reward 加权合成一个 tripartite reward（也是 SHARP 名字里的那个 “tripartite”）来做 GRPO 的 policy update。

启发：

SHARP 本质上是一个介入性方法，必须显式地生成反事实轨迹 $\tau_i^{\setminus m}$ 来估计 credit。论文里的 cost analysis（附录 D）显示，当完全开启 Shapley 分配（ $p=1$ ）时，per-batch 训练时间从 684s 涨到 1345s，几乎翻了一倍。这个开销和我们申报书里写的 “~2x” 是吻合的。

但 SHARP 的优势在于，它的 credit 估计是基于反事实 mask 的无偏估计，只要 counterfactual trajectory 本身可靠，理论上没有 observation-based 方法（区别于 interventional）的"质量指标 $q_i$ 充分性"的假设依赖。

CAD-GRPO 其实可以把 SHARP 的 Shapley 估计当成一个 oracle 上界——在合成环境里，如果 CAD-GRPO 的 $\hat{\beta}_i$ 在零开销下能逼近 SHARP 的 Shapley $\phi_i$ 到一定水平，就是一个比较有说服力的结果。

同时 SHARP 的 reward decomposition 是加性的（ $\bar{R}_{i,m} = \alpha R^b + \beta R^{mc} + \gamma R^{tool}$ ），这一假设和 CAD-GRPO 的线性可加性 assumption 是同一个 family 的。也就是说如果 SHARP 能 work，那 CAD-GRPO 在这种场景下大概率同样 work。

1.3 LangMARL 补充

上周精读 LangMARL 的时候主要写了 framework overview，这次关注和 SHARP 的对比。SHARP 用的是数值空间里的 Shapley 反事实，LangMARL 用的是语言空间里的 critic LLM 做因果归因，二者其实都是介入性方法的变体。

所以它们的共同问题就是开销大且依赖一个额外的机制（反事实采样 or critic LLM）。CAD-GRPO 的优势位置就是不生成反事实、不调额外的 LLM，纯用 batch data 里的自然变异做统计分解。但是目前还处于空想阶段，肯定不可能是一个普通的 linear regression 就能解决的问题。

2. 上周的 Q&A

2.1 关于 GRPO vs PPO，以及 CAD-GRPO 的岭回归

Q: GRPO 里面的 adv 和 PPO 里面的 value 有什么区别？为什么能够通过 group 的方式去掉了 PPO 里面的 critic network，还能达到其效果？GRPO 的 adv 是如何分配的，或者说它的 credit 是如何分配的？为什么 group 后 agent 较难感知自己的贡献？CAD-GRPO 里面的岭回归的目标是啥，为什么能让 agent 知道自己的贡献？MAS 下是需要在 single-agent credit 之外多一步 per-agent credit 吗？那岭回归为什么能跨越两次回传到 agent 本身进行更新呢？

（1）PPO 的 value vs GRPO 的 advantage

PPO 的 value 是从状态 $s$ 出发、按当前 policy 走下去能拿到多少期望回报。PPO 的 advantage 是把这个绝对 value 作为 baseline 来算的：

A^{\text{PPO}}(s_t, a_t) = Q(s_t, a_t) - V(s_t)

本质上 $V(s_t)$ 是由一个 critic network 学出来的。

GRPO 的 advantage 是：给定一个 prompt $q$ ，采样 $K$ 个 rollout $\{\tau_1, \ldots, \tau_K\}$ ，得到 $K$ 个 reward $\{r_1, \ldots, r_K\}$ ，然后做组内归一化：

A^{\text{GRPO}}(\tau_i) = \frac{r_i - \mu_G}{\sigma_G}, \quad \mu_G = \frac{1}{K}\sum_k r_k, \ \sigma_G = \text{std}(\{r_k\})

这里的 baseline 就是这个 prompt 下其他 $K-1$ 个 rollout 的平均奖励。

（2）为什么 group 能去掉 critic 还 work？

我的理解是：PPO 中的 critic 本来就是在估一个 baseline 来降低 policy gradient 的方差。GRPO 相当于用更多的 rollout（每个 prompt $K$ 条而不是 1 条）换掉了 critic 那部分计算。因为它的方差随 $K$ 增大而减小，只要 $K$ 够大（DeepSeek R1 用的是 $K=16$ 或者更大），variance 是可接受的。

本质是 Monte Carlo vs TD bootstrapping 的 tradeoff。在 LLM RL 场景下，rollout 相对便宜、critic 训练相对麻烦（long horizon、sparse reward），所以 MC 的性价比更高。

（3）GRPO 的 credit 怎么分配？

在 single-agent GRPO 里，credit 分配主要是轨迹粒度和 token 粒度：

Trajectory level： 一条轨迹 $\tau_i$ 内所有 token 都共享同一个 advantage $A(\tau_i)$
Token level： policy gradient 的时候是 $\nabla \log \pi(a_t | s_t) \cdot A(\tau_i)$ ，对每个 token $a_t$ 用的都是同一个 $A(\tau_i)$

（4）为什么 group 后 multi-agent 下单个 agent 难感知自己的贡献？

多智能体场景下，一条轨迹是 $N$ 个 agent 联合生成的：

\tau = (\tau^{(1)}, \tau^{(2)}, \ldots, \tau^{(N)})

team reward $R(\tau)$ 同时取决于所有 $N$ 个 agent。如果直接套 standard GRPO：

A(\tau_i) = \frac{R(\tau_i) - \mu_G}{\sigma_G}

然后把这个 $A(\tau_i)$ 同时赋给 agent 1 到 agent N 的所有 token，就会出现"agent 1 明明输出很好，但队友 agent 2 出了 bug 把 task 搞砸了，结果 agent 1 也收到负的 advantage 信号"——体现为 agent 1 的处理效果被 agent 2 的行动混淆了。

（5）CAD-GRPO 的岭回归目标是啥？

假设在一个 batch 内部，团队奖励可以近似线性分解为各 agent 质量指标的加权和：

R(\tau) \approx \mu + \alpha_b + \sum_{i=1}^N \beta_i \cdot q_i(\tau) + \epsilon

其中：

$\mu$ 是常数项
$\alpha_b$ 是 prompt $b$ 的固定效应（控制不同问题难度带来的 baseline 差异）
$q_i(\tau)$ 是 agent $i$ 的可验证质量指标（比如编译成功率、单元测试通过率、格式合规性等）
$\beta_i$ 是我们要估计的 agent $i$ 对团队奖励的边际贡献系数
$\epsilon$ 是残差

岭回归的目的就是用批次内样本去拟合这个线性模型，得到 $\hat{\beta}$ 。然后每个 agent 的去混淆优势定义为：

\hat{A}_i(\tau) = \hat{\beta}_i \cdot (q_i(\tau) - \bar{q}_i) - \text{baseline}_i

$\hat{\beta}_i$ 捕获的是"当 agent $i$ 的质量 $q_i$ 变化一个单位时，团队奖励平均变化多少"。这个信号扣除了其他 agent 贡献带来的污染，因为回归里已经把 $q_j \ (j \neq i)$ 作为控制变量放进去了。

（6）“MAS 下是需要在 single-agent credit 之外多一步 per-agent credit 吗？岭回归怎么跨越两次回传？”

这是这个问题里最关键的一层，我想了好一会。我觉得其实有两个 credit assignment 是正交的问题：

我认为 CAD-GRPO 解决的只是 agent-level 的 credit，而没有讨论 action-level 或者说 token-level 的 credit。只是给每个 agent 单独估一个去混淆后的 advantage $\hat{A}_i$ ，然后这个 $\hat{A}_i$ 在 policy update 的时候只作用于 agent $i$ 自己的 token 序列：

\nabla_{\theta_i} J = \mathbb{E}\left[\sum_{t} \nabla_{\theta_i} \log \pi_i(a_t^{(i)} | s_t) \cdot \hat{A}_i(\tau)\right]

因为每个 agent 有自己的 policy $\pi_i$ （或者猜测可以共享参数但用 role-specific prompt），它只对自己那一段 token $\{a_t^{(i)}\}$ 的概率做微分。所以 $\hat{A}_i$ 只会通过 $\nabla_{\theta_i} \log \pi_i(\cdot)$ 这一条路径更新到 agent $i$ 的参数上，不会跨 agent 进行回传。policy update 就是标准的 per-agent policy gradient，每个 agent 只看自己的 $\hat{A}_i$ 和自己的 $\log \pi_i$ 。

（这里我也不完全确定"每个 agent 有独立 policy 还是 share parameters"这个细节在不同工作里的处理方式，SHARP 和 MHGPO 都是 shared policy + role prompt，下周可以再系统看一下。）

2.2 关于 RLHF 里的 reward model 表述

Q: RLHF 里面的 reward model 应该是通过构造的人类偏好数据集来学习对应的偏好，"先训一个 reward model 来捕获人类偏好"这个好像有点反了。这里可以思考 RL 里面的 value 和 reward 的区别，从而就知道为什么会有 reward hacking 了。

A: 上周周报里确实写得不够精确。当时写的是：

“RLHF 则高度依赖于迭代式、可扩展的人类评估和偏好数据，先训一个 reward model 来捕获人类偏好，然后用 PPO/GRPO 这类策略优化方法去最大化这个 reward”

严格来说应该是这样：

先构造人类偏好数据集 $\mathcal{D} = \{(x, y^+, y^-)\}$ ，其中 $y^+$ 是人类偏好的 response， $y^-$ 是较差的 response
再用这个数据集训一个 reward model $r_\phi(x, y)$ ，通常用 Bradley-Terry 损失： $-\log \sigma(r_\phi(x, y^+) - r_\phi(x, y^-))$
最后用训好的 $r_\phi$ 当成 RL 的 reward signal，跑 PPO/GRPO 最大化 $\mathbb{E}_\pi[r_\phi(x, y)]$

然后就是 value 和 reward 的本质区别。reward $r_t$ 是环境在单步给出的即时信号，是外部定义的一个静态标量。value $V(s)$ 或 $Q(s, a)$ 是从状态 $s$ 出发按某个 policy 走下去能拿到的期望，是 policy-dependent 的：

V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s\right]

reward 是目标的局部信号，value 是 policy 真正在优化的东西。

为什么会 reward hacking？

$r_\phi$ 只是人类偏好的近似：

r_\phi(x, y) \approx r_{\text{human}}(x, y) \text{ on training distribution}

这个近似只在训练分布内成立。一旦 policy 的优化驱动输出分布偏离训练分布过多， $r_\phi$ 的预测就可能完全失准：

Policy 在优化 $\mathbb{E}[r_\phi]$ ，不是 $\mathbb{E}[r_{\text{human}}]$
当 policy 找到 $r_\phi$ 的某个"漏洞"（比如某类词汇特别讨 reward model 喜欢、或者某种格式会被 reward model 误判为高质量）， $r_\phi$ 的分数会飙高
但实际上人类看了这些 response 可能觉得"啊这是什么玩意儿"——reward 上去了，用户满意度反而下降

这就是 Goodhart’s law 在 RL 里的体现：

When a measure becomes a target, it ceases to be a good measure.

这个问题在 multi-agent 场景下会更复杂——agent 级别的 reward hacking、tool-use 级别的 reward hacking、最终 response 级别的 reward hacking……所以 CAD-GRPO 强调了质量指标 $q_i$ 的充分性。如果 $q_i$ 本身是一个非常容易被 hack 的 proxy，那整个系统就会退化。

3. 概念理解（部分 AI 辅助整理）

3.1 Policy Gradient 方法整理

按时间线梳理了一下 policy gradient 系列的演进。

（1）REINFORCE（1992, Williams）

最朴素的 policy gradient，直接用 Monte Carlo return $G_t = \sum_{k=t}^T \gamma^{k-t} r_k$ 当信号：

\nabla_\theta J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot G_t\right]

问题： $G_t$ 方差巨大，基本没法直接用。

（2）Actor-Critic（1999, Konda & Tsitsiklis）

引入一个 critic $V_\phi(s)$ 作为 baseline 来降方差，policy gradient 变成：

\nabla_\theta J = \mathbb{E}\left[\sum_t \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot (G_t - V_\phi(s_t))\right]

（3）A2C / A3C（2016, Mnih et al.）

把 baseline 这件事做得更彻底——用 advantage $A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$ 替代 raw return 减 baseline。A3C 同时跑多个异步 worker 加速训练，A2C 是 A3C 的同步版本。

（4）TRPO（2015, Schulman et al.）

提出了一个重要的观察——policy 每次更新不能走得太远，否则容易 collapse。TRPO 通过显式的 trust region 约束（KL 散度上界）来限制每步更新的幅度：

\max_\theta \mathbb{E}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A(s, a)\right] \quad \text{s.t.} \ \ D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta) \leq \delta

问题： 要解一个 constrained optimization，实现上很麻烦（要算 Fisher 信息矩阵、conjugate gradient 等）。

（5）PPO（2017, Schulman et al.）

用一个 clipped ratio 代替 TRPO 的 KL 约束，工程上友好很多：

L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t, \ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right]

其中 $r_t(\theta) = \pi_\theta / \pi_{\text{old}}$ 是 importance ratio。clip 操作把 ratio 强行锁在 $[1-\epsilon, 1+\epsilon]$ 区间内，防止策略走太远。PPO 因为简单、稳定、好调，变成了当前（包括 LLM RL）事实上的默认算法。

（6）GRPO（2024, DeepSeek）

GRPO 的 motivation 是针对 LLM RL 这个场景的痛点：critic 很难训（long-horizon、sparse reward）。于是它直接去掉 critic，改用 group 内相对排名做 baseline：

A^{\text{GRPO}}(\tau_i) = \frac{r_i - \mu_G}{\sigma_G}

剩下的 clip objective 和 PPO 完全一样。GRPO 在 DeepSeek-R1 的训练里被证明非常 work，之后变成了 reasoning-focused LLM RL 的默认选项。

（7）MAPPO / COMA / QMIX（多智能体 variants）

这几个是 multi-agent 场景下的延伸，主要针对 cooperative Dec-POMDP：

MAPPO (2022, Yu et al.)： 就是把 PPO 搬到 multi-agent 上，用 centralized value function + decentralized policy（CTDE 范式）。surprisingly effective——很多 cooperative MARL benchmark 上 MAPPO 都能打平甚至超过专门设计的 MARL 算法。
COMA (2018, Foerster et al.)： 用counterfactual baseline做 credit assignment，对每个 agent 估"如果我换一个 action，team reward 会怎么变"。这个思想就是 SHARP、CCPO 的祖师爷。
QMIX / VDN (2017, 2018)： value decomposition 派的代表——把 joint Q-function 分解成各 agent Q-function 的某种组合（VDN 是求和，QMIX 是一个单调混合网络）。

从 critic → baseline → trust region → clip → group relative，其实都是在做方差缩减和策略更新的稳定。

3.2 GAE（Generalized Advantage Estimation）

PPO 的标配 advantage 估计方法，Schulman 他们 2015 年的工作。

背景： advantage 可以用 $n$ -step return 估计：

\hat{A}_t^{(n)} = r_t + \gamma r_{t+1} + \cdots + \gamma^{n-1} r_{t+n-1} + \gamma^n V(s_{t+n}) - V(s_t)

$n$ 很小（比如 $n=1$ ，TD(0)）：低方差，高偏差（bias 由 critic $V$ 的质量决定）
$n$ 很大（ $n \to \infty$ ，MC）：高方差，低偏差

GAE 的想法是对所有 $n$ -step advantage 做一个指数加权平均：

\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l}

其中 $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是 one-step TD error。参数 $\lambda \in [0, 1]$ 控制 bias-variance tradeoff：

$\lambda = 0$ ：纯 TD， $\hat{A}_t = \delta_t$ ，低方差高偏差
$\lambda = 1$ ：纯 MC， $\hat{A}_t = \sum_l \gamma^l r_{t+l} - V(s_t)$ ，高方差低偏差
实际中 PPO 一般用 $\lambda = 0.95$ 左右，两边折中

GRPO 没有 critic，所以 GRPO 也不涉及 GAE。但 GRPO 在 long-horizon 场景下 pure MC 方差会炸，会表现得不如 PPO，原因就是少了 GAE 的 $\lambda < 1$ 平滑。

4. To-do

（1）复现 Claude Code 的 harness

一直想开工的一件事，估计一周肯定学不明白，可能要花的时间长一点，主要想学习 cc 的 tool-use loop、context management 和 multi-agent manage。

（2）继续读 credit assignment 相关论文

本周 survey 还没读完，初步决定下周读的东西：

CCPO (arXiv:2603.21563)：申报书里第二个主要 baseline，要和 SHARP 一起横向对比
C3 (arXiv:2603.06859)：contextual counterfactual credit，和 CCPO 思路相近但做 step-level
Dr.MAS (arXiv:2602.08847)：zero-cost 但只做 normalization 不做分解，是 CAD-GRPO 要超越的 “baseline 下界”
MHGPO (arXiv:2506.02718)：异构 agent 的 GRPO 分组策略（上周已经读过一遍，再过一遍做笔记）

研究周报 · 2026.04.06–04.12 · 基础概念补齐与 LLM-MAS 论文精读

2026-04-11T18:42:00.000Z

本周三件事：基础概念补齐 · LLM-MAS 论文精读 · 申报书撰写。
方向逐渐聚焦到 credit assignment。

本周计划

补齐基础概念
继续阅读 LLM-MAS 论文
申报书撰写

一、基础概念

先是回头补了一些之前没有完全掌握的基础知识——在读多智能体 RL 的论文时，经常看到某些重复的概念但是一直没有理清它们之间的关系，遂系统过了一遍。

隐马尔可夫过程（HMM）：本质上就是系统的真实状态不可观测，只能通过观测去推断。这个思路其实和之前 PSR 框架里 ProbeCommitEnv 的设计一脉相承——其中的 partner type 就是隐状态，ego agent 只能通过观测（混合了 u 和 nuisance 的信号）间接推断它。

GRPO 和 PPO 算法：这两个是目前 LLM RL 训练的核心算法，之前没做过系统对比。PPO 是经典的 Actor-Critic 架构，核心是用 clip 机制约束策略更新幅度，避免一步走太远导致训练崩溃，但需要额外训练一个 value network（critic）来估计 baseline。GRPO 是 DeepSeek 在训练 R1 时提出的，直接去掉了 critic 网络，改用同一个 prompt 下 K 个 rollout 的组内相对排名来估计 advantage。GRPO 的 advantage 是 group-level 的，在多智能体场景下，单个 agent 不知道自己到底贡献了多少，因此需要研究信用分配问题。这也是我们申报书中 CAD-GRPO 要解决的 credit contamination 问题的根源。

MARFT（Multi-Agent Reinforcement Fine-Tuning）：多智能体场景下对 LLM 进行 RL 微调的基本范式。MARFT 提出了 Flex-MG formalism 来处理异步 LLM agent 的问题。标准的 MARL 假设所有 agent 同步决策，但在 LLM MAS 中，agent 有时候是按 turn 顺序交互的，因此把传统的 MARL 放到 LLM 场景下需要处理很多的 assumption mismatch。

SFT vs RLHF：之前一直搞混这两个概念，因为都是通过人的反馈来对机器进行优化微调。现在搞懂了——SFT 依赖固定标注数据集，RLHF 使用人类反馈来训练奖励模型。数据集的质量、代表性和结构直接影响模型的准确性、泛化能力和鲁棒性，因此 SFT 对数据集的要求极高。RLHF 则高度依赖于迭代式、可扩展的人类评估和偏好数据，先训一个 reward model 来捕获人类偏好，然后用 PPO/GRPO 这类策略优化方法去最大化这个 reward。这个近似化的 reward model 可能也是 reward hacking 的成因之一（猜测）。

二、阅读 LLM-MAS 论文

精读了 LangMARL 和 MHGPO 两篇。

2.1 LangMARL: Natural Language Multi-Agent Reinforcement Learning

核心 idea 是把传统 MARL 中的 Centralized Training Decentralized Execution (CTDE) 范式完整搬到自然语言空间——把 REINFORCE 算法里每一步数值计算都替换成了一次 LLM 调用，把网络参数 $\theta$ 换成了 prompt text。它用 LLM 实现了四个组件：

Language Policy Actor：每个 agent 维护一个文本形式的策略，执行去中心化的操作
Centralized Language Critic：用一个 LLM 充当中心化评论家，分析完整轨迹后给每个 agent 生成文本形式的 credit assignment
Language Policy Gradient Estimator：把 credit 信号转化为文本形式的"梯度方向"
Language Policy Optimizer：整合多条轨迹的梯度方向，更新文本策略

这篇论文做到了直接在语言空间做 credit assignment，不需要数值计算，也不需要修改模型参数。它的 Centralized Language Critic 如果真的和它所说的一样工作，那么确实能做到 per-agent 的 credit 分解，而且 critic 看到的是完整轨迹，理论上可以做因果推理。

但和我们目前研究的工作相比，首先它的信用分配质量完全依赖于 critic LLM 的推理能力。传统 MARL 里的 credit assignment（比如 COMA 的 counterfactual baseline）可以证明在某些条件下分解是无偏的、方差是减小的。但是 LangMARL 的这个 Language critic 本质上就是让 GPT 看一遍轨迹然后判断谁的贡献大——本质上还是一个黑盒过程。论文实验主要通过 ablation（去掉 credit assignment 后性能下降）来间接说明其有效性，因此值得推敲。

同时它的计算开销估计也不会低。虽然 LangMARL 不需要额外生成反事实轨迹（相比于 CCPO/C3），但它的每一步优化都需要多次 LLM 推理调用——critic 要对每条轨迹 × 每个 agent 生成 credit。这些推理开销在大规模训练中可并不 trivial。

2.2 MHGPO: Heterogeneous Group-Based Reinforcement Learning for LLM-based MAS

这篇貌似是一篇非常经典的论文，Dr.MAS 和 StrongerMAS 都引用了这篇（好像是，记不太清了）。它解决的是多智能体场景下 GRPO 的异构 agent 分组策略问题。在标准 GRPO 中，同一个 group 里的 rollout 需要共享相同的 prompt，但在多智能体系统中，不同 agent 有不同的角色和输入，天然就是异构的。

这篇论文提出了三种采样策略（之前师兄在分享的时候都讲过自己的理解了，我的理解也大差不差）：

Independent Sampling (IS)：每个 agent 独立采 K 个 rollout，互相不耦合。相当于把每个 agent 当成一个独立的单智能体 GRPO 来训，agent 之间的交互关系被切断了。总 rollout 数 $= n \times G$ （n 个 agent，每个 G 条）。

Fork-on-First (FoF)：只在第一个 agent（entry agent）这里 fork 出 G 个分支，后续的 agent 每个分支只跑一次（一对一）。这样 entry agent 形成同构 group（相同输入 prompt，G 个不同输出），而下游 agent 的输入天然是异构的（因为上游给的输入就不同），形成异构 group。
Round-Robin (RR)：按概率 $p_i$ 随机选一个 agent 作为 fork point。在 fork point 之前的 agent 只跑一次，fork point 及之后的 agent 跑多次。相当于 IS 和 FoF 的折中。

训练使用的是一个三 agent 的 Multi-Agent Search System (MASS)：Rewriter → Reranker → Answerer，在 HotpotQA 上实验。

在我看来，这三种采样策略的差异其实就是 fork 出多个分支的位置与时机不同。研究的就是在多 agent 的 pipeline 中，应该在哪个位置投入"多采样"的预算，才能既保证每个 agent 有足够的组内对比信号，又不让总的 rollout 开销爆炸。

novelty 主要在工程设计层面，理论贡献不算大。

三、申报书

最近一直在忙活的申报书，目前初步定为 credit assignment 方向——希望能将观察性因果推断引入 GRPO 框架，即利用 GRPO 已有采样轨迹中的自然变异，通过统计回归分解团队奖励，实现零额外开销（或极低开销，这个 claim 到时候可能需要改一下）的信用分解。

📄 申报书正文（课题全文）不在博客公开，仅保留上面这段概要说明。

多智能体 LLM RL 训练：当前 landscape

2026-04-03T16:16:58.000Z

这篇笔记梳理多智能体 LLM RL 训练的当前 landscape，对比 Stronger-MAS、Dr.MAS、MARFT、MAPoRL、MHGPO、CURE、GiGPO、MASPRM、SPO 等工作，并提炼 AT-GRPO 仍未解决的技术缺口。

已有工作定位

┌────────────────────────┬───────────────────────────────┬───────────────────────────────────────────┐│          论文          │          解决的问题           │                 核心方法                  │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ Stronger-MAS (ICLR'26) │ GRPO分组假设在MAS下失效       │ Agent+Turn-wise grouping + tree sampling  │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ Dr.MAS (2602.08847)    │ 全局normalization致梯度不稳定 │ Agent-wise advantage normalization        │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ MARFT (2504.16129)     │ 同步假设不适用于异步LLM agent │ Flex-MG formalism                         │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ MAPoRL (ACL'25)        │ 单agent RL缺乏协作信号        │ 协作verifier + discussion reward          │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ MHGPO (2506.02718)     │ 异构agent的group PO           │ 按agent type分组advantage                 │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ CURE (NeurIPS'25)      │ coder/tester的协同进化        │ 互给reward信号，无需ground truth          │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ GiGPO (NeurIPS'25)     │ 长horizon下GRPO credit稀疏    │ 两层hierarchical advantage（token+task）  │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ MASPRM (2510.24803)    │ 多agent的过程奖励             │ Agent-aware PRM，MCTS训练                 │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ SPO (ICLR'26)          │ GRPO的group退化               │ 消除分组，persistent value tracker        │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ DAPO (2503.14476)      │ 熵坍缩+token级credit          │ Decoupled clipping + token-level gradient │├────────────────────────┼───────────────────────────────┼───────────────────────────────────────────┤│ Turn-PPO (2512.17008)  │ 多轮对话的advantage估计       │ Turn-level MDP reformulation              │└────────────────────────┴───────────────────────────────┴───────────────────────────────────────────┘

AT-GRPO的具体未解决问题

通过对比这些工作，AT-GRPO有三个明确的technical gap：

Gap 1: Tree sampling计算开销大，且exploration受限

AT-GRPO每个(agent, turn)采K=4个branch → 总采样量 = K × N_agents × T_turns × E_envs
贪心选最高reward推进 → 可能陷入局部最优，exploration不足
相关但未解决：TreeRL（2506.11902）在单agent做了tree search + process reward；SPO完全消除了分组需求
Gap：没有工作在多agent设定下解决tree sampling的效率问题

Gap 2: 无过程奖励（process reward），credit assignment粒度粗

AT-GRPO只用turn-level的team+local reward混合（r = α·r_team + r_local, α=1固定）
没有step-wise的中间信号
相关但未解决：MASPRM做了multi-agent PRM，但假设hierarchical routing（非对称协作）；GiGPO做了hierarchical advantage但只在单agent
Gap：没有工作在对称/异构cooperative MAS中做agent-aware process reward + hierarchical advantage

Gap 3: Team reward与local reward的平衡是静态的

AT-GRPO的α=1完全未调优，论文也承认这是limitation
Dr.MAS解决了normalization问题，但没解决reward mixing问题
Gap：没有工作自适应地学习team vs local reward的权重

三个可能的research方向（需要进一步验证）

方向A：Multi-Agent Hierarchical Advantage（多agent层次化优势估计）

将GiGPO的group-in-group思路推广到MAS：外层group=team trajectory，内层group=per-agent-turn
Motivation：AT-GRPO的flat grouping在长horizon下credit稀疏（和单agent GRPO的问题一样）
需要验证：GiGPO原文的实验是否在multi-turn agentic任务上有效

方向B：Agent-aware Process Reward for Cooperative MAS

将MASPRM的思路从hierarchical routing推广到cooperative异构agent
结合AT-GRPO的tree sampling作为MCTS的natural fit
Motivation：tree sampling本身就在产生树结构的trajectory，天然适合训PRM

方向C：Group-Free Multi-Agent RL（消除分组依赖）

将SPO的persistent value tracker推广到multi-agent：per-agent value tracker
完全避免tree sampling的开销
Motivation：AT-GRPO的核心困难（group size太小）可以从根本上绕过

Stronger-MAS 细读总结

2026-04-03T12:42:27.000Z

这篇笔记细读 Stronger-MAS，重点关注 AT-GRPO 如何处理多智能体场景中 GRPO 分组假设失效的问题，以及它在训练系统、实验结论和局限上的启发。

1. 核心问题

标准GRPO在多智能体场景下失效，原因是分组假设被违反：

GRPO要求同一group内所有candidate共享相同的prompt
但在MAS中，不同agent有不同的role prompt，不同turn有不同的interaction history
直接用GRPO训MAS → advantage估计偏差 →
训练不稳定甚至性能下降（实验证实：Qwen3-8B在CodeContests上17.60→10.30，OlympiadBench 56.50→53.20）

2. AT-GRPO方法（三个核心设计）

A. Tree-structured Sampling（树形采样）

问题：如果用并行采样（K条完整轨迹），当t>1时每个(agent, turn)组合只有1个样本，GRPO的variance reduction失效
解决：在每个turn的每个agent处，从当前状态分支出K个candidate action → 形成有效的size-K comparison group
用贪心选择（取reward最高的action）推进环境状态到下一step

B. Agent- and Turn-wise Grouping（按agent×turn分组）

Group key = hash(environment_id, agent_id, turn_id)
确保同一group内的所有candidate共享完全相同的observation（满足GRPO的identical-prompt假设）
是GiGPO（Group-in-Group PO）在多智能体设定下的自然推广

C. Agent-wise Credit Assignment（混合奖励）

r_{t,i} = α · r_team + r_i^loc
team reward：全局任务成功信号
local reward：agent-specific的子任务评估（如coder的pass rate vs tester的测试质量）
α=1，未做精细调优

3. 训练系统设计

每个policy有独立的GPU Resource Pool（RolloutWorker + UpdateWorker）
CPU Environment Pool执行环境交互（沙盒化）
Router根据agent-policy映射分发轨迹数据
支持两种模式：
- Role-sharing（M=1）：所有agent共享一个policy，数据pooled
- Role-specialized（M=N）：每个role独立policy，独立更新

4. 关键实验结果

┌─────────────────────────────────────┬─────────────────────────────────────────────────────┐│                发现                 │                        证据                         │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ AT-GRPO在长horizon任务提升巨大      │ Plan-Path: 5%→96%, Sokoban: 0%→96% (8B)             │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ MAS+GRPO有时反而伤害性能            │ CodeContests 17.60→10.30, OlympiadBench 56.50→53.20 │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ SA训练后组合 vs MAS联合训练差距巨大 │ Plan-Path: 16% vs 96%（Ablation Table 4）           │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ 交换role-specialized policies后崩溃 │ 96%→6%，说明学到了互补的专业化                      │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ 训练中turn数减少                    │ agent协作效率随训练提升                             │├─────────────────────────────────────┼─────────────────────────────────────────────────────┤│ Scalability                         │ 7-agent时AT-GRPO 47.7% vs GRPO 34.1%（后者饱和）    │└─────────────────────────────────────┴─────────────────────────────────────────────────────┘

高角色异质性（coding: coder vs tester）→ role-specialized更好（+3.05pts）
角色有overlap（math: reasoner vs tool-user）→ shared policy可能更好（OlympiadBench 39.6% vs 35.2%）
已饱和任务（game/plan）→ 无显著差异

6. 与其他MARL框架对比

┌─────────────────────────┬────────────────────────────────────────────────────────┐│        对比对象         │                    Stronger-MAS优势                    │├─────────────────────────┼────────────────────────────────────────────────────────┤│ MAPORL（同质agent辩论） │ 异质角色更好，untrained MAS 84.4% > trained MAPORL 81% │├─────────────────────────┼────────────────────────────────────────────────────────┤│ MARFT（单轮偏好优化）   │ 多轮交互纠错 > 单步alignment                           │├─────────────────────────┼────────────────────────────────────────────────────────┤│ CURE（单轮code+test）   │ 迭代self-refinement cycle                              │└─────────────────────────┴────────────────────────────────────────────────────────┘

7. 论文的Gap/局限

奖励设计仍然是手工的：每个domain需要精心设计local reward（coder pass rate, tester quality等），没有自动化
仅测试了小模型（1.7B, 8B），大模型（70B+）的scaling behavior未知
tree sampling的计算开销：每个agent每个turn采K=4个candidate，成本随agent数和turn数线性增长
α=1未调优：team reward和local reward的平衡可能task-specific
只测了cooperative场景，competitive/mixed-motive未涉及
通信/信息传递未显式优化：agent间通过自然语言交互，没有优化"该传什么信息"

Agentic RL 经典 Baselines 综述

2026-03-31T08:11:13.000Z

这篇笔记整理单智能体 RL、多智能体 RL、reward-free 表征学习，以及 LLM-based Agentic RL 中常见 baseline，主要用于后续实验设计和论文对比时快速查表。

1. 单智能体 RL 基础算法

┌─────────┬─────────────────┬──────────────────────────────────────────────────┐│  算法   │      类别       │                     核心思想                     │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ DQN     │ Value-based     │ 深度 Q 网络 + Experience Replay + Target Network │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ PPO     │ Policy Gradient │ Clipped surrogate objective，稳定策略优化        │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ SAC     │ Actor-Critic    │ 最大熵 RL，自动温度调节                          │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ TD3     │ Actor-Critic    │ Twin critics + delayed policy update，减少过估计 │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ A2C/A3C │ Actor-Critic    │ 异步/同步 advantage actor-critic                 │├─────────┼─────────────────┼──────────────────────────────────────────────────┤│ DDPG    │ Actor-Critic    │ 连续动作空间的 off-policy 方法                   │└─────────┴─────────────────┴──────────────────────────────────────────────────┘

2. 多智能体 RL (MARL) 经典 Baselines

2.1 集中训练分散执行 (CTDE)

┌────────┬───────────────────────────────────────────┬──────────────────────────┐│  算法  │                 核心思想                  │         适用场景         │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ QMIX   │ 单调混合网络分解联合 Q 值                 │ 合作任务（StarCraft 等） │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ VDN    │ 简单加法分解 Q_tot = ΣQ_i                 │ 合作任务                 │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ MAPPO  │ 多智能体 PPO + 集中 critic                │ 通用合作/竞争            │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ MADDPG │ 每个 agent 一个 actor-critic，集中 critic │ 混合合作竞争             │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ COMA   │ Counterfactual baseline 解决信用分配      │ 合作任务                 │├────────┼───────────────────────────────────────────┼──────────────────────────┤│ QTRAN  │ 线性约束分解，更一般化的值分解            │ 非单调 Q 值任务          │└────────┴───────────────────────────────────────────┴──────────────────────────┘

2.2 通信机制

┌─────────┬────────────────────────────┐│  算法   │          核心思想          │├─────────┼────────────────────────────┤│ CommNet │ 连续通信通道，均值聚合     │├─────────┼────────────────────────────┤│ TarMAC  │ Attention-based 选择性通信 │├─────────┼────────────────────────────┤│ IC3Net  │ 门控通信，学习何时通信     │├─────────┼────────────────────────────┤│ DIAL    │ 通过梯度反向传播学通信协议 │└─────────┴────────────────────────────┘

2.3 对手/队友建模

┌──────────────────────┬───────────────────────────────────────────┐│         算法         │                 核心思想                  │├──────────────────────┼───────────────────────────────────────────┤│ LOLA                 │ Learning with Opponent-Learning Awareness │├──────────────────────┼───────────────────────────────────────────┤│ ToM (Theory of Mind) │ 显式建模对手信念和意图                    │├──────────────────────┼───────────────────────────────────────────┤│ RIAL / DIAL          │ 可微通信 + 智能体间信号                   │└──────────────────────┴───────────────────────────────────────────┘

3. Reward-Free Baselines

┌──────────────────────┬────────────────────┬────────────────────────────┐│         方法         │      你的实现      │          核心思想          │├──────────────────────┼────────────────────┼────────────────────────────┤│ Autoencoder          │ AEPretrainer       │ 重构观测，无监督特征       │├──────────────────────┼────────────────────┼────────────────────────────┤│ Masked AE            │ MaskedAEPretrainer │ 随机遮蔽 + 重构 (类 MAE)   │├──────────────────────┼────────────────────┼────────────────────────────┤│ CPC                  │ CPCPretrainer      │ 对比预测编码，预测未来表征 │├──────────────────────┼────────────────────┼────────────────────────────┤│ Next-Step Prediction │ NextStepPretrainer │ 前向动态模型               │├──────────────────────┼────────────────────┼────────────────────────────┤│ TIMAR                │ TIMARPretrainer    │ 队友信息建模               │├──────────────────────┼────────────────────┼────────────────────────────┤│ MaskMA               │ MaskMAPretrainer   │ 掩码多智能体建模           │└──────────────────────┴────────────────────┴────────────────────────────┘

其他重要的表征学习 baseline：

┌──────────────┬──────────────────────────────────────────────────────────┐│     方法     │                         核心思想                         │├──────────────┼──────────────────────────────────────────────────────────┤│ CURL         │ 对比学习 + 数据增强用于 RL 表征                          │├──────────────┼──────────────────────────────────────────────────────────┤│ DrQ / DrQ-v2 │ 图像增强的 data-efficient RL                             │├──────────────┼──────────────────────────────────────────────────────────┤│ SPR          │ Self-Predictive Representations                          │├──────────────┼──────────────────────────────────────────────────────────┤│ Proto-RL     │ Prototypical representations for reward-free exploration │├──────────────┼──────────────────────────────────────────────────────────┤│ ATC          │ Augmented Temporal Contrast                              │├──────────────┼──────────────────────────────────────────────────────────┤│ BYOL-Explore │ Bootstrap your own latent + 探索                         │└──────────────┴──────────────────────────────────────────────────────────┘

4. Agentic RL（LLM-based Agent）新方向

如果 “Agentic RL” 指的是 LLM 驱动的智能体，还有这些 baselines：

┌───────────────────┬───────────────────────────────────────────────┐│       方法        │                   核心思想                    │├───────────────────┼───────────────────────────────────────────────┤│ ReAct             │ Reasoning + Acting 交替，思维链驱动工具调用   │├───────────────────┼───────────────────────────────────────────────┤│ Reflexion         │ 自我反思 + episodic memory 改进决策           │├───────────────────┼───────────────────────────────────────────────┤│ Voyager           │ LLM agent + 技能库 + 自动课程（Minecraft）    │├───────────────────┼───────────────────────────────────────────────┤│ DEPS              │ Describe, Explain, Plan, Select               │├───────────────────┼───────────────────────────────────────────────┤│ SayCan            │ LLM 提供语义知识 + affordance grounding       │├───────────────────┼───────────────────────────────────────────────┤│ Inner Monologue   │ 内部对话反馈闭环                              │├───────────────────┼───────────────────────────────────────────────┤│ AutoGPT / BabyAGI │ 自主任务分解 + 执行循环                       │├───────────────────┼───────────────────────────────────────────────┤│ RLHF / DPO        │ 从人类偏好中学习对齐策略                      │├───────────────────┼───────────────────────────────────────────────┤│ GRPO              │ Group Relative Policy Optimization (DeepSeek) │└───────────────────┴───────────────────────────────────────────────┘

研究周报 · 2026.03.22–03.28 · PSR 实验 Block1-3 与方向复盘

2026-03-28T08:56:00.000Z

本周主线：PSR 实验验证 + 方向复盘。
跑通了 ProbeCommitEnv 上 8 种方法（PSR / AE / MaskedAE / MaskMA / TIMAR / NextStep / CPC / Scratch）的横向对比，以及与学长的 idea sharing meeting。

一、概览

PSR 实验验证：在 ProbeCommitEnv 上完成 Block 1–3 全部实验（Kill Test、Sample Efficiency、Adaptation Ablation、Nuisance Robustness、Theorem Validation），跑通了 light 版（本地 RTX 4060）和 full 版（服务器 RTX 3090），系统梳理了正面结果与负面结果
与学长讨论：组织了一轮 PSR idea sharing meeting，明确了后续研究方向应当与 LLM 场景结合（MARL + LLM Agent），因为师哥师姐在 LLM 研究方向上造诣较深，可获得更多指导
方向复盘与规划：整理了 PSR 当前存在的核心问题、后续投稿策略，以及下一步行动计划

二、experiment

2.1 实验框架

在自建的 ProbeCommitEnv（2-agent, 4-step Dec-POMDP）上，横向对比了 8 种方法：PSR、AE、MaskedAE、MaskMA、TIMAR、NextStep、CPC、Scratch。实验分 5 个 block 进行验证。

2.2 正面结果

维度	结论	关键数据
表示选择性	PSR 是唯一能做到 u-probe≈1.0 且 n-R²<0.05 的方法	easy: u=1.000, n_R²=0.019; hard: u=0.999, n_R²=0.006
pretrained baselines 内最优	PSR 在 frozen eval 下一致赢过所有预训练 baseline	easy: 75.1% vs AE 71.9%; hard: 60.6% vs AE 53.1%
nuisance 压制机制成立	nuisance 增大时 PSR 的 n_R² 稳定 <0.05，AE 一路上升至 0.998	机制验证通过，PSR 的 inductive bias 偏向"只抓合作相关结构"
frozen linear 协议下最优	Adaptation ablation 中 PSR frozen_linear=64.2%，优于 Scratch 56.7%	说明 PSR 表示质量确实更高

2.3 negative result

问题	详情
打不过 Scratch	hard setting: PSR 60.6% vs Scratch 71.3%，差距 10.7pp
长训练退化	Full 版（200k updates）PSR 从 75.1% 退化到 67.2%，怀疑 adversarial head 过于激进
理论验证失败	Spearman(ε̂, gap)=-0.17, R²=0.013，ε̂ 完全不能预测 transfer gap
nuisance 压制可能过头	z≥16 时 PSR 性能下降反而比 AE 更多（15.5pp vs 8.5pp）
sample efficiency 无交叉	PSR 在所有 downstream budget 下都没赢过 Scratch

2.4 猜想

环境太简单（4-step, Scratch 几千 episode 即可收敛）可能是当前负面结果的根本原因，PSR 的信息选择优势需要更复杂的环境才能体现。

三、meeting

3.1 讨论要点

研究动机、方法设计、实验结果与存在问题
学长确认 PSR 方向的基本思路可行，但需要完善内容很多：

Introduction 和 Related Work 需要打磨得非常精细，这是论文最重要的部分。
打通 user story（研究为什么重要、解决什么问题），因为当前 method 部分在 LLM 时代不算特别新颖，关键看方向是否有意义且新颖。
冯导对 intro 和 related work 的逻辑严谨性要求很高。

四、后续若要推进必须完善的点

4.1 motivation

问题	说明
为什么选 multi-agent 而不是单 agent？	需要清晰论述 MARL 相比单 agent RL 的独特价值与研究前景
为什么去除 nuisance 就能改善协作？	需要更严格的论证：partner-sufficient 信息是否真的够用？是否有反例？
如何定义 nuisance？	nuisance 的定义依赖于模型能力和应用场景。推理能力强的模型可能不认为某些信息是 nuisance；不同应用场景下 nuisance 的边界不同。需要形式化的、场景可适配的定义

4.2 novelty

问题	说明
是否已有类似工作？	需要系统调研：是没人做过？有人做过但失败了？还是前人已经证明成功了？必须自己亲自做这项调研，不能盲目依赖 LLM
在 LLM 场景下的独特性	PSR 从传统 MARL 迁移到 LLM Agent 场景时，其核心贡献是否仍然成立？

4.3 experiment

问题	说明
缺少真实 benchmark	没有 Overcooked/Hanabi 等标准环境的验证，难以证明外部效度
Scratch baseline 过强	当前环境下 end-to-end 训练太强，预训练优势不明显
adversarial 训练不稳定	长训练下 PSR 退化，需要改进训练策略

五、To-Do List

5.1 未来若要投稿论文

[ ] 关注三大顶会投稿 DDL：ICLR（一般 9–10 月截稿）、ICML（一般 1–2 月截稿）、NeurIPS（一般 5–6 月截稿）
[ ] 重点打磨 Introduction 和 Related Work
[ ] 打通 user story：为什么这个方向重要？解决了什么核心痛点？
[ ] 方法部分注重与 LLM 时代的结合点
[ ] 自己做文献调研：系统检索 partner-sufficient / nuisance-robust representation 在 MARL 中是否已有类似工作
[ ] 论证 MARL 的前景优势（为什么选 multi-agent 而不是 single agent）
[ ] 明确 nuisance 在不同场景下的形式化定义
[ ] 论证 partner-sufficient 信息为什么能改善协作（理论 + 直觉）

5.2 学校方面

[ ] 填写学校新人工智能开放实验室开放课题申请书
[ ] 找冯导确认研究方向的可行性
[ ] 与组内师兄分工合作，推进科研基金补助申请
[ ] 逐步熟悉智算中心的 A100 GPU 集群使用方法，为后续部署 veRL 框架和跑实验做准备

5.3 技术层面

[ ] 将 PSR 方向与 LLM Agent 场景结合，思考具体的问题建模方式
[ ] 解决 adversarial 训练退化问题（考虑 early stopping / 梯度裁剪 / 渐进式 adversarial weight）
[ ] 重做 estimator
[ ] 定义真实环境里的 nuisance
[ ] 准备真实 benchmark pilot（优先 Overcooked，后续 Hanabi）

📄 本周附表（meeting report 详细讨论笔记）不在博客公开，仅保留以上技术讨论的概览与行动项。

研究周报 · 2026.03.15–03.21 · Agentic RL 综述与 WM/Policy 对齐

2026-03-21T08:30:00.000Z

姓名： 李晟昊
日期： 2026 年 3 月 21 日
指导老师： 冯磊
研究方向： Agentic Reinforcement Learning / Model-Based RL

一、本周工作概览

本周主要完成以下三部分工作：

文献阅读：精读 4 篇 Agentic RL 领域的综述与实验论文，建立领域知识框架
研究问题提出：聚焦 World Model 与 Policy 的 Objective Mismatch 问题，提出基于 Contrastive Alignment 的解决思路
实验验证：通过 7 轮迭代实验，从 idea 到可验证方案，初步验证了 Disentangled Partial Alignment 方法的有效性

二、文献阅读

2.1 论文列表

序号	论文	发表	类型
1	Zhang et al., The Landscape of Agentic Reinforcement Learning for LLMs: A Survey	TMLR 2026	综述 (95pp)
2	Wang & Ammanabrolu, A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning	Under Review 2025	实验 (20pp)
3	Pignatelli et al., A Survey of Temporal Credit Assignment in Deep Reinforcement Learning	TMLR 2024	综述 (56pp)
4	Wei et al., Agentic Reasoning for Large Language Models	Survey 2026	综述 (135pp)

2.2 核心概念梳理

Agentic RL 的范式转变： 传统 LLM RL（如 RLHF）本质上是一个退化的单步 MDP，而 Agentic RL 将 LLM 视为嵌入动态环境中的多步决策者，建模为 POMDP：

\langle \mathcal{S}, \mathcal{O}, \mathcal{A}, P, R, \gamma \rangle

其中 agent 只能观察到部分状态 $o_t = O(s_t)$ ，动作空间包含文本生成和环境交互两个子空间 $\mathcal{A} = \mathcal{A}_{\text{text}} \cup \mathcal{A}_{\text{action}}$ 。优化目标为：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T-1} \gamma^t R(s_t, a_t)\right]

Temporal Credit Assignment 问题（Pignatelli et al.）： 在多步决策中，如何将最终奖励归因到各步动作，是 Agentic RL 区别于传统 LLM RL 的核心难题。该综述提出了统一的赋值函数形式化：

K: \mathcal{C} \times \mathcal{A} \times \mathcal{G} \to \mathcal{Y}

并将挑战归纳为三个 MDP 维度：Depth（延迟效应）、Density（稀疏奖励）、Breadth（credit 稀释）。

2.3 论文对比分析

维度	Zhang 2026	Wang 2025	Pignatelli 2024	Wei 2026
核心视角	RL 赋能 Agent 能力	多轮 RL 实践 recipe	CA 数学本质	Reasoning 组织行为
形式化	PBRFT MDP vs POMDP	POMDP 三支柱	Assignment function	POMDP + reasoning trace
关键发现	RL 是静态→自适应的关键	PPO >> GRPO（多轮）	Depth/Density/Breadth	In-context vs Post-training 互补
核心瓶颈	Temporal CA	Reward density	Delayed effects	World modeling

2.4 启发

RL 算法选择：在多轮 agentic 任务中，PPO 显著优于 GRPO（Wang 2025 实验：w4-o6-q8 任务上 PPO 72% vs GRPO 36%）
World Model 是开放问题：Wei et al. 在 Section 8.3 明确指出 “An open problem is how to jointly train, update, and evaluate world models in non-stationary environments”
Objective Mismatch：Zhang et al. 引用 Pignatelli 的 temporal credit assignment 工作，指出这是 long-horizon tool-integrated reasoning 的核心瓶颈

三、研究问题与思路

3.1 问题定义

在 Model-Based RL 中，World Model（WM）和 Policy 存在 Objective Mismatch（Lambert et al., 2020）：

WM 训练目标：最小化预测误差（next-state/token prediction）

\mathcal{L}_{\text{model}} = \mathbb{E}\left[\|f_\theta(s_t, a_t) - s_{t+1}\|^2\right]

Policy 训练目标：最大化期望回报

J(\pi) = \mathbb{E}_\pi\left[\sum_t \gamma^t r_t\right]

WM 在状态空间中均匀追求预测精度，但 Policy 只关心对决策有影响的状态区域。这导致 WM 可能在 policy 不会访问的区域浪费拟合能力，同时在关键决策边界上精度不足。

3.2 已有方法

方法	核心思路	局限
VaGraM (Voelcker 2023)	用 value gradient 加权 model loss	单向对齐
MuZero (2020)	纯 value/policy/reward loss 训练 model	依赖 MCTS
TD-MPC (Hansen 2022)	Latent consistency + TD + reward	未显式对齐
DreamerV3 (Hafner 2023)	Shared latent + stop-gradient	隐式对齐，仍有 reconstruction
Value Equivalence (Grimm 2020)	Model 只需 value-equivalent	理论框架

3.3 我的研究思路：Contrastive Objective Alignment (COA)

核心 idea： 类比多模态对齐（如 CLIP 将图像和文本映射到同一空间），将 WM 和 Policy 的表征映射到一个 shared latent space 进行 joint training。

具体方案（经过实验迭代后的最终版本）： Disentangled Partial Alignment

\text{enc}_{\text{wm}}(o_t) \to [z^{\text{shared}}_{\text{wm}}, z^{\text{private}}_{\text{wm}}]

\text{enc}_\pi(o_t) \to [z^{\text{shared}}_\pi, z^{\text{private}}_\pi]

对齐 loss 仅作用于 shared subspace：

\mathcal{L}_{\text{align}} = \left\|\frac{z^{\text{shared}}_{\text{wm}}}{\|z^{\text{shared}}_{\text{wm}}\|} - \frac{z^{\text{shared}}_\pi}{\|z^{\text{shared}}_\pi\|}\right\|^2

总损失为：

\mathcal{L} = \underbrace{\mathcal{L}_{\text{dynamics}} + \mathcal{L}_{\text{reward}}}_{\text{WM pathway}} + \underbrace{\mathcal{L}_{\text{value}} + \mathcal{L}_{\text{policy}}}_{\text{Policy pathway}} + \lambda \cdot \mathcal{L}_{\text{align}}

设计动机：

Dual encoder：WM 和 Policy 各自拥有独立编码器，objective mismatch 体现在两个编码器学到不同的表征
Disentangled：每个编码器输出分为 shared（对齐）和 private（自由）两部分，防止对齐约束过强锁住 policy 优化
Partial alignment：只对齐 shared subspace，允许 private subspace 保留各自任务特有信息

四、实验验证

4.1 实验环境

SimpleEnv：自定义 4 维状态空间，其中维度 0、1 与 reward 相关，维度 2、3 为干扰项（distractor），天然存在 objective mismatch
状态转移： $s^{(0)}_{t+1} = 0.8 s^{(0)}_t + 0.5 a_t + \epsilon$ ， $s^{(2)}_{t+1} = \sin(s^{(2)}_t + 0.5) + \epsilon'$
奖励： $r_t = -(s^{(0)}_{t+1})^2 - (s^{(1)}_{t+1})^2 + 1.0$ （仅依赖维度 0、1）
Horizon = 5 步

4.2 迭代过程与关键发现

实验共进行 7 轮迭代，逐步修正方案：

轮次	方案	结果	关键发现
R1	Shared encoder + COA	稳定但不学习	InfoNCE 过强
R2	多 seed 验证 (5 seeds)	COA 完全锁住 policy	Shared encoder 下 COA 退化
R3	Lambda sweep (7 values)	任何 $\lambda > 0$ 都锁住	问题不在 $\lambda$ 大小
R4	Dual encoder + COA	消除 diverge 但锁住	InfoNCE 在 dual encoder 下仍过强
R5	软对齐 (soft_cos / mse_norm / annealing)	全空间对齐均锁住；annealing 证实因果	问题在于对齐整个表征空间
R6	Disentangled partial alignment	首次同时稳定且学习	突破：只对齐 shared subspace
R7	扩展到 2000eps + ratio sweep	验证通过	最终方案确定

4.3 最终实验结果

实验配置： 2000 episodes, 3 random seeds, target networks (Polyak $\tau=0.005$ )

方法	Ep200	Ep1000	Ep1500	Ep2000	稳定性
SharedEnc (Dreamer-style)	3.91	$-6.2 \times 10^{14}$	$-2.8 \times 10^{15}$	$-2.8 \times 10^{15}$	灾难
DualEnc (无对齐)	-6.21	$-4.9 \times 10^{10}$	$-3.6 \times 10^{12}$	$-4.7 \times 10^{12}$	灾难
Partial (s=8, p=24)	3.37	-5.04	-273	$-1.2 \times 10^{15}$	最终 diverge
Partial (s=16, p=16, $\lambda$ =0.2)	3.17	3.27	3.39	3.41 ± 0.09	稳定
Partial (s=24, p=8, $\lambda$ =0.1)	3.15	3.20	3.22	3.24 ± 0.05	最稳定
Partial ( $\lambda$ =0.05)	3.24	3.42	-22.25	-22.05	后期 diverge

核心结论：

Objective mismatch 导致灾难性训练崩溃：所有无对齐的 baseline 均 diverge 到极端负值（ $10^{12}$ – $10^{15}$ 量级）
Disentangled Partial Alignment 有效解决该问题：Partial (s=16, p=16, $\lambda$ =0.2) 在 2000 episodes 内持续改善（3.17→3.41）且完全稳定（std=0.09）
Shared/Private 比例存在 trade-off：更多 shared dim → 更稳定但学习更慢；更多 private dim → 学习更快但可能 diverge

4.4 方法演进逻辑

Shared Encoder COA (失败：COA退化)    ↓ 发现需要独立编码器Dual Encoder + InfoNCE (失败：锁住policy)    ↓ 发现对齐过强Dual Encoder + 软对齐 (失败：全空间对齐仍过强)    ↓ 发现不应对齐全部表征Dual Encoder + Disentangled Partial Alignment (成功)    ↓ 只对齐shared subspace，保留private自由度

五、下周计划

扩展验证：将 COA 方法集成到 DreamerV3 框架中，在 DMControl 标准 benchmark 上测试
LLM Agent 场景：在 TextWorld/ALFWorld 上验证，其中 LLM 的 next-token prediction 作为 WM
理论分析：推导 partial alignment 对 policy performance bound 的影响
论文写作准备：整理相关工作，确定投稿目标

六、参考文献

Lambert, N., Amos, B., Yadan, O., & Calandra, R. (2020). Objective mismatch in model-based reinforcement learning. arXiv:2002.04523.
Voelcker, C., Liao, V., Garg, A., & Farahmand, A. (2023). Value gradient weighted model-based reinforcement learning. ICLR 2023.
Schrittwieser, J., et al. (2020). Mastering Atari, Go, Chess and Shogi by planning with a learned model. Nature.
Hafner, D., et al. (2023). Mastering diverse domains through world models. arXiv:2301.04104.
Hansen, N., Wang, X., & Su, H. (2022). Temporal difference learning for model-based planning. ICML 2022.
Grimm, C., Barreto, A., Singh, S., & Silver, D. (2020). The value equivalence principle for model-based reinforcement learning. NeurIPS 2020.
Zhang, G., et al. (2026). The landscape of agentic reinforcement learning for LLMs: A survey. TMLR.
Wang, R., & Ammanabrolu, P. (2025). A practitioner’s guide to multi-turn agentic reinforcement learning. Under Review.
Pignatelli, E., et al. (2024). A survey of temporal credit assignment in deep reinforcement learning. TMLR.
Wei, T., et al. (2026). Agentic reasoning for large language models. Survey.