Yoyo_Lee 的博客

研究周报 · 2026.04.26–05.09 · C3/CCPO 反事实信用分配与 minimal-agent-harness 搭建

精读 C3、CCPO 两篇反事实信用分配论文，对比 message-level/agent-level counterfactual 与 CAD-GRPO 的 tradeoff；Q&A 讨论全对/全错 trajectory 的价值（NPO/DAPO）；搭建 minimal-agent-harness 单 agent rollout 环境；规划 CAD-GRPO 实验框架。

作者 Yoyo_Lee 发表于 2026-05-09 · 周报

我为什么最喜欢晴雯——一个被误读的"任性"丫鬟

晴雯的判词里藏着曹公最锋利的八个字——"心比天高，身为下贱"。她不是红楼梦里最完美的人，但她是最真实的人。

作者 Yoyo_Lee 发表于 2026-04-29 · 生活

你感觉现在的电影和音乐不如以前了，这不是错觉，但原因不是你想的那样

每天有120000首新歌上传到流媒体平台，Spotify上400万首曲目从未被播放。经典没有消失，它被埋在了噪音山里。

作者 Yoyo_Lee 发表于 2026-04-29 · 生活

Claude Code 架构深度解析：Tool Use Loop、Context Management 与 Multi-Agent 机制

基于 Claude Code 源码的深度架构分析，聚焦三大核心机制：无限循环内的流式工具调用、多层分级上下文管理、以及多类型子代理的生命周期与协作体系。

作者 Yoyo_Lee 发表于 2026-04-27 · 研究

研究周报 · 2026.04.19–04.25 · DAPO/GiGPO/MAPPA/Dr.MAS 精读与 sub2api 实践

精读 DAPO、GiGPO、MAPPA、Dr.MAS，梳理 agent-level、step-level、token-level 信用分解的组合思路；开发 sub2api 令牌分发工具；学习 LangGraph、AutoGen、AgentScope、CAMEL 等经典 agent 框架实践。

作者 Yoyo_Lee 发表于 2026-04-25 · 周报

春日随笔 - 一段关于专注的记忆

一段关于专注、阅读 Deep Work 和日常节奏的小记录。

作者 Yoyo_Lee 发表于 2026-04-24 · 生活

Hello World - 博客开张

这篇开篇文章记录博客的定位、写作方向，并验证公式、代码块、引用等基础写作能力。

作者 Yoyo_Lee 发表于 2026-04-24 · 研究

研究周报 · 2026.04.12–04.18 · Credit Assignment Survey、SHARP 精读与 Q&A

精读 Pignatelli temporal CA survey、SHARP Shapley 信用分解、LangMARL 补充对比；回答上周关于 GRPO vs PPO、CAD-GRPO 岭回归、RLHF reward model 的追问；系统整理 policy gradient 方法演进与 GAE。

作者 Yoyo_Lee 发表于 2026-04-18 · 周报

研究周报 · 2026.04.06–04.12 · 基础概念补齐与 LLM-MAS 论文精读

系统补齐 HMM / GRPO / PPO / MARFT / SFT vs RLHF 基础概念；精读 LangMARL、MHGPO 两篇 LLM 多智能体论文；确定申报书方向为 CAD-GRPO（credit assignment）。

作者 Yoyo_Lee 发表于 2026-04-12 · 周报

多智能体 LLM RL 训练：当前 landscape

梳理多智能体 LLM RL 训练相关工作，定位 AT-GRPO 的技术缺口，并整理可能的后续研究方向。

作者 Yoyo_Lee 发表于 2026-04-04 · 研究