Yoyo_Lee 的博客

研究笔记、论文阅读,以及日常生活分享

我为什么最喜欢晴雯——一个被误读的"任性"丫鬟

晴雯的判词里藏着曹公最锋利的八个字——"心比天高,身为下贱"。她不是红楼梦里最完美的人,但她是最真实的人。


你感觉现在的电影和音乐不如以前了,这不是错觉,但原因不是你想的那样

每天有120000首新歌上传到流媒体平台,Spotify上400万首曲目从未被播放。经典没有消失,它被埋在了噪音山里。


Claude Code 架构深度解析:Tool Use Loop、Context Management 与 Multi-Agent 机制

基于 Claude Code 源码的深度架构分析,聚焦三大核心机制:无限循环内的流式工具调用、多层分级上下文管理、 以及多类型子代理的生命周期与协作体系。


研究周报 · 2026.04.19–04.25 · DAPO/GiGPO/MAPPA/Dr.MAS 精读与 sub2api 实践

精读 DAPO、GiGPO、MAPPA、Dr.MAS,梳理 agent-level、step-level、token-level 信用分解的组合思路;开发 sub2api 令牌分发工具;学习 LangGraph、AutoGen、AgentScope、CAMEL 等经典 agent 框架实践。


春日随笔 - 一段关于专注的记忆

一段关于专注、阅读 Deep Work 和日常节奏的小记录。


Hello World - 博客开张

这篇开篇文章记录博客的定位、写作方向,并验证公式、代码块、引用等基础写作能力。


研究周报 · 2026.04.12–04.18 · Credit Assignment Survey、SHARP 精读与 Q&A

精读 Pignatelli temporal CA survey、SHARP Shapley 信用分解、LangMARL 补充对比;回答上周关于 GRPO vs PPO、CAD-GRPO 岭回归、RLHF reward model 的追问;系统整理 policy gradient 方法演进与 GAE。


研究周报 · 2026.04.06–04.12 · 基础概念补齐与 LLM-MAS 论文精读

系统补齐 HMM / GRPO / PPO / MARFT / SFT vs RLHF 基础概念;精读 LangMARL、MHGPO 两篇 LLM 多智能体论文;确定申报书方向为 CAD-GRPO(credit assignment)。


多智能体 LLM RL 训练:当前 landscape

梳理多智能体 LLM RL 训练相关工作,定位 AT-GRPO 的技术缺口,并整理可能的后续研究方向。


Stronger-MAS 细读总结

围绕 Stronger-MAS / AT-GRPO 的核心问题、方法设计、训练系统、实验结果与局限进行结构化整理。