conclusion1

发表于 2026-03-12

看的paper都略有点老了，主要是一些基础性工作，没有涉及到现在前沿的工作。像ReAct跟CAMEL这种。

Toolformer

$$
\Delta L = L_{\text{no API}} - L_{\text{with API}}
$$

$$
\Delta L > \tau
$$

不过这是在做微调的时候加入的，倒是可以考虑agent-friendly llm?

不更新参数(rl)的情况，只是把反思放进memory，后面直接作为prompt放进去。下次遇到同样问题可以直接调用，用在debug上可以避免改一圈改回去?这个方法很便宜，可解释也很好，就是对token不太友好，一次塞进去过多的反思也会干扰当前。

所有后面把prompt embedding了，或者整理成skill。（还没看过）

这个可以避免链状思维一步错整个崩掉，先发散思维。但是这个token消耗跟树搜索是个问题。而且我认为这跟上一点都有个重要问题：llm的评估和总结是否可信，如果不可信那树状和链状是不是意味着没有太大的优化？或者是它还能跟其他的方法进行修正。

AutoGen只是作为一个观察token消耗，就用dpsk的api，正在尝试研究源代码。Generative Agents: Interactive Simulacra of Human Behavior这篇工作构建了全是npc的一个场景，有意思但是没想到什么。

现在主要有几个想法：

阅读日志文件让agent学习记忆人工情况下的习惯和某些不是很典型场景下的工作知识。但是这个隐私问题有待考虑
记忆与调用是直接调用总结的prompt还是embedding后的vector，或者是混合使用。再一个需要记忆时间的长短。比如处理两个不同方向的问题的时候会不会出现“串味”的问题。
还没碰到token effency的具体做法，但是它跟agent框架甚至llm本身都会有关系。

发表于 2026-02-13 更新于 2026-02-14

json文件，RAII，多态

发表于 2026-02-11

发表于 2026-02-10

测试文档