0%

看的paper都略有点老了,主要是一些基础性工作,没有涉及到现在前沿的工作。像ReAct跟CAMEL这种。image-20260312204646932

Toolformer

$$
\Delta L = L_{\text{no API}} - L_{\text{with API}}
$$

$$
\Delta L > \tau
$$

  • 达到一个阈值才记住,避免无效的学习
  • 通过调用工具直接抄答案,大大减少reasoning的消耗

不过这是在做微调的时候加入的,倒是可以考虑agent-friendly llm?

Reflexion

​ 不更新参数(rl)的情况,只是把反思放进memory,后面直接作为prompt放进去。下次遇到同样问题可以直接调用,用在debug上可以避免改一圈改回去?这个方法很便宜,可解释也很好,就是对token不太友好,一次塞进去过多的反思也会干扰当前。

​ 所有后面把prompt embedding了,或者整理成skill。(还没看过)

Tree of Thoughts

​ 这个可以避免链状思维一步错整个崩掉,先发散思维。但是这个token消耗跟树搜索是个问题。而且我认为这跟上一点都有个重要问题:llm的评估和总结是否可信,如果不可信那树状和链状是不是意味着没有太大的优化?或者是它还能跟其他的方法进行修正。

multi agent的实验

​ AutoGen只是作为一个观察token消耗,就用dpsk的api,正在尝试研究源代码。Generative Agents: Interactive Simulacra of Human Behavior这篇工作构建了全是npc的一个场景,有意思但是没想到什么。

现在主要有几个想法:

  • 阅读日志文件让agent学习记忆人工情况下的习惯和某些不是很典型场景下的工作知识。但是这个隐私问题有待考虑
  • 记忆与调用是直接调用总结的prompt还是embedding后的vector,或者是混合使用。再一个需要记忆时间的长短。比如处理两个不同方向的问题的时候会不会出现“串味”的问题。
  • 还没碰到token effency的具体做法,但是它跟agent框架甚至llm本身都会有关系。