AutoGen、Crew AI 和 LangGraph 等新兴框架提供了丰富的方法来构建多智能体问题解决方案,特别是 ChatDev,这是一组运行虚拟软件公司的智能体的开源实现— https://www.deeplearning.ai/the-batch/issue-241/

ReAct(Reason & Act) 框架

LLM Powered Autonomous Agents:

上图很好地解释了Agent的工作原理,其中Memory 结合 Planning 使得 Agent 可以事前 Thought,事后 Observation。然后继续 Thought 判断下一步的Action, Action 则是利用 Tools 对现实世界产生影响。这个也被称为 ReAct(Reason & Act) 框架:

graph TD
    A[Thought] --> B["Action & Action Input"]
    B --> C["Action Output & Observation"]
    C --> A
    A --> E{Find the Final Answer or Action?}
    E -->|final Answer| F[Stop]
    E -->|Action| B

不过这个框架很容易出现死循环的情况,即LLM在多轮思考、执行、观察之后发现依然需要重复执行,就会消耗大量token,也完成不了任务,也停不下来。

Action

其中一个Action流程是:

graph TD
    A[上下文理解] --> B{查询SOP工具}
    B --> |信息充足| D[执行SOP]
    B --> |信息不足| C[反问客户、获取信息]
    B --> |没有合适的SOP| H[跳出到 Observation ]
    C --> B
    D --> E[获取SOP执行结果]
    E --> F[根据执行结果来回复客户]
    F --> G[客户继续沟通]
    G --> A


Search Vs Explore

作为一名专业律师,我在双显示器屏幕前度过了数千小时。我的右屏用于“真正”的工作,比如给客户起草法律意见书或诉状,这项工作专业性要求很高。我的左屏用于辅助我的工作,比如翻阅数百页的尽职调查报告,从庞大的案例库中搜寻相关判例,并对成千上万的证据材料进行梳理分析,目的仅在于挖掘出少数几个关键的法律问题和证据线索。这项工作,既不具挑战性也不令人愉快,但确是现阶段必要的。

索性我们现在进入新的SaaS时代,

从软件即服务(Software-as-a-Service)向服务即软件(Service-as-a-Software)转变。到目前为止,软件帮助知识工作者更好地完成他们的工作……但在不远的将来,一个AI agent将完全为他们完成这些工作。— https://a16z.com/announcement/investing-in-hebbia/

目前文档搜索类产品的局限性集中在:

1.用户提出的问题太复杂,需要深层次分析能力,**在现有文档中没有回答,**它们应该是人工智能自行生成的全新见解。

2.**搜索过程太复杂了,**需要很多步骤(不仅仅是一次搜索)才能得到一个可以直接使用的结果。

3.答案不是单纯的文字,而是图表、表格、图像,无法直接输出结构化数据。

4.输出结果非常重要,容错率很低,因此过程不能依赖黑匣子系统。

Hebbia以引用的形式提供答案,并且所有的这些都在一个电子表格的形式中呈现。对于每个文档(行!),你将得到一组问题(列!)的答案,除了总结每个查询外,它还展示了得出结论的来源和各个步骤,并允许用户验证,提供AI处理流程的透明度,建立用户对输出结果的信任和信心。

证明者和验证者

OpenAI 发现 如果一个比较弱的小型模型能被大模型的方案说服,那么这个方案人类更容易理解。

知识图谱增加可解释性

https://neo4j.com/labs/genai-ecosystem/llm-graph-builder/

有向无环图Plan