1. 引言:智能体时代的来临 人类擅长处理复杂的模式识别任务。然而,我们往往也需要借助工具——如书籍、 Google 搜索 或计算器——来补充我们的先验知识,从而做出最终的判断。正如人类一样, 生成式 AI 模型也可以通过训练来使用工具,以获取实时信息或建议现实世界的行动。 例如,模型可以利用数据库检索工具来访问特定信息,如客户的购买历史,从而生成量身定制的购物推荐。或者,根据用户的查询,模型可以进行各种 API 调用,向同事发送电子邮件回复,或代表您完成一笔金融交易。为了做到这一点,模型不仅必须能够访问一组外部工具,还需要能够以自主的方式计划和执行任何任务。 这种推理、逻辑和外部信息访问能力的结合,都与生成式 AI 模型相关联,从而引出了智能体 (Agent) 的概念,即一个扩展了生成式 AI 模型独立能力的程序。本白皮书将更详细地深入探讨所有这些方面及相关内容。 2. 什么是智能体 (Agent)? 智能体是一个应用程序,它能够通过观察周围环境,并利用其可支配的工具来尝试实现预设的目标。 智能体具有自主性,可以独立于人类干预而行动,特别是在为其设定了明确的目标或任务的情况下。即使没有明确的指令,智能体也能主动地思考如何达成最终目标。虽然人工智能中智能体的概念相当宽泛且强大,但本白皮书着重于探讨在本文发表之时,生成式 AI 模型能够构建的特定类型的智能体。 智能体的行为、动作和决策由其内部的 认知架构 驱动。一个典型的智能体认知架构包含以下三个核心组件: 2.1 模型 (The Model) 在智能体的范畴内, 模型是指在智能体运行过程中充当核心决策者的语言模型 (LM)。 它可以是一个或多个不同规模(小型或大型)的 LM,并且能够理解并执行基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。模型可以是通用的、多模态的,也可以根据特定智能体架构的需求进行微调。为了获得最佳的生产效果,应选择最适合目标应用的模型,并且该模型最好已经过与认知架构中计划使用的工具相关的数据签名的训练。 需要注意的是,模型通常不使用智能体的特定配置设置(即工具选择、编排/推理设置)进行训练。然而,可以通过向模型提供展示智能体能力的示例,包括智能体在各种上下文中使用特定工具或推理步骤...