Agent基础
# 01-什么是AI Agent(智能体)
Agent的核心思想是使用预压模型来选择要采取的一系列操作。在Agent中,语言模型被用作推理引擎来确认要采用哪些操作以及按照什么顺序。相对比传统机械或软件被动的给予输入->做出输出的模式,Agent由于更加强调自主的发现问题、确定目标、构想方案、选择方案、执行方案、检查更新的特性,因此可以被认为是一类拥有自主智能的实体,而被广泛称为智能体。
非智能体、智能体以及人类创作者的工作流呈现显著差异:
| 主体类型 | 执行特征 | 流程剖析 |
|---|---|---|
| Non-Agent(非智能体) | 线性单次输出 | 用户输入提示词→大模型直接生成终稿(无迭代过程) |
| AI Agent(智能体 | 多阶段认知闭环 | 规划大纲→检索资料→生成初稿→自检修订→循环优化→输出终稿(模拟人类创作思维) |
| 人类创作者 | 认知驱动型工作流 | 构思框架→信息搜集→内容填充→交叉审核→反复润色(与智能体流程高度同构) |
AI Agent的核心是通过任务解构-执行-反思的认知闭环,实现对人类工作范式的数字孪生
AI行业大牛吴恩达认为:AI Agent的终极演变方向是构建具备完整认知能力的数字主题。技术架构可以分为四个核心
- 反思:AI Agent 模拟人类自我修正行为,如:学生完成作业后的自我检查过程。突破单次推理局限,建立错误检测-反馈-修正的增强回路
- 工具调用: AI Agent判断自身边界能力,选择合适的AI 工具来提供大模型的能力边界
- 规划:AI Agent在解决复杂问题时,为达到目标制定合理的行为计划能力,从而对任务进行分解。
- 多智能体协同:多个AI Agent的组合应用,
# 02-AI Agent的主流设计模式有哪些
当前主流的AI Agent都是基于LLM大模型 + 一整套AIGC算法解决方案(Prompts工程、Function Call、MCP、AI工程策略、AI功能服务等)构建而成,同事蔚来还会持续扩展其内涵。
基于上面额框架,接着再形成了5种主流的AI Agent设计模式:
- 反射模式:这个模式的核心运作机制是构建自检-纠错迭代环,AI Agent会审查其工作及发现错误并迭代,直到生成最终输出结果。
- 工具使用模式:AI Agent允许LLM大模型通过使用外部工具获得更多信息,包括调用API,使用AI服务,查询矢量数据库、执行Python脚本等。这使得LLM大模型不仅仅依赖于其内部知识,还可以获得互联网世界的庞大实时数据流来扩展知识边界。
- ReAct模式: ReAct模式结合了反射模式与工具使用模式,这使其成为当前AI Agent使用的最强大的模式之一。 AI Agent既可以自我思考,自我纠错,还可以使用工具与世界交互。
- 规划模式:在这种模式下,AI Agent根据任务的复杂程度,设计任务计划流程,对任务进行细分,再对细分子任务动用ReAct模式进行处理
- 多智能体模式:在这个模式下,AI Agent系统中包括多个子Agent,每个子Agent都分配有一个专用的角色和任务,同时每个子Agent还可以访问外部工具进行综合工作。最后,所有子Agent协同工作以提供最终结果,同时根据需要将细分任务委派给其他子Agent,形成一个复杂的”AI Agent协同社区“。
# 03-什么是AI Agent中的function call?
在AI Agent中,Function Call(函数调用)本质上是智能体通过LLM大模型调用外部能力(API、AI服务、AI工具、数据库、搜索引擎等)并进行整合处理的闭环处理。
买一个红色毛衣 流程:需求解析-> 工具决策->结果整合
Function Call 与传统API调用的本质区别
| 维度 | 传统API调用 | Agent Function Call |
|---|---|---|
| 输入格式 | 结构化参数 | 自然语言指令 |
| 调用方 | 开发者硬编码触发 | Agent自主决策触发 |
| 错误处理 | 显示异常捕获 | 反射机制自动重试、替换工具 |
| 协议依赖 | 固定通信协议(REST、gRPC) | 支持MCP等自适应协议 |
# 04-什么是AI Agent中的MCP
MCP全称:Model Context Protocal,构建了AI大模型与外部应用程序间的上下文交互规范,这使得AI开发者能够以一致的规范将各种实时数据源、AI工具与外接功能连接到AIGC大模型中。
MCP由三个核心组件构成:Host、Client和Server、
Host:AI Agent作为Host,负责接受我们的提问与其中的AIGC大模型交互。Client:当AIGC大模型需要确定毛衣购买方案时,Host内置的MCP Client会被激活。这个Client负责与适当的MCP Server建立连接。Server:在这个例子中,毛衣购买方案MCP Server会被调用。它负责执行实际的毛衣购买方案确定操作,访问对应的电商API,并返回找到的毛衣购买方案。
整个流程:我们的问题->AI Agent(Client) ->AIGC模型 -> 需要购买的毛衣信息 -> MCP Client 连接 -> 毛衣购买MCP Server -> 执行操作 -> 返回结果 -> AIGC大模型生成回答 -> 显示在AI Agent上
# 05-AI Agent中function call 和MCP中的区别是什么?
在AI Agent领域,MCP可以说是function call的更进一步延伸和封装
function call解决了AIGC大模型与外部应用工具交互的问题,而MCP在此基础上对交互的整个流程进行规范化,从而解决海量数据、AIGC大模型、AI应用工具之间的“孤岛问题”
# 06-AI Agent中的Agent2Agent(A2A)
Agent2Agent(A2A)协议是驱动多智能体生态系统的核心通信框架,其本质是AI Agent之间的标准化协议,也是Agent之间的"社会契约"
在没有A2A协议之前,不同的Agent A (ds) 与Agent B(GPT-4o) 输出格式各异,无法进行协同合作,形成了很多的AI Agent孤岛
因此通过A2A协议,为异构AI Agent之间的互通与交互提供通用的语言:

# 07-AI Agent中的A2A和MCP的区别是什么?
MCP协议解决的是AI Agent和各种外部工具/资源之间的交互问题,可以看做是一个AI应用商店协议,主要关注单个AI Agent如何更好的使用外部工具。
而A2A协议解决的是AI Agent 和AI Agent之间的交互问题,主要关注不同的AI Agent之间怎么协作的问题 总的来说,他们是互补的,共同构建AI Agent的生态
# 08-AI Agent系统提示词有哪些作用
系统提示词(sys prompt)是 AI Agent的核心控制中枢
- 作用一:角色定义与人格建模
# 法律顾问Agent示例
"""
身份:环球律所高级合伙人(执业15年)
专长领域:跨境并购、知识产权诉讼
语言风格:严谨专业,引用法条需标注出处
"""
- 作用二: 能力边界锁定
# 工具调用白名单
"""
可用工具:
- contract_review:合同审查(输入PDF→输出风险报告)
- clause_search:条款库检索(关键词→相似判例)
禁用行为:
- 生成法律效力承诺
- 解释未生效草案
"""
- 作用三:认识框架植入
| 任务类型 | 预设思维链 |
|---|---|
| 合同审查 | 主体校验→权责分析→违约条款评估 |
| 法律咨询 | 事实提取→法条匹配→解决方案生成 |
- 作用四:动态上下文管理
"""
记忆规则:
- 保留核心实体(公司名/金额/时间节点)
- 丢弃情绪化表述(用户抱怨等)
- 持久化关键日期(合同截止日)
"""
# 09-System Prompt 在AI Agent如何生效
在AI Agent中,定义了三种核心消息类型:System Prompt、Assistant Prompt和User Prompt,三折功能明确区分:
- User Prompt: 代表用户的值机输入问题
- Assistant Prompt: 代表大模型生成的回复问题
- System Prompt: 用于设定大模型的角色、基础指令等核心配置
那么, System Prompt是如何在AI Agent中生效
在AIAgent中,System Prompt主要是起到静默作用,通常被置于用户输入之前,与Assistant Prompt和User Prompt组合输入到大模型中
System Prompt与User Prompt的关键区别在于其位置与优先级: System Prompt 固定设置在输入文本序列的开端。
一个完整的多轮对话提示词通常按以下模式拼接:
System Prompt -> User Prompt -> Assistant Prompt -> User Prompt... -> Assistant Prompt
在此结构中,Assisant Prompt的主要作用是向大模型展示历史对话记录,并明确标注哪些内容源于用户的输入。通过这种结构模式数据预训练和微调的大模型能够理解:这些并非即时用户输入,而是对话历史。这有利于大模型更好把握上下文信息,从而更准确回应后续问题。
- 将核心角色定义和规则置于System Prompt中
- 用户交互内容放在User Prompt里
[
{
role: 'system',
content: this.cachePrompt,
},
{
role: 'user',
content: query,
},
];
# 10-AI Search和普通Search有什么区别
本质区别在于是否具备语义理解、动态决策和主动推动能力
| 维度 | 传统搜索 | AI Search |
|---|---|---|
| 技术基础 | 关键词匹配 + 倒排索引 | LLM + 知识图谱 + 强化学习 |
| 交互方式 | 用户输入明确关键词->返回匹配结果 | 自然语言提问 -> 理解意图 -> 动态推理答案 |
| 输出形式 | 链接列表(需用户二次筛选) | 结构化答案 + 多模态结果 + 溯源依据 |
| 目的 | 快速检索已有的信息 | 解决问题(甚至执行动作) |