[toc]
AI Agent笔记

AI Agent 介绍
AI Agent(人工智能代理) 是一个能够感知环境、进行决策并执行行动,以达成特定目标的智能软件实体,它不仅仅是回答问题的聊天机器人,更是能够动手做事的智能执行者。
什么是 Agent?
AI Agent(人工智能代理)本质是自动执行任务的程序,核心在于让模型不只回答问题,而是按步骤完成动作。
AI Agent = LLM (大脑,大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。
- LLM (大脑,大语言模型): 作为核心推理机,负责理解意图、生成文本和进行逻辑判断。
- Planning (规划): 能够将复杂的目标(如"帮我解题")拆解成可执行的步骤。
- Memory (记忆): 记录对话历史(短期)和存储专业知识库(长期)。
- Tool Use (工具使用): 能够根据需求去查谷歌搜索、读数据库、甚至跑 Python 代码。

传统程序和 AI Agent 的区别
传统的软件程序遵循固定的指令流程:输入 → 处理 → 输出。
而AI Agent 则更像一个有自主性的员工,它能够:
- 理解任务目标:明白你想要什么结果
- 制定计划:思考如何达成目标
- 使用工具:调用各种资源和 API 执行任务
- 自我调整:根据反馈优化策略
- 持续执行:直到完成任务或遇到无法解决的问题
传统AI模型和AI Agent的区别
AI Agent 本身是在传统AI模型的基础上,加入了规划、记忆和工具使用等功能,使得它能够更智能、更灵活地完成任务。
| 维度 | 传统 AI 模型 | AI Agent |
|---|---|---|
| 交互方式 | 单次输入输出 | 多轮对话、持续交互 |
| 决策能力 | 基于输入直接推理 | 规划、反思、迭代优化 |
| 工具使用 | 无法主动调用外部工具 | 可调用搜索、计算器、API 等 |
| 记忆机制 | 仅限当前上下文 | 短期+长期记忆 |
| 目标导向 | 完成单一预测任务 | 完成复杂目标 |
| 错误处理 | 输出即结束 | 可自我纠错、重试 |
AI Agent 的发展历程

阶段一:概念萌芽期(1950s-2010s)
- 1950s:图灵测试提出,Agent 概念初现
- 1990s:多智能体系统研究兴起
- 2000s:规则驱动的聊天机器人(如 ELIZA)
- 特点:基于规则,能力有限
阶段二:深度学习赋能期(2010s-2020)
- 2012:深度学习在 ImageNet 取得突破
- 2017:Transformer 架构问世
- 2018-2020:BERT、GPT 系列模型发布
- 特点:理解能力提升,但仍是"被动工具"
阶段三:大模型 Agent 爆发期(2021-至今)
- 2022.11:ChatGPT 发布,展现强大对话能力
- 2023.03:GPT-4 + Plugins,首次实现工具调用
- 2023.03:AutoGPT 开源,自主 Agent 概念验证
- 2023.05:LangChain、LlamaIndex 等框架成熟
- 2024-2025:企业级 Agent 应用大规模落地
- 特点:真正的自主性、工具使用、任务规划
AI Agent 的主要类型与应用场景
根据复杂度和自主性,AI Agent 可以分为不同类型,应用于各种场景。
| 类型 | 特点 | 应用场景举例 |
|---|---|---|
| 单一任务 Agent | 专注于完成一件特定事情,功能专一。 | 智能客服机器人、自动数据录入助手、个人日程提醒助手。 |
| 多模态 Agent | 能理解和处理文本、图像、语音等多种信息。 | 根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要。 |
| 自主 Agent | 拥有较高自主性,可长期运行并主动管理复杂目标。 | 自动驾驶汽车、自动化股票交易系统、智能游戏 NPC(非玩家角色)。 |
| 模拟 Agent | 在虚拟环境中进行模拟、测试和训练。 | 训练机器人完成抓取任务、模拟城市交通流量优化、新药研发的分子模拟。 |
AI Agent 的工作原理
一个典型的 AI Agent 由三个关键部分协同工作。
AI Agent = LLM (大脑,大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。
- LLM (大脑,大语言模型):是Agent 的决策中心和推理引擎。
- 理解用户输入的目标和上下文,分析当前状况,然后决定下一步该做什么,它负责规划和分解复杂任务。
- 就像公司的 CEO 或指挥官,负责战略思考、任务规划和下达指令。
- Planning (规划):是Agent 的手和脚,是其能力的延伸。
- 一个个具体的函数或 API,让 Agent 能够与外部世界互动。例如:搜索 运行代码 等。
- 就像员工可用的 各种办公软件和技能,如 Excel、浏览器、电话、打印机。
- Memory (记忆): 记录工作过程,保证任务的连贯性。
- 记录对话历史(短期)和存储专业知识库(长期)。
- 就像员工的 工作笔记和项目档案,避免重复劳动,让每次工作都能基于之前的经验。
如图所示 
