Skip to content
🗂️ 文章分类: AI  
🏷️ 文章标签: AI  AI Agent  
📝 文章创建时间: 2026-03-12
🔥 文章最后更新时间:2026-03-12

[toc]

AI Agent笔记

ai_202603121648.jpeg

AI Agent 介绍

AI Agent(人工智能代理) 是一个能够感知环境、进行决策并执行行动,以达成特定目标的智能软件实体,它不仅仅是回答问题的聊天机器人,更是能够动手做事的智能执行者。

什么是 Agent?

AI Agent(人工智能代理)本质是自动执行任务的程序,核心在于让模型不只回答问题,而是按步骤完成动作。

AI Agent = LLM (大脑,大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。

  • LLM (大脑,大语言模型): 作为核心推理机,负责理解意图、生成文本和进行逻辑判断。
  • Planning (规划): 能够将复杂的目标(如"帮我解题")拆解成可执行的步骤。
  • Memory (记忆): 记录对话历史(短期)和存储专业知识库(长期)。
  • Tool Use (工具使用): 能够根据需求去查谷歌搜索、读数据库、甚至跑 Python 代码。

ai_2026-03-12_173644_491.png

传统程序和 AI Agent 的区别

传统的软件程序遵循固定的指令流程:输入 → 处理 → 输出。

而AI Agent 则更像一个有自主性的员工,它能够:

  • 理解任务目标:明白你想要什么结果
  • 制定计划:思考如何达成目标
  • 使用工具:调用各种资源和 API 执行任务
  • 自我调整:根据反馈优化策略
  • 持续执行:直到完成任务或遇到无法解决的问题

传统AI模型和AI Agent的区别

AI Agent 本身是在传统AI模型的基础上,加入了规划、记忆和工具使用等功能,使得它能够更智能、更灵活地完成任务。

维度传统 AI 模型AI Agent
交互方式单次输入输出多轮对话、持续交互
决策能力基于输入直接推理规划、反思、迭代优化
工具使用无法主动调用外部工具可调用搜索、计算器、API 等
记忆机制仅限当前上下文短期+长期记忆
目标导向完成单一预测任务完成复杂目标
错误处理输出即结束可自我纠错、重试

AI Agent 的发展历程

ai_2026-03-12_175549_395.png

阶段一:概念萌芽期(1950s-2010s)

  • 1950s:图灵测试提出,Agent 概念初现
  • 1990s:多智能体系统研究兴起
  • 2000s:规则驱动的聊天机器人(如 ELIZA)
  • 特点:基于规则,能力有限

阶段二:深度学习赋能期(2010s-2020)

  • 2012:深度学习在 ImageNet 取得突破
  • 2017:Transformer 架构问世
  • 2018-2020:BERT、GPT 系列模型发布
  • 特点:理解能力提升,但仍是"被动工具"

阶段三:大模型 Agent 爆发期(2021-至今)

  • 2022.11:ChatGPT 发布,展现强大对话能力
  • 2023.03:GPT-4 + Plugins,首次实现工具调用
  • 2023.03:AutoGPT 开源,自主 Agent 概念验证
  • 2023.05:LangChain、LlamaIndex 等框架成熟
  • 2024-2025:企业级 Agent 应用大规模落地
  • 特点:真正的自主性、工具使用、任务规划

AI Agent 的主要类型与应用场景

根据复杂度和自主性,AI Agent 可以分为不同类型,应用于各种场景。

类型特点应用场景举例
单一任务 Agent专注于完成一件特定事情,功能专一。智能客服机器人、自动数据录入助手、个人日程提醒助手。
多模态 Agent能理解和处理文本、图像、语音等多种信息。根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要。
自主 Agent拥有较高自主性,可长期运行并主动管理复杂目标。自动驾驶汽车、自动化股票交易系统、智能游戏 NPC(非玩家角色)。
模拟 Agent在虚拟环境中进行模拟、测试和训练。训练机器人完成抓取任务、模拟城市交通流量优化、新药研发的分子模拟。

AI Agent 的工作原理

一个典型的 AI Agent 由三个关键部分协同工作。

AI Agent = LLM (大脑,大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。

  • LLM (大脑,大语言模型):是Agent 的决策中心和推理引擎。
    • 理解用户输入的目标和上下文,分析当前状况,然后决定下一步该做什么,它负责规划和分解复杂任务。
    • 就像公司的 CEO 或指挥官,负责战略思考、任务规划和下达指令。
  • Planning (规划):是Agent 的手和脚,是其能力的延伸。
    • 一个个具体的函数或 API,让 Agent 能够与外部世界互动。例如:搜索 运行代码 等。
    • 就像员工可用的 各种办公软件和技能,如 Excel、浏览器、电话、打印机。
  • Memory (记忆): 记录工作过程,保证任务的连贯性。
    • 记录对话历史(短期)和存储专业知识库(长期)。
    • 就像员工的 工作笔记和项目档案,避免重复劳动,让每次工作都能基于之前的经验。

如图所示 ai_2026-03-24_162605_454.png