[toc]

AI Agent笔记

AI Agent 介绍

AI Agent（人工智能代理）是一个能够感知环境、进行决策并执行行动，以达成特定目标的智能软件实体，它不仅仅是回答问题的聊天机器人，更是能够动手做事的智能执行者。

什么是 Agent？

AI Agent（人工智能代理）本质是自动执行任务的程序，核心在于让模型不只回答问题，而是按步骤完成动作。

AI Agent = LLM (大脑，大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。

传统程序和 AI Agent 的区别

传统的软件程序遵循固定的指令流程：输入 → 处理 → 输出。

而AI Agent 则更像一个有自主性的员工，它能够：

传统AI模型和AI Agent的区别

AI Agent 本身是在传统AI模型的基础上，加入了规划、记忆和工具使用等功能，使得它能够更智能、更灵活地完成任务。

AI Agent 的发展历程

阶段一：概念萌芽期（1950s-2010s）

阶段二：深度学习赋能期（2010s-2020）

阶段三：大模型 Agent 爆发期（2021-至今）

AI Agent 的主要类型与应用场景

根据复杂度和自主性，AI Agent 可以分为不同类型，应用于各种场景。

类型	特点	应用场景举例
单一任务 Agent	专注于完成一件特定事情，功能专一。	智能客服机器人、自动数据录入助手、个人日程提醒助手。
多模态 Agent	能理解和处理文本、图像、语音等多种信息。	根据草图生成网站代码、分析医学影像并生成报告、视频内容自动摘要。
自主 Agent	拥有较高自主性，可长期运行并主动管理复杂目标。	自动驾驶汽车、自动化股票交易系统、智能游戏 NPC（非玩家角色）。
模拟 Agent	在虚拟环境中进行模拟、测试和训练。	训练机器人完成抓取任务、模拟城市交通流量优化、新药研发的分子模拟。

一个典型的 AI Agent 由三个关键部分协同工作。

AI Agent = LLM (大脑，大语言模型) + Planning (规划) + Tool use (工具使用) + Memory (记忆)。

LLM (大脑，大语言模型)：是Agent 的决策中心和推理引擎。
- 理解用户输入的目标和上下文，分析当前状况，然后决定下一步该做什么，它负责规划和分解复杂任务。
- 就像公司的 CEO 或指挥官，负责战略思考、任务规划和下达指令。
Planning (规划)：是Agent 的手和脚，是其能力的延伸。
- 一个个具体的函数或 API，让 Agent 能够与外部世界互动。例如：搜索运行代码等。
- 就像员工可用的各种办公软件和技能，如 Excel、浏览器、电话、打印机。
Memory (记忆)：记录工作过程，保证任务的连贯性。
- 记录对话历史（短期）和存储专业知识库（长期）。
- 就像员工的工作笔记和项目档案，避免重复劳动，让每次工作都能基于之前的经验。

如图所示