Skip to content
🗂️ 文章分类: AI  
🏷️ 文章标签: LLM  
📝 文章创建时间: 2026-03-13
🔥 文章最后更新时间:2026-03-13

[toc]

大语言模型(LLM)笔记

大语言模型(LLM) 介绍

大语言模型(LLM) 是一个经过海量文本数据训练的深度学习模型,它能够理解和生成人类语言。也是构成AI Agent的基础。

大语言模型通过分析互联网上的海量文本,学习到语言的统计规律和知识,当它收到输入时,会根据学习到的规律,生成最合理的续写。

如图所示,大语言模型(LLM) 的工作过程。 ai_202603131004.png

大语言模型的"大"体现在以下几个方面:

  • 参数规模大: 模型内部有数百亿甚至上万亿个可调节的旋钮(即参数)。这些参数记录了学到的语言知识。
  • 训练数据大:用于训练的文本数据量巨大,是整个互联网公开信息的精华。通过分析海量文本数据,学习到语言的统计规律和知识。

大语言模型的局限性

  • 大语言模型本身无法获取实时数据,只能根据训练时的知识生成文本。
  • 大语言模型在训练过程中可能会受到训练数据中的偏见影响,导致模型生成的文本中存在偏见。
  • 大语言模型是一个黑盒子模型,很难解释模型是如何生成文本的。这使得模型的透明度和可解释性较差。

大语言模型(LLM) 底层: Transformer 架构

LLM 的惊人能力,离不开其底层核心技术——Transformer 架构。

Transformer 架构是一种基于自注意力机制的神经网络架构,它能够处理序列数据(如文本),并在序列中进行并行计算。

Transformer的核心思想

Transformer的核心思想是利用自注意力机制,将输入文本中的每个元素与其他元素进行注意力计算,从而捕捉到文本中不同元素之间的关系。

举个例子:假设你要求大语言模型写一篇关于太阳系的文章。

  • 输入处理:大语言模型会将输入文本(如"写一篇关于太阳系的文章")先拆分为token(如"写"、"一篇"、"关于"、"太阳系"、"的"、"文章"),然后将每个token转换为模型可以理解的向量表示。
  • 理解上下文:由于大语言模型内部已经提前学习了海量文本数据,它在学习的过程中,会根据上下文的信息,已经理解了每个token的含义。例如,它知道"关于"通常是描述或介绍的关键词,而"太阳系"则是一个描述的关键词,"文章"则是一个生成文本的token关键词。并且它还会根据当前token,找出其他与之相关的关联词(如太阳,行星什么的)。即进行重复关联。
  • 组织语言:大语言模型根据重复关联得到的信息,进行组织和生成文本。例如,它可能会根据"关于"和"太阳系"的关联,生成"太阳系是一个由太阳、行星、卫星等组成的天体系统"。

Transformer 的工作方式如图所示

ai_202603131020.png

Prompt(提示词)工程

什么是 Prompt(提示词)?

Prompt(提示词)是你给大语言模型(LLM)的输入文本,它告诉模型你想要什么,就像给助理下达指令,指令越清晰,结果越好。

Prompt(提示词)的质量直接决定了回答的质量,写好 Prompt(提示词) 就像给你的 AI 助手下达清晰的指令。

一个好的 Prompt(提示词)的基本原则

  • 指令清晰: 提示词应该简洁、直接,避免使用复杂的语言。
  • 明确具体,包含必要信息: 避免模糊。不要说"写点关于狗的东西",而应该说"用生动活泼的语言,为 6-8 岁儿童写一段 100 字左右的关于金毛寻回犬性格特点的简短介绍。"
  • 提供上下文:告诉模型你的身份、背景和目标。例如:"你是一位经验丰富的 Python 编程导师。请向一个刚学完基本语法的初学者解释什么是列表推导式,并提供一个简单的例子。"
  • 分步思考:对于复杂问题,鼓励模型一步步推理。例如:要解决这个问题,我们先计算第一步...,然后第二步...,最后得出结论...

什么是 Prompt(提示词)工程?

提示词工程就是一门关于如何构造和优化你的提示词的工程,目的是最大化 AI 模型的性能,让它产出更符合你需求的、高质量的输出。

举个例子:

  • 提示词:"写一篇关于猫的文章。"
  • 提示词工程优化后:"你是一位宠物科普作家。请以轻松幽默的口吻,为养猫新手写一篇 800 字左右的文章,重点介绍如何选择第一只猫和接猫回家前三天的必备准备。"

提示词工程的要素

一个有效的提示词通常包含以下几个要素。

  • 角色与背景:为 AI 设定一个身份或场景,引导其使用特定的知识体系和表达方式。
  • 任务描述:清晰、具体地说明你要 AI 完成什么任务。这是提示词的核心。
  • 约束条件: 说明任务的限制条件。
  • 步骤:如果任务比较复杂,分解为多个步骤。例如:"第一步...,然后第二步...,最后得出结论..."
  • 输出格式:指定你期望的输出格式,如 JSON、Markdown 等。
  • 输出示例:提供一个或多个符合要求的输出示例,帮助模型理解你期望的输出样式。

举个例子:

  • 提示词:"写一下我们这个新款智能水杯的特点。"
  • 提示词工程优化后:
    • 【角色】你是一位顶尖的电子产品营销文案写手。
    • 【任务】为我公司的新款 HydraTech 智能保温杯撰写一段吸引人的产品特点描述。
    • 【约束】描述需面向都市白领群体,突出健康提醒、长效保温、设计简约三大核心卖点,语言简洁有力,充满科技感。
    • 【格式】最终输出为一段不超过 150 字的文案。