[toc]

大语言模型(LLM)笔记

大语言模型(LLM) 介绍

大语言模型(LLM) 是一个经过海量文本数据训练的深度学习模型，它能够理解和生成人类语言。也是构成AI Agent的基础。

大语言模型通过分析互联网上的海量文本，学习到语言的统计规律和知识，当它收到输入时，会根据学习到的规律，生成最合理的续写。

如图所示，大语言模型(LLM) 的工作过程。

大语言模型的"大"体现在以下几个方面：

大语言模型的局限性

LLM 的惊人能力，离不开其底层核心技术——Transformer 架构。

Transformer 架构是一种基于自注意力机制的神经网络架构，它能够处理序列数据（如文本），并在序列中进行并行计算。

Transformer的核心思想

Transformer的核心思想是利用自注意力机制，将输入文本中的每个元素与其他元素进行注意力计算，从而捕捉到文本中不同元素之间的关系。

举个例子：假设你要求大语言模型写一篇关于太阳系的文章。

输入处理：大语言模型会将输入文本（如"写一篇关于太阳系的文章"）先拆分为token（如"写"、"一篇"、"关于"、"太阳系"、"的"、"文章"），然后将每个token转换为模型可以理解的向量表示。
理解上下文：由于大语言模型内部已经提前学习了海量文本数据，它在学习的过程中，会根据上下文的信息，已经理解了每个token的含义。例如，它知道"关于"通常是描述或介绍的关键词，而"太阳系"则是一个描述的关键词，"文章"则是一个生成文本的token关键词。并且它还会根据当前token，找出其他与之相关的关联词(如太阳，行星什么的)。即进行重复关联。
组织语言：大语言模型根据重复关联得到的信息，进行组织和生成文本。例如，它可能会根据"关于"和"太阳系"的关联，生成"太阳系是一个由太阳、行星、卫星等组成的天体系统"。

Transformer 的工作方式如图所示

什么是 Prompt（提示词）？

Prompt（提示词）是你给大语言模型(LLM)的输入文本，它告诉模型你想要什么，就像给助理下达指令，指令越清晰，结果越好。

Prompt（提示词）的质量直接决定了回答的质量，写好 Prompt（提示词）就像给你的 AI 助手下达清晰的指令。

一个好的 Prompt（提示词）的基本原则

指令清晰：提示词应该简洁、直接，避免使用复杂的语言。
明确具体,包含必要信息：避免模糊。不要说"写点关于狗的东西"，而应该说"用生动活泼的语言，为 6-8 岁儿童写一段 100 字左右的关于金毛寻回犬性格特点的简短介绍。"
提供上下文：告诉模型你的身份、背景和目标。例如："你是一位经验丰富的 Python 编程导师。请向一个刚学完基本语法的初学者解释什么是列表推导式，并提供一个简单的例子。"
分步思考：对于复杂问题，鼓励模型一步步推理。例如：要解决这个问题，我们先计算第一步...，然后第二步...，最后得出结论...

什么是 Prompt（提示词）工程？

提示词工程就是一门关于如何构造和优化你的提示词的工程，目的是最大化 AI 模型的性能，让它产出更符合你需求的、高质量的输出。

举个例子：

提示词工程的要素

一个有效的提示词通常包含以下几个要素。

举个例子：

提示词："写一下我们这个新款智能水杯的特点。"
提示词工程优化后：
- 【角色】你是一位顶尖的电子产品营销文案写手。
- 【任务】为我公司的新款 HydraTech 智能保温杯撰写一段吸引人的产品特点描述。
- 【约束】描述需面向都市白领群体，突出健康提醒、长效保温、设计简约三大核心卖点，语言简洁有力，充满科技感。
- 【格式】最终输出为一段不超过 150 字的文案。