[toc]
大语言模型(LLM)笔记
大语言模型(LLM) 介绍
大语言模型(LLM) 是一个经过海量文本数据训练的深度学习模型,它能够理解和生成人类语言。也是构成AI Agent的基础。
大语言模型通过分析互联网上的海量文本,学习到语言的统计规律和知识,当它收到输入时,会根据学习到的规律,生成最合理的续写。
如图所示,大语言模型(LLM) 的工作过程。 
大语言模型的"大"体现在以下几个方面:
- 参数规模大: 模型内部有数百亿甚至上万亿个可调节的旋钮(即参数)。这些参数记录了学到的语言知识。
- 训练数据大:用于训练的文本数据量巨大,是整个互联网公开信息的精华。通过分析海量文本数据,学习到语言的统计规律和知识。
大语言模型的局限性
- 大语言模型本身无法获取实时数据,只能根据训练时的知识生成文本。
- 大语言模型在训练过程中可能会受到训练数据中的偏见影响,导致模型生成的文本中存在偏见。
- 大语言模型是一个黑盒子模型,很难解释模型是如何生成文本的。这使得模型的透明度和可解释性较差。
大语言模型(LLM) 底层: Transformer 架构
LLM 的惊人能力,离不开其底层核心技术——Transformer 架构。
Transformer 架构是一种基于自注意力机制的神经网络架构,它能够处理序列数据(如文本),并在序列中进行并行计算。
Transformer的核心思想
Transformer的核心思想是利用自注意力机制,将输入文本中的每个元素与其他元素进行注意力计算,从而捕捉到文本中不同元素之间的关系。
举个例子:假设你要求大语言模型写一篇关于太阳系的文章。
- 输入处理:大语言模型会将输入文本(如"写一篇关于太阳系的文章")先拆分为token(如"写"、"一篇"、"关于"、"太阳系"、"的"、"文章"),然后将每个token转换为模型可以理解的向量表示。
- 理解上下文:由于大语言模型内部已经提前学习了海量文本数据,它在学习的过程中,会根据上下文的信息,已经理解了每个token的含义。例如,它知道"关于"通常是描述或介绍的关键词,而"太阳系"则是一个描述的关键词,"文章"则是一个生成文本的token关键词。并且它还会根据当前token,找出其他与之相关的关联词(如太阳,行星什么的)。即进行重复关联。
- 组织语言:大语言模型根据重复关联得到的信息,进行组织和生成文本。例如,它可能会根据"关于"和"太阳系"的关联,生成"太阳系是一个由太阳、行星、卫星等组成的天体系统"。
Transformer 的工作方式如图所示

Prompt(提示词)工程
什么是 Prompt(提示词)?
Prompt(提示词)是你给大语言模型(LLM)的输入文本,它告诉模型你想要什么,就像给助理下达指令,指令越清晰,结果越好。
Prompt(提示词)的质量直接决定了回答的质量,写好 Prompt(提示词) 就像给你的 AI 助手下达清晰的指令。
一个好的 Prompt(提示词)的基本原则
- 指令清晰: 提示词应该简洁、直接,避免使用复杂的语言。
- 明确具体,包含必要信息: 避免模糊。不要说"写点关于狗的东西",而应该说"用生动活泼的语言,为 6-8 岁儿童写一段 100 字左右的关于金毛寻回犬性格特点的简短介绍。"
- 提供上下文:告诉模型你的身份、背景和目标。例如:"你是一位经验丰富的 Python 编程导师。请向一个刚学完基本语法的初学者解释什么是列表推导式,并提供一个简单的例子。"
- 分步思考:对于复杂问题,鼓励模型一步步推理。例如:要解决这个问题,我们先计算第一步...,然后第二步...,最后得出结论...
什么是 Prompt(提示词)工程?
提示词工程就是一门关于如何构造和优化你的提示词的工程,目的是最大化 AI 模型的性能,让它产出更符合你需求的、高质量的输出。
举个例子:
- 提示词:"写一篇关于猫的文章。"
- 提示词工程优化后:"你是一位宠物科普作家。请以轻松幽默的口吻,为养猫新手写一篇 800 字左右的文章,重点介绍如何选择第一只猫和接猫回家前三天的必备准备。"
提示词工程的要素
一个有效的提示词通常包含以下几个要素。
- 角色与背景:为 AI 设定一个身份或场景,引导其使用特定的知识体系和表达方式。
- 任务描述:清晰、具体地说明你要 AI 完成什么任务。这是提示词的核心。
- 约束条件: 说明任务的限制条件。
- 步骤:如果任务比较复杂,分解为多个步骤。例如:"第一步...,然后第二步...,最后得出结论..."
- 输出格式:指定你期望的输出格式,如 JSON、Markdown 等。
- 输出示例:提供一个或多个符合要求的输出示例,帮助模型理解你期望的输出样式。
举个例子:
- 提示词:"写一下我们这个新款智能水杯的特点。"
- 提示词工程优化后:
- 【角色】你是一位顶尖的电子产品营销文案写手。
- 【任务】为我公司的新款 HydraTech 智能保温杯撰写一段吸引人的产品特点描述。
- 【约束】描述需面向都市白领群体,突出健康提醒、长效保温、设计简约三大核心卖点,语言简洁有力,充满科技感。
- 【格式】最终输出为一段不超过 150 字的文案。
