大模型基础:Token、上下文、温度与采样到底在干嘛

大模型基础:Token、上下文、温度与采样到底在干嘛

星苒鸭 Lv4

很多人第一次用大模型,会被几个词劝退:Token、上下文窗口、Temperature、Top-p……看起来很“玄学”。其实把它们放进一个统一视角里,你会发现它们只是回答两个问题:

  • 模型能看到多少信息(上下文)
  • 模型怎么从多个候选里选答案(采样/温度)

看起来像“魔法”,本质是概率与约束

1) Token:不是“一个字”,也不是“一个词”

Token 是模型处理文本的最小单位,可能是:

  • 一个字
  • 一个词的一部分
  • 一个符号(比如空格、标点)

所以你会看到:

  • 同样长度的中文/英文,token 数可能差很多
  • 代码/URL 这种“符号密集”的文本,token 会涨得很快

实战建议:

  • 你写提示词时,别迷信“字数”,要考虑 token 上限
  • 尤其是做 RAG/长文总结时,先控长度再谈质量

2) 上下文窗口(Context Window):模型的“工作记忆”

上下文窗口决定模型一次能“看见”的 token 总数(包含:系统提示、用户消息、历史对话、检索内容、工具返回)。

常见现象:

  • 你聊得越久,模型越容易“忘记前面说过的”
  • 当输入超过窗口上限时,系统会截断(通常是截掉最早的部分)

实战建议:

  • 把长期规则放在 system prompt 或“固定前缀”里
  • 对长对话做摘要,把摘要塞回上下文(用“记忆压缩”)

3) Temperature:随机性开关(但不是“越低越准”)

直觉理解:

  • 温度低:更倾向选择概率最高的词 → 更稳、更像“背书”
  • 温度高:更愿意尝试次高概率的词 → 更发散、更有创意

但要注意:

  • 温度太低可能会变“死板/重复”
  • 温度太高容易跑题、胡编

经验值(仅供参考):

  • 写代码/严谨解释:0.1 ~ 0.4
  • 日常问答/润色:0.5 ~ 0.8
  • 头脑风暴:0.9 ~ 1.2

4) Top-p / Top-k:把候选答案“剪枝”

你可以把它理解为:模型每一步会产生很多候选 token,Top-p/Top-k 用来限制“可选范围”。

  • Top-k:只从概率最高的 k 个里选
  • Top-p:只从累计概率达到 p 的候选集合里选

实战经验:

  • 如果你已经用 Top-p,就不必再把 Top-k 调得太激进
  • 你想要更稳:降低 top_p(比如 0.8)
  • 你想要更发散:提高 top_p(比如 0.95)

5) 为什么会“胡编”?(你不是一个人)

常见原因:

  • 上下文不够,信息缺失
  • 你的问题本身含糊,模型只能“补全”
  • 采样参数过于发散

解决思路:

  • 给约束:格式、边界、必须引用依据
  • 给材料:把事实放进上下文(或做 RAG)
  • 给验证:让模型输出“可核对的中间步骤/引用”

总结

把大模型推理过程想成两层:

  • 能看到什么:上下文窗口
  • 怎么选择词:温度与采样剪枝

你把这两层理解清楚,调参就不再玄学,提示词也更容易写出稳定结果。

封面与配图来自 Unsplash(免费使用授权)。

  • 标题: 大模型基础:Token、上下文、温度与采样到底在干嘛
  • 作者: 星苒鸭
  • 创建于 : 2026-02-06 13:30:00
  • 更新于 : 2026-03-05 19:20:55
  • 链接: https://xingranya.cn/llm-basics-tokens-sampling-context/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论