大模型基础:Token、上下文、温度与采样到底在干嘛
很多人第一次用大模型,会被几个词劝退:Token、上下文窗口、Temperature、Top-p……看起来很“玄学”。其实把它们放进一个统一视角里,你会发现它们只是回答两个问题:
- 模型能看到多少信息(上下文)
- 模型怎么从多个候选里选答案(采样/温度)
1) Token:不是“一个字”,也不是“一个词”
Token 是模型处理文本的最小单位,可能是:
- 一个字
- 一个词的一部分
- 一个符号(比如空格、标点)
所以你会看到:
- 同样长度的中文/英文,token 数可能差很多
- 代码/URL 这种“符号密集”的文本,token 会涨得很快
实战建议:
- 你写提示词时,别迷信“字数”,要考虑 token 上限
- 尤其是做 RAG/长文总结时,先控长度再谈质量
2) 上下文窗口(Context Window):模型的“工作记忆”
上下文窗口决定模型一次能“看见”的 token 总数(包含:系统提示、用户消息、历史对话、检索内容、工具返回)。
常见现象:
- 你聊得越久,模型越容易“忘记前面说过的”
- 当输入超过窗口上限时,系统会截断(通常是截掉最早的部分)
实战建议:
- 把长期规则放在 system prompt 或“固定前缀”里
- 对长对话做摘要,把摘要塞回上下文(用“记忆压缩”)
3) Temperature:随机性开关(但不是“越低越准”)
直觉理解:
- 温度低:更倾向选择概率最高的词 → 更稳、更像“背书”
- 温度高:更愿意尝试次高概率的词 → 更发散、更有创意
但要注意:
- 温度太低可能会变“死板/重复”
- 温度太高容易跑题、胡编
经验值(仅供参考):
- 写代码/严谨解释:0.1 ~ 0.4
- 日常问答/润色:0.5 ~ 0.8
- 头脑风暴:0.9 ~ 1.2
4) Top-p / Top-k:把候选答案“剪枝”
你可以把它理解为:模型每一步会产生很多候选 token,Top-p/Top-k 用来限制“可选范围”。
- Top-k:只从概率最高的 k 个里选
- Top-p:只从累计概率达到 p 的候选集合里选
实战经验:
- 如果你已经用 Top-p,就不必再把 Top-k 调得太激进
- 你想要更稳:降低 top_p(比如 0.8)
- 你想要更发散:提高 top_p(比如 0.95)
5) 为什么会“胡编”?(你不是一个人)
常见原因:
- 上下文不够,信息缺失
- 你的问题本身含糊,模型只能“补全”
- 采样参数过于发散
解决思路:
- 给约束:格式、边界、必须引用依据
- 给材料:把事实放进上下文(或做 RAG)
- 给验证:让模型输出“可核对的中间步骤/引用”
总结
把大模型推理过程想成两层:
- 能看到什么:上下文窗口
- 怎么选择词:温度与采样剪枝
你把这两层理解清楚,调参就不再玄学,提示词也更容易写出稳定结果。
封面与配图来自 Unsplash(免费使用授权)。
- 标题: 大模型基础:Token、上下文、温度与采样到底在干嘛
- 作者: 星苒鸭
- 创建于 : 2026-02-06 13:30:00
- 更新于 : 2026-03-05 19:20:55
- 链接: https://xingranya.cn/llm-basics-tokens-sampling-context/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。