星苒鸭 · 博客

大模型基础：Token、上下文、温度与采样到底在干嘛

大模型基础：Token、上下文、温度与采样到底在干嘛

星苒鸭 Lv4

2026-02-06 13:30 2026-02-06 13:30 创建 2026-03-05 19:20:55 2026-03-05 19:20:55 更新

AI 技术

789 字 2 分钟

很多人第一次用大模型，会被几个词劝退：Token、上下文窗口、Temperature、Top-p……看起来很“玄学”。其实把它们放进一个统一视角里，你会发现它们只是回答两个问题：

模型能看到多少信息（上下文）
模型怎么从多个候选里选答案（采样/温度）

1) Token：不是“一个字”，也不是“一个词”

Token 是模型处理文本的最小单位，可能是：

一个字
一个词的一部分
一个符号（比如空格、标点）

所以你会看到：

同样长度的中文/英文，token 数可能差很多
代码/URL 这种“符号密集”的文本，token 会涨得很快

实战建议：

你写提示词时，别迷信“字数”，要考虑 token 上限
尤其是做 RAG/长文总结时，先控长度再谈质量

2) 上下文窗口（Context Window）：模型的“工作记忆”

上下文窗口决定模型一次能“看见”的 token 总数（包含：系统提示、用户消息、历史对话、检索内容、工具返回）。

常见现象：

你聊得越久，模型越容易“忘记前面说过的”
当输入超过窗口上限时，系统会截断（通常是截掉最早的部分）

实战建议：

把长期规则放在 system prompt 或“固定前缀”里
对长对话做摘要，把摘要塞回上下文（用“记忆压缩”）

3) Temperature：随机性开关（但不是“越低越准”）

直觉理解：

温度低：更倾向选择概率最高的词 → 更稳、更像“背书”
温度高：更愿意尝试次高概率的词 → 更发散、更有创意

但要注意：

温度太低可能会变“死板/重复”
温度太高容易跑题、胡编

经验值（仅供参考）：

写代码/严谨解释：0.1 ~ 0.4
日常问答/润色：0.5 ~ 0.8
头脑风暴：0.9 ~ 1.2

4) Top-p / Top-k：把候选答案“剪枝”

你可以把它理解为：模型每一步会产生很多候选 token，Top-p/Top-k 用来限制“可选范围”。

Top-k：只从概率最高的 k 个里选
Top-p：只从累计概率达到 p 的候选集合里选

实战经验：

如果你已经用 Top-p，就不必再把 Top-k 调得太激进
你想要更稳：降低 top_p（比如 0.8）
你想要更发散：提高 top_p（比如 0.95）

5) 为什么会“胡编”？（你不是一个人）

常见原因：

上下文不够，信息缺失
你的问题本身含糊，模型只能“补全”
采样参数过于发散

解决思路：

给约束：格式、边界、必须引用依据
给材料：把事实放进上下文（或做 RAG）
给验证：让模型输出“可核对的中间步骤/引用”

总结

把大模型推理过程想成两层：

能看到什么：上下文窗口
怎么选择词：温度与采样剪枝

你把这两层理解清楚，调参就不再玄学，提示词也更容易写出稳定结果。

封面与配图来自 Unsplash（免费使用授权）。

标题: 大模型基础：Token、上下文、温度与采样到底在干嘛
作者: 星苒鸭
创建于 : 2026-02-06 13:30:00
更新于 : 2026-03-05 19:20:55
链接: https://xingranya.cn/llm-basics-tokens-sampling-context/
版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。

评论

目录

大模型基础：Token、上下文、温度与采样到底在干嘛

1) Token：不是“一个字”，也不是“一个词”
2) 上下文窗口（Context Window）：模型的“工作记忆”
3) Temperature：随机性开关（但不是“越低越准”）
4) Top-p / Top-k：把候选答案“剪枝”
5) 为什么会“胡编”？（你不是一个人）
总结

图片预览