LLM运行机制-二趣网

以下知识整理来自网络。

一、自回归生成（Autoregressive Generation）

LLM基于用户提供的上下文，每次只“补”一个 Token（文本碎片），然后把这个碎片加进上下文，再预测下一个，如此循环，直到生成完整回答，这个过程叫自回归生成。

Token：文本碎片。

Temperature/Top-p/Top-k：模型选择Token的策略。

Max Tokens：允许模型最多“补”多少步。

二、Token估算

英文：1 Token 大约对应 3~4 个字符。

中文：1 Token 大约对应 1~2 个汉字。

Token 成本与 Tokenizer 版本强相关。

精确计数时建议使用模型对应的官方 Tokenizer 工具。

三、上下文窗口

上下文窗口是 LLM 的“工作记忆”（Working Memory）。它决定了模型在单次对话可以处理或“记住”的文本量（以 Token 为单位）。

上下文窗口并非越大越好，它受限于Transformer 架构的自注意力机制（Self-Attention）。

上下文窗口包括：

System Prompt：调节模型行为的系统指令（对用户隐藏，但占用窗口）。
工具调用 Schema：函数定义与参数结构。
User Prompt：业务数据与指令。
多轮对话历史：过往的消息记录。
RAG 检索片段：从外部知识库检索到的补充信息。
格式开销：特殊字符、换行符、Markdown 标记等。
模型生成的输出 Token：输出也占用上下文窗口。

四、Prompt Caching

Prompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同，这部分就不重新计费，只收“缓存读取”的费用（通常是正常价格的 10%~50%）。

降低Token成本的建议：

把不变的内容放前面（System Prompt、工具定义、RAG Context），把变化的内容放后面（User Prompt）。
监控cache_read_tokens和cache_creation_tokens指标，验证缓存命中率。
批量任务尽量在缓存时间窗口内完成（不同模型的缓存时长不一样）。

五、Logits到概率采样

模型每一步会给词表中每个候选 Token 打一个分数（叫logits），分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换（softmax）变成每个候选Token被选中的概率。最后，模型按这个概率分布“抽签”（采样），决定输出哪个 Token。

解码参数（Temperature、Top-p、Top-k 等）就是在这个“打分 → 概率 → 抽签”的过程中施加控制：

Temperature：调整概率分布的“形状”，让高分选项更突出，或者让各选项更均匀。
Top-p / Top-k：直接砍掉不靠谱的候选项，缩小“抽签池”。
Penalty 系列：对已经出现过的词降分，防止“复读机”。

5.1Temperature 的工作原理：在 softmax 之前，先把所有分数除以温度值 T。

温度越低，输出越确定；温度越高，输出越随机。

Temperature：词表里所有 Token 理论上都有被选中的可能。

5.2Top-k = 5：只保留概率最高的 5 个候选Token。

Top-p = 0.8：从高到低累加概率，保留累计刚好达到 80% 的最小Token集合。

六、Penalty与复读问题

Penalty 参数用来缓解这类问题：模型反复输出同一句话，或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数：

参数	作用
Repetition Penalty	降低所有已出现 Token 的概率
Presence Penalty	只要 Token 出现过就扣分（不看次数）
Frequency Penalty	Token 出现次数越多扣分越重

建议：如果不确定这些参数的精确语义（不同供应商定义可能不同），建议保持默认值。用低温 + 更强 Prompt 约束 + 更短输出来获得稳定性，比调 Penalty 更可控。

七、首字延迟（TTFT，Time-To-First-Token）

价值：改善用户体验。

批量处理图片时，TTFT会显著增加。

上下文变长后，TTFT会显著增加。

八、参数配置建议

场景	Temperature	Top-p	Penalty	其他
JSON / 结构化输出	0-0.3	1.0	保持默认	配合 Strict Mode + 重试策略
代码评审 / 技术分析	0.4-0.7	0.9	保持默认	结合 CoT(Chain of Thought) Prompt
多轮对话	0.6-0.8	0.9	适度开启	控制历史消息长度
创意写作 / 头脑风暴	0.8-1.2	0.95	按需开启	接受输出多样性，做好后处理
思维链模型	不支持	-	-	通过prompt控制

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

2026山东大学软件学院创新项目实训（团队——6）

PLAF：实现开放词汇3D场景理解的像素级语言对齐特征提取

衍射-全息混合架构：实现被动光学实时图像分类的光子AI系统

需要专业的网站建设服务？