LLM运行机制
2026/6/23 15:53:35 网站建设 项目流程

以下知识整理来自网络。

一、自回归生成(Autoregressive Generation)

LLM基于用户提供的上下文,每次只“补”一个 Token(文本碎片),然后把这个碎片加进上下文,再预测下一个,如此循环,直到生成完整回答,这个过程叫自回归生成。

Token:文本碎片。

Temperature/Top-p/Top-k:模型选择Token的策略。

Max Tokens:允许模型最多“补”多少步。

二、Token估算

英文:1 Token 大约对应 3~4 个字符。

中文:1 Token 大约对应 1~2 个汉字。

Token 成本与 Tokenizer 版本强相关。

精确计数时建议使用模型对应的官方 Tokenizer 工具。

三、上下文窗口

上下文窗口是 LLM 的“工作记忆”(Working Memory)。它决定了模型在单次对话可以处理或“记住”的文本量(以 Token 为单位)。

上下文窗口并非越大越好,它受限于Transformer 架构的自注意力机制(Self-Attention)。

上下文窗口包括:

  • System Prompt:调节模型行为的系统指令(对用户隐藏,但占用窗口)。
  • 工具调用 Schema:函数定义与参数结构。
  • User Prompt:业务数据与指令。
  • 多轮对话历史:过往的消息记录。
  • RAG 检索片段:从外部知识库检索到的补充信息。
  • 格式开销:特殊字符、换行符、Markdown 标记等。
  • 模型生成的输出 Token:输出也占用上下文窗口

四、Prompt Caching

Prompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同,这部分就不重新计费,只收“缓存读取”的费用(通常是正常价格的 10%~50%)。

降低Token成本的建议:

  1. 把不变的内容放前面(System Prompt、工具定义、RAG Context),把变化的内容放后面(User Prompt)。
  2. 监控cache_read_tokenscache_creation_tokens指标,验证缓存命中率。
  3. 批量任务尽量在缓存时间窗口内完成(不同模型的缓存时长不一样)。

五、Logits到概率采样

模型每一步会给词表中每个候选 Token 打一个分数(叫logits),分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换(softmax)变成每个候选Token被选中的概率。最后,模型按这个概率分布“抽签”(采样),决定输出哪个 Token。

解码参数(Temperature、Top-p、Top-k 等)就是在这个“打分 → 概率 → 抽签”的过程中施加控制:

  • Temperature:调整概率分布的“形状”,让高分选项更突出,或者让各选项更均匀。
  • Top-p / Top-k:直接砍掉不靠谱的候选项,缩小“抽签池”。
  • Penalty 系列:对已经出现过的词降分,防止“复读机”。

5.1Temperature 的工作原理:在 softmax 之前,先把所有分数除以温度值 T。

温度越低,输出越确定;温度越高,输出越随机。

Temperature:词表里所有 Token 理论上都有被选中的可能。

5.2Top-k = 5:只保留概率最高的 5 个候选Token。

Top-p = 0.8:从高到低累加概率,保留累计刚好达到 80% 的最小Token集合。

六、Penalty与复读问题

Penalty 参数用来缓解这类问题:模型反复输出同一句话,或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数:

参数作用
Repetition Penalty降低所有已出现 Token 的概率
Presence Penalty只要 Token 出现过就扣分(不看次数)
Frequency PenaltyToken 出现次数越多扣分越重

建议:如果不确定这些参数的精确语义(不同供应商定义可能不同),建议保持默认值。用低温 + 更强 Prompt 约束 + 更短输出来获得稳定性,比调 Penalty 更可控。

七、首字延迟(TTFT,Time-To-First-Token)

价值:改善用户体验。

批量处理图片时,TTFT会显著增加。

上下文变长后,TTFT会显著增加。

八、参数配置建议

场景TemperatureTop-pPenalty其他
JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode + 重试策略
代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt
多轮对话0.6-0.80.9适度开启控制历史消息长度
创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性,做好后处理
思维链模型不支持--通过prompt控制

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询