公式

0 / 14

面向零基础读者的系统梳理：每个知识点尽量包含「概念解释、原理详解、面试问答、追问应对、代码示例（如适用）」。本模块是 LLM / Agent 面试的高频核心，建议结合论文与开源实现（如 Hugging Face Transformers、vLLM）对照理解。

目录
Transformer 架构
注意力机制详解
Tokenization
大模型推理
模型微调
对齐技术
模型量化
推理优化
前沿模型与选型
综合面试题库（20+ 题）

将 $(d_{model})$ 拆成 (h) 个头，每个头在$ (d_k = d_{model}/h) $维子空间上独立做注意力，最后 Concat 再乘 $(W_O)$ 投回 $(d_{model})$。

阅读全文